※온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
BETA 소아 복부 x-ray 멀티모달 데이터
- 분야헬스케어
- 구분 안심존(온라인)
- 유형 텍스트 , 이미지
- 생성 방식LMM
※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2025-04-16 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2025-04-16 산출물 전체 공개 소개
소아 복부 질환 진단을 위한 동일 환자의 X-ray와 CT 영상과 임상데이터 쌍으로 2,000명 이상 환자의 병리학적 진단 구별을 포함한 총 2,000건의 인공지능 학습용 데이터 구축 • 소아 복부 X-ray, CT 영상이 있는 환자에 대한 검사 2,000건 이상 • 데이터 1건 : 비식별화된 X-ray 이미지 1장, CT 이미지 1장으로 구성된 이미지 셋
구축목적
• 데이터 구축 목적은 소아 복부 질환을 효과적으로 진단 보조하고 치료계획 수립을 보조하는 인공지능(AI) 모델을 개발하는 데 있음. • 초거대 AI 학습데이터로 학습된 모델은 X-ray, CT 의료 영상 분석을 통해 소아 복부 질환의 존재 및 유형을 자동으로 식별하고, 복부 내 이상을 정확히 파악하는 데 중요한 역학을 함. • 복부 종괴 질환 그룹과 장폐색 질환 그룹을 포함한 다양한 소아 복부 질환에 대한 진단 지원을 복적으로 함.
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 텍스트 , 이미지 데이터 형식 CSV 데이터 출처 각 수집기관 병원 라벨링 유형 바운딩박스(이미지)//세그멘테이션(이미지) 라벨링 형식 JSON 데이터 활용 서비스 소아 복부 질환 진단 보조 AI 모델 개발 데이터 구축년도/
데이터 구축량2024년/2,011명(122,510건) -
□ 데이터 구축 규모
□ 데이터 구축 규모 구분 원천
데이터 건수라벨링
데이터 건수복부종괴 장폐색 대조군 소아복부 질환 122,510 122,510 47,920 43,194 31,396 항목 요구사항 데이터 수량 o (원천데이터) 소아 복부 질환 진단을 위한 동일 환자의 X-ray와 기타 의료 영상과 임상데이터 쌍으로 2천 건 이상
- (라벨링 데이터) 주요 임상증상, 진단명 및 치료 방법 레발링
- 원시데이터 수량 (X-ray/CT set 2,000건 이상)
- 원천데이터 수량 (X-ray/CT set 2,000건 이상)
- 라벨링 데이터 수량 (JSON 4,000개 이상)데이터 구성 o (원천데이터) 동일 환자의 X-ray, CT 영상과 임상데이터 쌍으로 2,000건 이상 수집
o 복부 종괴 주요 임상증상 라벨링
- 종괴, 석회화
o 장폐색 주요 임상증상 라벨링
- 공기액체음영, 장 확장, 이물질
o 복부 종괴 주요 진단명 구성
- 신경모세포종, 기형종, 간모세포종, 림프관낭종, 윌름스 종양, 육종, 신경종양, 난조 종양, 혈관 기형, 복강 내 혈액암, 비간모세포종 간 종양, 췌장 종양
o 장폐색 주요 진단명 구성
- 멕켈게실, 장충접증, 중복장, 용종, 장 염전, 이물질, 합병증 동반한 충수 돌기염, 염증성 장질환, 장유착에 의한 장폐색
o 치료 방법 라벨링
- 비수술적 치료, 수술적 치료□ 데이터 분포
□ 데이터 분포 데이터명 원천데이터 구분 구축 비율 소아 복부 멀티모달 데이터 복부 종괴 질환 그룹 750장(37.5%) 장폐색 질환 그룹 750장(37.5%) 대조군 500장(25.0%) -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드□ 소아 복부질환
□ 소아 복부질환 데이터명 AI모델 task AI모델(후보) 성능 지표 및 목표값 Data I/O 소아복부X-ray멀티모달 데이터 임무1:소아 복부질환 영상 진단 분석 모델 MIAC(자체개발),
SAT+GPT-3,
mDiNAP-transformer-ewpROUGE-1 Recall
>= 75%Input data : X-Ray, CT Series,메타데이터
output data : X-Ray및CT에 대한 종합 진단 소견AI모델task AI모델(후보) 성능 지표 및 목표값 Data I/O 임무2:소아 복부질환 주요 소견 검출 모델(X-ray)
(Object Detection)Faster R-CNN,
Retinanet,
YOLOSensitivity >= 80% Input data : X-ray Image
output data :소아복부 질환의 주요 소견(종괴,석회화,장확장,공기액체음영,이물질)의Bounding BoxAI모델 task AI모델(후보) 성능 지표 및 목표값 Data I/O 임무3:소아 복부종괴 및 장확장 분할 모델(CT)
(Semantic Segmentation)U-net,
Attention U-net,
U2-netDice Similarity
Coefficie >= 85%Input data :CT Image
output data :종괴,장확장Binary mask -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드□ 원천 데이터
□ 원천 데이터 2차 경로 3차 경로 4차 경로 파일 포맷 01.복부종괴 ANO_1001 01. CR DICOM 02. CT 02.장폐색 ANO_2001 01. CR DICOM 02. CT 03.대조군 ANO_3001 01. CR DICOM 02. CT 총 수량 122,510 □ 라벨링 데이터
□ 라벨링 데이터 2차 경로 3차 경로 4차 경로 파일 포맷 01.복부종괴 ANO_1001 01. CR DICOM 02. CT 02.장폐색 ANO_2001 01. CR DICOM 02. CT 03.대조군 ANO_3001 01. CR DICOM 02. CT 총 수량 122,510 □ 폴더명 구성 정보
□ 폴더명 구성 정보 경로 구분 정보 구분자 정보 1차 경로 데이터 종류 원천데이터/라벨링데이터 2차 경로 질환 종류 복부종괴/장폐색/대조군 3차 경로 환자별 가명화된 환자 아이디 폴더ANO_1001 4차 경로 이미지 종류 이미지 데이터 종류CR / CT □ 파일명 구성 정보
□ 파일명 구성 정보 예시 세부 구성 설명 ANO_1001_CR_NBL_0001.dcm 가명화 환자명-데이터그룹명(질환별)-가명화 환자번호-모탈리티 분류(CR/CT)-세부질환명 분류-슬라이드 인덱스-데이터 포맷 분류 □ 라벨 구성요소
- 소아 복부 질환□ 라벨 구성요소 - 소아 복부 질환 구분 속성명 타입 설명 예시 비고 공통 filename string 데이터명 ANO_1001.dcm format string 포맷 dcm data string X-ray / CT영상시행일, X-ray와 Ct영상의 시행일이 따로 들어감 YYYY.MM.DD 성별 string 성별 F : Female,
M: Male연령 Number 연령 0~18 영상 당시 키 Number 키 0~300 영상 당시 몸무게 Number 몸무게 0~300 치료 방법 string 치료 방법 비수술적 치료 or
수술적 치료 or null수술 여부 string 수술 여부 Y : Yes,
N : No or null수술일 string 수술일 YYYY.MM.DD or null 수술명 string 수술명 - 진단명 String 진단명은 복부 종괴/장폐색/대조군에 따라 다르게 진단됨 [복부 종괴]
신경모세포종, 기형종, 간모세포종, 림프관낭종, 윌름스 종양, 육종, 신경종양, 난소종양, 혈관 기형, 복강 내 혈액암, 비간모세포종 간 종양, 췌장 종양
[장폐색]
멕켈게실, 장중첩증, 중복장, 용종, 장 염전, 이물질, 합병증 동반한 충수 돌기염, 염증성 장질환, 장유착에 의한 장폐색
[대조군]
대조군복부종괴 위치 String 복부종괴 위치, 장폐색 그룹, 대조군의 경우 null RUQ,RLQ, LUQ, LLQ
or null복부종괴 석회화 String 복부종괴 석회화, 장폐색 그룹, 대조군의 경우 null Y : Yes,
N : No,
or null장폐색 그룹
TransitionString 장폐색 그룹 Transition, 복부종괴 그룹, 대조군의 경우 null Y : Yes,
N : No,
or null장폐색 그룹
Ischemia, perfusion 저하String 장폐색 그룹 Ischemia, perfusion 저하, 복부종괴 그룹, 대조군의 경우 null Y : Yes,
N : No,
or null장폐색 그룹
Closed loop
여부String 장폐색 그룹 Closed loop 여부, 복부종괴 그룹, 대조군의 경우 null Y : Yes,
N : No,
or null장폐색 그룹
Pneumoperitoneum 여부String 장폐색 그룹 Pneumoperitoneum여부, 복부종괴 그룹, 대조군의 경우 null Y : Yes,
N : No,
or nullrescale Slope Number 픽셀 값을 변환할 때 사용되는 선형변환의 기울기 - rescale
InterceptNumber 셀 값을 변환할 때 사용되는 선형 변환의 y절편 - pixel size Number 픽셀 중심 사이의 물리적 거리,단위, mm - slice thickness Number 슬라이스 두께, 단위mm - 종괴
BboxDict 해당 라벨링은 복부종괴 그룹에서 그리는 라벨링으로 장폐색 그룹 및 대조군 그룹의 경우 null로 표기
복부종괴 그룹에서 x-ray데이터 중 종괴가 보이지 않는 경우 null로 표기석회화 Bbox Dict 해당 라벨링은 복부종괴 그룹에서 그리는 라벨링으로 장폐색 그룹 및 대조군 그룹의 경우 null로 표기
복부종괴 그룹에서 CT와 X-ray에서 석회화가 보이지 않는 경우 null로 표기공기액체음영
BboxDict 해당 라벨링은 장폐색 그룹에서 그리는 라벨링으로 복부종괴 그룹 및 대조군 그룹의 경우 null로 표기
장폐색 그룹에서 x-ray 데이터 중 공기액체음영이 보이지 않는 경우 null로 표기이물질
BboxDict 해당 라벨링은 장폐색 그룹에서 그리는 라벨링으로 복부종괴 그룹 및 대조군 그룹의 경우 null로 표기
장폐색 그룹에서 CT와 x-ray데이터 중 이물질이 보이지 않는 경우 null로 표기장확장
BboxDict 해당 라벨링은 장폐색 그룹에서 그리는 라벨링으로 복부종괴 그룹 및 대조군 그룹의 경우 null로 표기
장폐색 그룹에서 x-ray데이터 중 장확장 영역이 보이지 않는 경우 null로 표기종괴 mask Dict 해당 라벨링은 복부종괴 그룹에서 그리는 라벨링으로 장폐색 그룹 및 대조군 그룹의 경우null로 표기
CT데이터 특성 상 모든 슬라이스에 라벨링이 존재하지 않는 경우가 있다.
이에 해당 케이스에 복부종괴가 존재하나, 해당 슬라이스에 라벨링이 없는 경우는 리스트 안에 string "None"으로 표기하며, 해당 슬라이스에 라벨링이 있는 경우는 리스트 안에 리스트로 좌표값을 기입장확장 종괴
maskDict 해당 라벨링은 장폐색 그룹에서 그리는 라벨링으로 복부종괴 그룹 및 대조군 그룹의 경우 null로 표기
장폐색 그룹에서 CT 데이터 중 장확장 영역이 보이지 않는 경우 null로 표기
CT 데이터 특성 상 모든 슬라이스에 라벨링이 존재하지 않는 경우가 있다.
이에 해당 케이스에 장확장은 존재하나, 해당 슬라이스에 라벨링이 없는 경우는 리스트 안에 string "None"으로 표기하며, 해당 슬라이스에 라벨링이 있는 경우는 리스트 안에 리스트로 좌표값을 기입□ json 실제예시
-
데이터셋 구축 담당자
수행기관(주관) : 서울대학교병원
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김현영 02-2072-2478 spkhy02@snu.ac.kr 사업 총괄, 데이터 수집 / 정제 / 검수 수행기관(참여)
수행기관(참여) 기관명 담당업무 (의료)길의료재단 데이터 정제 / 가공 / AI 모델링 ㈜어반데이터랩 사업 관리 총괄, 데이터 품질 관리 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 안치성 02-743-1257 ceo@urbancorp.co.kr 이승호 02-743-1257 leesh@urbancorp.co.kr AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 김영재 032-458-2879 kimyj10528@gmail.com 박준영 032-458-2879 jun0613@gachon.ac.kr 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 김영재 032-458-2879 kimyj10528@gmail.com 이소현 032-458-2879 l03hyun99@gachon.ac.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.
국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.