※온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2022-07-28 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2022-07-28 콘텐츠 최초 등록 소개
신생아에서 15세 청소년에 이르기까지 연령별 흉부 주요발병 질환별로 소아흉부 X-ray 영상과 폐 영역 및 병변 부위를 마스킹한 인공지능 학습용 영상 데이터
구축목적
소아/청소년의 흉부 X-ray로부터 정상/폐렴/기타폐질환을 구분하고, 질환이 있는 경우 병변 영역을 검출해 내도록 인공지능을 훈련하기 위한 데이터셋
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 이미지 데이터 형식 DICOM 데이터 출처 고려대구로병원 외 8개 병원 (참여기관) 라벨링 유형 세크멘테이션 이미지 및 임상정보 Text 라벨링 형식 PNG / JSON 데이터 활용 서비스 소아 흉부질환 진단 서비스 데이터 구축년도/
데이터 구축량2021년/소아 흉부 이미지 데이터 21,217건 -
- 데이터 구축 규모
정상 확보 건수 정상 6,767 폐렴 (바이러스성, 세균성) 8,346 기타 폐질환 6,104 공기누출 (기흉, 종격동기흉) 1,161 과다팽창 468 무기폐 845 신생아 호흡곤란증후군 2,351 흉막삼출 1,279 총합계 21,217 - 나이대별 질환별 구축 규모 및 분포
연령대 질환 종류 환자명수 영상 건수 0-2개월 Normal 정상 4,976 1,056 5,887 1,180 RDS 신생아 호흡곤란증후군 2,069 2,351 Pneumonia (viral+bacteria) 폐렴 (바이러스성, 세균성) 1,293 1,584 Air leak 공기누출 (기흉, 종격동기흉) 558 772 3개월-5세 Normal 정상 5,618 2,255 6,455 2,514 Pneumonia (viral+bacteria) 폐렴 (바이러스성, 세균성) 2,285 2,706 Hyperinflation 과다팽창 446 468 Pleural effusion 흉막삼출 292 364 Atelectasis 무기폐 340 403 6-10세 Normal 정상 3,726 1,207 4,618 1,358 Pneumonia (viral+bacteria) 폐렴 (바이러스성, 세균성) 1,825 2,338 Pleural effusion 흉막삼출 364 480 Atelectasis 무기폐 330 442 11-15세 Normal 정상 3,416 1,433 4,257 1,715 Pneumonia (viral+bacteria) 폐렴 (바이러스성, 세균성) 1,360 1,718 Pleural effusion 흉막삼출 301 435 Air leak 공기누출 (기흉, 종격동기흉) 322 389 총합계 17,736 21,217
- 데이터 구축 규모
-
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 활용 모델
– 흉부 질환분류 모델 및 폐영역 분할 모델 개발 및 검증
– 데이터 : 총 16,500장 사용, Train:Validation:Test = 8:1:1의 비율로 분할
– 흉부 질환분류 모델 : DenseNet121
– 폐영역 분할 모델 : U-Net
- 서비스 활용 시나리오
– 소아 흉부의 정상/질환 여부를 자동으로 분류하는 진단 지원 서비스- 서비스 내용 : 소아 흉부가 정상/질환인지 여부, 질환인 경우 어떤 종류의 질환인지를 구분하고 질환의 영역을 표시해주는 서비스
- 효과 : 1차/2차 병원에서 소아흉부 질환의 스크리닝 진단 제공 가능.
소아과 / 영상의학과 검사시간 단축 및 진단 정확도 증대 등
- 활용 모델
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 소아 흉부 질환 분류 학습 모델 Image Classification DenseNet201 AUC-ROC 0.7 단위없음 0.8646 단위없음 2 소아 흉부 폐영역 분할 학습 모델 Image Classification U-Net mIoU 85 % 89.8 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 데이터셋의 종류 및 형식
– 인공지능학습을 위한 소아흉부질환의 데이터셋은 X-ray 이미지와 폐/병변 부위를 Annotation한 라벨링 영상(Polygon Segmentation) 및 임상정보 메타데이터를 포함한 라벨링 데이터셋으로 구성됨.
(1) 원본 데이터 : 비식별화 처리된 소아 흉부 X-ray 영상 (Dicom 형식)
(2) 라벨링 데이터
– 폐 영역과 병변 영역이 Annotation된 영상 (PNG 형식)
– 환자 나이, 몸무게, 질환종류 등의 임상정보를 포함한 메타데이터 (JSON 형식)
* 원본 및 라벨링 데이터 예시No 원본 데이터(dicom) 폐영역 세그멘테이션(png) 병변영역 세그멘테이션(png) - 데이터 종류
데이터셋명 분류 Level 1 Level 2 Level 3 소아 흉부 이미지 정상 정상 0~2개월 3개월~5세 6~10세 11~15세 폐렴 폐렴 0~2개월 3개월~5세 6~10세 11~15세 기타폐질환 공기누출 0~2개월 11~15세 과다팽창 3개월~5세 무기폐 3개월~5세 6~10세 신생아호흡곤란증후군
(RDS)0~2개월 흉막삼출 3개월~5세 6~10세 11~15세 - 질환별 라벨링 예시
폐렴 RDS 공기누출 무기폐 과다팽창 흉막삼출 - 데이터 구성 및 어노테이션 포맷
No 속성명 항목설명 필수여부 타입 비고 annotations(어노테이션) 1 project_code 프로젝트코드 Y string D74 2 identifier 고유번호 Y string 병원코드+일련번호+순번 (예) H01_00001_01 dicom_info(DICOM정보) 3 modality 모달리티 구분 Y string (예) CR 4 study_id 스터디 ID Y string 5 series_no 시리즈 번호 Y integer 6 instance_no 인스턴스 번호 Y integer patient(환자정보) 7 age_group 연령대 Y string [표] 참조 8 diagnosis 진단명 Y string [표] 참조 9 pneumonia_type 폐렴유형 string 1:바이러스성, 2:세균성, 3:알수없음,4:바이러스성+세균성 10 report 진단내역 string 11 sex 성별 Y string M.남, F.여 12 age 나이 string 1세미만 : 0~11개월 1세이상 : 1세~15세 13 height 키 number cm 14 weight 몸무게 number kg mask_image(어노테이션 이미지) 15 org_dicom_file 원본파일 경로 Y string 16 body_part_mask 장기부위 마스킹 파일경로 Y string 17 lesion_part_mask 병변부위 마스킹 파일경로 string - Annotation 데이터 구조 예시
- 데이터셋의 종류 및 형식
-
데이터셋 구축 담당자
수행기관(주관) : 고려대학교 산학협력단
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 조금준 교수 02-2626-3145 geumjoon@korea.ac.kr · 총괄책임 수행기관(참여)
수행기관(참여) 기관명 담당업무 건국대학교 산업협력단 · 데이터 수집 및 검수 전남대학교 산학협력단 · 데이터 수집 및 검수 카톨릭대학교 산업협력단 · 데이터 수집 및 검수 강원대학교 산업협력단 · 데이터 수집 및 검수 계명대학교 산업협력단 · 데이터 수집 및 검수 경희대학교 산업협력단 · 데이터 수집 및 검수 중앙대학교 산업협력단 · 데이터 수집 및 검수 SQI소프트(주) · 저작/검수 도구
· 개발/운영㈜애마슈 · AI 모델 개발 ㈜에프에이솔루션 · 데이터 품질 관리 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 조금준 교수 02-2626-3145 geumjoon@korea.ac.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.