※온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2024-01-19 데이터 최종 개방 1.0 2023-05-26 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-03-20 산출물 전체 공개 소개
11개의 의료기관에서 획득한 소아 엑스레이 데이터로 신생아 카테터 중심의 신생아 질환 진단, 소아 복부 질환으로 총 신생아 카테터 엑스레이 데이터 64,000장 이상, 소아 복부 엑스레이 이미지 50,000장 이상의 다양한 영상을 Annotaion한 데이터셋으로 임상 정보와 관련한 구조화된 데이터를 구축
구축목적
인공지능 개발을 위한 의료 영상, 이미지 기반의 의료 지식 베이스 구축 및 AI 기반 신생아 카테터 위치 및 소아 복부 질환 판정 및 진단 치료 분석을 위한 임상적 진단의 상관관계 분석을 위한 학습용 데이터셋
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 텍스트 , 이미지 데이터 형식 txt 데이터 출처 신생아 카테터 엑스레이 : 병원에서 진료 목적으로 촬영된 이미지 데이터 EMR : 병원에서 치료 목적으로 수집한 임상 데이터 라벨링 유형 세그멘테이션(이미지) 라벨링 형식 JSON 데이터 활용 서비스 데이터 구축년도/
데이터 구축량2022년/64,000 -
1. 데이터 구축 규모
-재태주수 기준1. 데이터 구축 규모-재태주수 기준 항목 데이터 수 28주 미만 28주 이상 33주 이상 32주 이하 BPD 3,000 2,000 1,000 0 TTN 5,500 500 250 4,750 NEC 2,500 1,500 500 500 atelectasis 3,000 1,200 600 1,200 air leak 5,000 1,500 500 3,000 RDS 11,000 3,000 4,000 4,000 정상군 10,000 1,000 1,000 8,000 ET tube 6,500 2,000 2,000 2,500 g tube 5,000 1,500 1,500 2,000 UVC 4,000 2,200 750 1,000 UAC 3,500 3,000 250 250 PICC 5,000 2,000 2,000 1,000 총 데이터 양 64,000 21,450 14,350 28,200 -출생체중 기준
1. 데이터 구축 규모-출생체중 기준 항목 데이터 수 <1000g 1000-1500g 1500g≤ BPD 3,000 2,000 1,000 0 TTN 5,500 0 0 5,500 NEC 2,500 1,500 500 500 atelectasis 3,000 1,000 1,000 1,000 air leak 5,000 1,000 500 3,500 RDS 11,000 3,000 4,000 4,000 정상군 10,000 0 500 9,500 ET tube 6,500 2,000 2,000 2,500 g tube 5,000 1,000 1,500 2,500 UVC 4,000 2,000 750 1,250 UAC 3,500 3,000 250 250 PICC 5,000 2,000 2,000 1,000 총 데이터 양 64,000 18,500 14,000 31,500 2. 데이터 분포
2. 데이터 분포 구분 재태주수 분포 출생기준 분포 정상 (C00) GA01 : 1,000(9.86%) BW01 : 67(0.66%) GA02 : 1,140(11.24%) BW02 : 568(5.60%) GA03 : 8,000(78.90%) BW03 : 9,505(93.74%) RDS (C01) GA01 : 3,664(22.98%) BW01 : 3,368(21.13%) GA02 : 5,557(34.86%) BW02 : 4,778(29.97%) GA03 : 6,721(42.16%) BW03 : 7,796(48.90%) TTN (C02) GA01 : 620(10.30%) BW01 : 39(0.65%) GA02 : 260(4.32%) BW02 : 196(3.26%) GA03 : 5,140(85.38%) BW03 : 5,785(96.10%) BPD (C03) GA01 : 2,068(60.63%) BW01 : 2,047(60.01%) GA02 : 1,240(36.35%) BW02 : 1,234(36.18%) GA03 : 103(3.02%) BW03 : 130(3.81%) Atelectasis (C04) GA01 : 1,259(38.53%) BW01 : 1,224(37.45%) GA02 : 694(21.24%) BW02 : 1,000(30.60%) GA03 : 1,315(40.24%) BW03 : 1,044(31.95%) Air leak syndrome (C05) GA01 : 1,511(29.52%) BW01 : 1,083(21.16%) GA02 : 515(10.06%) BW02 : 501(9.79%) GA03 : 3,093(6042%) BW03 : 3,535(69.06%) NEC (C06) GA01 : 1,507(59.94%) BW01 : 1,509(60.02%) GA02 : 500(19.89%) BW02 : 504(20.05%) GA03 : 507(20.17%) BW03 : 501(19.93%) ET-tube (C07) GA01 : 2,004(30.35%) BW01 : 2,075(38.26%) GA02 : 2,005(30.37%) BW02 : 2,001(30.31%) GA03 : 2,593(39.28%) BW03 : 2,526(38.26%) NG-tube (C08) GA01 : 1,716(29.24%) BW01 : 1,152(19.63%) GA02 : 1,517(25.85%) BW02 : 1,503(25.61%) GA03 : 2,635(44.90%) BW03 : 3,213(54.75%) PICC (C09) GA01 : 2,302(37.29%) BW01 : 2,223(36.01%) GA02 : 2,130(34.50%) BW02 : 2,126(34.43%) GA03 : 1,742(28.22%) BW03 : 1,825(29.56%) UAC (C10) GA01 : 3,011(85.52%) BW01 : 3,008(85.43%) GA02 : 252(7.16%) BW02 : 251(7.13%) GA03 : 258(7.33%) BW03 : 262(7.44%) UVC (C11) GA01 : 2,457(37.29%) BW01 : 2,374(53.89%) GA02 : 770(17.48%) BW02 : 751(17.05%) GA03 : 1,178(26.74%) BW03 : 1,280(29.06%) -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드(1) 신생아 엑스레이 영상에서의 카테터 분할 모델
- 기능: 신생아 엑스레이 영상에서 총 5가지 종류의 카테터(ET-tube, NG-tube, PICC, UAC, UVC)를 분할
- 사용 모델: U-Net카테터 분할 모델 구조도
- 모델 출력: 영상과 동일한 크기의 카테터 영역이 표시된 이진 마스크 이미지로, 그 예시는 아래와 같음 (빨간색: 모델 예측 영역, 초록색: 정답 영역, 노란색: 모델이 정답을 맞춘 영역)
ET-tube 분할 결과
NG-tube 분할 결과
PICC 분할 결과
UAC 분할 결과
UVC 분할 결과
- 모델 성능: 테스트 세트 3,975건에 대해 평균 dice score 78% 달성하였으며, 각 카테터에 대한 성능은 아래와 같음
(1) 신생아 엑스레이 영상에서의 카테터 분할 모델- 모델 성능 Dice score 테스트 데이터 수 ET-tube 0.85 677 NG-tube 0.8 587 PICC 0.77 627 UAC 0.76 352 UVC 0.72 440 (2) 신생아 엑스레이 영상에서의 흉부 질환 분류 모델
- 기능: 신생아 엑스레이 영상에서 총 7가지 종류의 흉부 질환(Airleak syndrome, Atelectasis, BPD, NEC, RDS, TTN, 정상)을 분류
- 사용 모델: ResNet-50- 모델 성능: 테스트 세트 4,517건에 대해 정확도(accuracy) 83% 달성하였으며, 각 질환에 대한 혼동 행렬 (confusion matrix)는 아래와 같음
(2) 신생아 엑스레이 영상에서의 흉부 질환 분류 모델- 모델 성능 모델 예측 정답 Airleak Atelectasis BPD NEC Normal RDS TTN Airleak 394 22 0 0 21 49 15 Atelectasis 15 254 13 0 7 33 4 BPD 1 32 282 0 6 14 2 NEC 7 108 5 72 8 7 10 Normal 4 2 0 0 836 12 86 RDS 16 9 2 0 2 1457 108 TTN 2 1 0 0 80 67 452 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 폐 질환 분류 성능 Image Classification ResNet50 Accuracy 80 % 83 % 2 카테터 분할 성능 Object Detection U-Net DSC 0.63 단위없음 0.78 단위없음
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드데이터 구성
데이터 구성 Key Description Type annotation 어노테이션정보 array m_isClosed 폴리곤 개방여부 boolean m_area 면적 number m_points 객체좌표 array x x좌표 number y y좌표 number label 카테고리 분류 string type 라벨링 타입 string images 이미지 object width 넓이 string dataCaptured 촬영날짜 string height 높이 string dataInfo 데이터 정보 string 정상 질병없음 string RDS 호흡곤란증후군 string RT Grade 오른쪽 폐 정도 string LT Grade 왼쪽 폐 정도 string TTN 일과성 호흡증후군 string BPD 기관지폐 string Atelectasis 무기폐 string Air leak syndrome 공기 누출 증후군 string Tip 위치 Tube 상단 끝 string Tube 위치 척추,심장 string 삽입위치 구강,제대,말초혈관 string Tip위치(Vertebra) 척추기준 string Tip위치(심장음영) 심장음영기준 string Catheterization Level 카테터 상하 위치 string 방향성 카테터 위치 방향성 string NEC 괴사성 장염 string Pneumoperitoneum 기복증 string Pneumatosis intestinalis 창자벽 공기낭증 string Portal vein gas 간문맥 내 가스 string Clinic_info 임상 정보 object Type 질환타입 string Pid 환자번호 string Date 영상촬영날짜 string (YYYY-MM-DD) GA_week 재태주수 number GA_day 재태주수일 number BWt 출생체중 number sex 성별 string Delivery_mode 분만정보 string PMA_week_at_exam_data 촬영일기준 재태주수 number PMA_day_at_exam_data 촬영일기준 재태주수일 number age_at_exam 촬영일기준 나이 string weight_at_exam_data 촬영일기준 체중 number BWt_group 출생체중 그룹코드 string GA_group 재태주수 그룹코드 string 어노테이션 포맷
어노테이션 포맷 구 분 속성명 타입 필수여부 설명 비고 1 annotation array Y 어노테이션정보 1-1 object 1-1-1 m_isClosed boolean Y 폴리곤 개방여부 1-1-2 m_area number 면적 5414.5686 1-1-3 m_points array Y 객체좌표 1-1-3-1 object Y 1-1-3-1-1 x number Y x좌표 1-1-3-1 -2 y number Y y좌표 1-1-4 label string Y 카테고리 분류 PICC 1-1-5 type string Y 라벨링 타입 curvPoly 2 images object Y 이미지 2-1 width string Y 넓이 2000 2-2 dataCaptured string Y 촬영날짜 18000101 2-3 height string Y 높이 2510 3 dataInfo string 데이터 정보 3-1 object 3-1-1 정상 string Y 질병없음 1 3-1-2 RDS string Y 호흡곤란증후군 1 3-1-3 RT Grade string Y 오른쪽 폐 정도 1 3-1-4 LT Grade string Y 왼쪽 폐 정도 1 3-1-5 TTN string Y 일과성 호흡증후군 1 3-1-6 BPD string Y 기관지폐 1 3-1-7 Atelectasis string Y 무기폐 1 3-1-8 Air leak string Y 공기 누출 증후군 1 syndrome 3-1-9 Tip 위치 string Y Tube 상단 끝 3 3-1-10 Tube 위치 string Y 척추,심장 1 3-1-11 삽입위치 string Y 구강,제대,말초혈관 1 3-1-12 Tip위치(Vertebra) string Y 척추기준 1 3-1-13 Tip위치(심장음영) string Y 심장음영기준 1 3-1-14 Catheterization string Y 카테터 상하 위치 1 Level 3-1-15 방향성 string Y 카테터 위치 방향성 1 3-1-16 NEC string Y 괴사성 장염 1 3-1-17 Pneumoperitoneum string Y 기복증 1 3-1-18 Pneumatosis intestinalis string Y 창자벽 공기낭증 1 3-1-19 Portal vein gas string Y 간문맥 내 가스 1 4 Clinic_info object Y 임상 정보 4-1 Type string Y 질환타입 PICC 4-2 Pid string Y 환자번호 1 4-3 Date string 영상촬영날짜 44378 (YYYY-MM-DD) 4-4 GA_week number Y 재태주수 28 4-5 GA_day number Y 재태주수일 5 4-6 BWt number Y 출생체중 880 4-7 sex string 성별 M 4-8 Delivery_mode string 분만정보 C 4-9 PMA_week_at_exam_data number 촬영일기준 재태주수 28 4-10 PMA_day_at_exam_data number 촬영일기준 재태주수일 5 4-11 age_at_exam string 촬영일기준 나이 1 4-12 weight_at_exam_data number 촬영일기준 체중 880 4-13 BWt_group string Y 출생체중 그룹코드 BW01 4-14 GA_group string Y 재태주수 그룹코드 GA01 데이터 포맷
데이터 포맷 신생아 카테터 이미지 데이터 신생아 카테터 이미지 데이터 원천 데이터 : DICOM 라벨링 데이터 : JSON[PNG, DICOM] 데이터 포맷 신생아 카테터 임상 의료 데이터 신생아 카테터 임상 의료 데이터 메타 데이터 : TXT 라벨링 데이터 : JSON 실제예시
-
데이터셋 구축 담당자
수행기관(주관) : 고려대학교 산학협력단
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김형진 unk1004@hanmail.net 연구원 수행기관(참여)
수행기관(참여) 기관명 담당업무 가톨릭대학교 산학협력단 데이터 수집 계명대학교 산학협력단 데이터 수집 삼성서울병원 데이터 수집 아주대학교 산학협력단 데이터 수집 연세대학교 산학협력단 데이터 수집 전북대학교병원 데이터 수집 차의과대학교 분당차병원 데이터 수집 충북대학교병원 데이터 수집 미소정보기술 데이터셋 정제, 비식별화 도구, 저작도구 코어라인소프트 학습모델 구현 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김형진 unk1004@hanmail.net
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.