※온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
고해상도 분자조직학 이미지 데이터
- 분야헬스케어
- 구분 안심존(온라인)
- 유형 이미지
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2022-07-28 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2022-07-28 콘텐츠 최초 등록 소개
4532명 환자의 신장 및 소아 장 전자현미경 이미지와 다양한 질환(1차성 사구체 질환, 소아 장 운동장애 질환 등) 영역 라벨링 및 관련 임상 정보를 포함한 신장 및 소아 장 병리 진단을 위한 AI 학습용 데이터셋
구축목적
고해상도 분자조직학 이미지를 통한 신장 및 소아 장 병리 보조 진단 인공지능 모델 개발 및 진단에 필요한 다양한 임상정보를 제공함으로 써 여러 AI 연구 및 임상 연구에 기여하고자 함.
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 이미지 데이터 형식 svs, tiff, jpg 데이터 출처 자체 수집 라벨링 유형 세그멘테이션 및 바운딩박스 라벨링 형식 JSON 데이터 활용 서비스 국내 신장 및 소아 장 병리 분야 AI 진단 보조 모델 개발 등 데이터 구축년도/
데이터 구축량2021년/4532건(명) -
1. 데이터 구축 규모
- 참여기관별 구축 규모
1. 데이터 구축 규모 신장 데이터 세부 데이터 명 서울대병원 분당서울대병원 서울시립보라매병원 경북대병원 세브란스병원 소계 1차성 사구체 질환 940명 122명 37명 90명 11명 1200명 신장 이식 거부반응 399명 13명 8명 10명 0명 430명 신장 정상대조군 500명 0명 0명 0명 0명 500명 소아 장 데이터 세부 데이터 명 서울대병원 분당서울대병원 삼성서울병원 양산부산대병원 충남대병원 전남대병원 인하대병원 경상대병원 전북대병원 소계 소아 장 운동 장애 1037명 5명 137명 107명 52명 25명 38명 0명 0명 1401명 소아 염증성 장 질환 744명 130명 0명 0명 55명 6명 0명 40명 26명 1001명 - 데이터 종류별 구축 규모
세부 데이터 명 환자 수 원천데이터 라벨링 데이터 광학현미경 이미지 전자현미경 이미지 면역 형광 이미지 합계 HE PAS SIL MT EM IF 1차성 사구체 질환 1200명 2996 1200 1201 1201 8253 8940 23791 1200 신장 이식 거부 반응 430명 1203 430 430 430 2912 2334 7739 430 정상 대조군 500명 1406 500 500 500 3811 3610 10327 500 소아 장 운동장애 1401명 2803 0 0 0 0 0 2803 1401 소아 염증성 장 질환 1001명 2099 0 0 0 0 0 2099 1001
2. 데이터 분포
- 1차성 사구체 질환
신장 1차성 사구체 질환 진단 비율 비율(%) IgAN 75% MN 25%
신장 1 차성 사구체 질환 나이 분포 비율(%) 20 이하 18.33% 20 초과 60 이하 61.42% 60 초과 20.25%
- 신장 이식 거부 반응
신장이식 거부반응 진단 비율 비율(%) Borderline 39.53% Type1 40.23% Type2 20.23%
신장이식 거부반응 나이 분포 비율(%) 20 이하 8.37% 20 초과 60 이하 69.30% 60 초과 22.33%
- 신장 정상대조군
신장 정상대조군 나이 분포 비율(%) 60 초과 81.00% 60 이하 19.00%
- 소아 장 운동장애
소아장 운동장애 진단 비율 비율(%) Aganglionosis 24.63% Hypoganglionosis 18.42% Normal 52.82% Other type 4.14%
- 소아 염증성 장 질환
소아 염증성 장질환 진단 비율 비율(%) IBD 39.76% IBD unclassified 5.39% Normal 45.35% Other type 9.49%
- 참여기관별 구축 규모
-
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1. 분류 모델 : ResNet
- 초기의 neural net의 학습 목적은 input(x)을 타겟값(y)으로 mapping하는 함수 H(x)를 찾는 H(x)-y를 최소화하는 방향으로 학습을 진행하지만 ResNet은 출력값이 x가 되도록 H(x)-x를 최소화하는 방향으로 학습을 진행한다. F(x) = H(x) - x를 residual 이라고 하며 이 residaul를 학습하는 모델 구조
2. 분할 모델 : U-Net
- Convolution layer의 block으로 구성된 downsampling 형태의 Encoder 구조와 upsampling 형태의 Decoder 구조로 크게 나뉜다. Downsampling을 통해 압축된 feature를 Upsampling을 통하여 입력 영상의 크기로 만드는 과정에서 이전 downsampling을 통하여 추출된 feature와 concatenation하여 downsampling block의 feature를 포함하여 upsampling하는 구조
3. 탐지 모델 : Yolo v5
- Backbone 부분은 입력 영상으로부터 Feature map을 추출하고 PANet 부분은 feature map을 바탕으로 물체의 위치를 찾는 부분이다. Anchor box로부터3개의 다른 스케일에서 바운딩 박스를 생성하여 각 스케일의 3개의 앵커 박스를 사용하여 객체 탐지를 하는 구조
4. 학습 환경
- 권장 학습 분배량
- 학습 시 학습, 검증, 평가 데이터의 배분을 80%, 10%, 10%의 비율로 사용
- 학습 환경
- python 3.0+
- Tensorflow 2.0+
- Pytorch 1.1+
- OpenCV 3.0 이상
5. 서비스 활용 시나리오 : 병리 이미지 기반 진단 보조 서비스
- 기존 병리 뷰어에 본 데이터를 통해 고해상도 병리 이미지에 딥러닝 알고리즘을 적용하여 해당 질환 분류 및 병변 분할 및 탐지 알고리즘을 적용하여 보조 진단 도구를 제공하는 서비스
- 본 데이터를 통해 고해상도 병리 이미지에 딥러닝 알고리즘을 적용하여 특정 병변 및 영역을 fine tuning을 통하여 정량화 및 자동 레이블링 서비스
6. 기타 정보
- 독립성
- 신장 분야 5개 병원, 소아 장 분야 10개 병원에서 각 기관별 보안 관련 절차를 준수했으며 IRB 승인을 받은 데이터를 비식별화한 후 연구를 진행함
- 환자의 의료정보가 포함된 의료 데이터(원시데이터)는 승인된 연구자 외에는 접근이 불가능함
- 보건복지부의 보건의료 데이터 활용 가이드라인에 따라, 데이터 활용 및 제 3자의 배포를 위해서는 해당 의료 기관의 데이터 심의기관의 허가를 받아야 함
- 유의사항
- 원천 데이터는 환자 비식별화 작업을 거쳤으나 그 자체로도 민감한 의료정보이므로 데이터 수정과 배포에 유의해야 함
- 원천 데이터는 환자 비식별화 작업을 거쳤으나 그 자체로도 민감한 의료정보이므로 데이터 수정과 배포에 유의해야 함
- 초기의 neural net의 학습 목적은 input(x)을 타겟값(y)으로 mapping하는 함수 H(x)를 찾는 H(x)-y를 최소화하는 방향으로 학습을 진행하지만 ResNet은 출력값이 x가 되도록 H(x)-x를 최소화하는 방향으로 학습을 진행한다. F(x) = H(x) - x를 residual 이라고 하며 이 residaul를 학습하는 모델 구조
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 Inflammation 분류 모델 Image Classification VGG, ResNet, EfficientNet Accuracy 90 % 87.43 % 2 Glomerulus 분할 모델 Segmentation U-Net, FCN DSC 0.95 단위없음 0.9414 단위없음 3 Tubulitis, endothelialiti 분할 모델 Segmentation U-Net, FCN DSC 0.8 단위없음 0.8973 단위없음 4 Glomerulus 분할 모델 Segmentation U-Net, FCN DSC 0.95 단위없음 0.9379 단위없음 5 Mucosa, submucosa, proper muscle, serosa 분할 모델 Segmentation U-Net, FCN DSC 0.8 단위없음 0.8204 단위없음 6 Ganglion 분할 모델 Segmentation U-Net, FCN DSC 0.8 단위없음 0.8053 단위없음 7 Ganglion cell 탐지 모델 Object Detection YOLO, EfficientNet mAP 55 % 67.66 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 데이터 포맷
1. 데이터 포맷 영상 모달리티 세부 데이터 명 원천 데이터 포맷 라벨링 데이터 포맷 1차성 사구체 질환 광학현미경 이미지 : svs
면역형광현미경 이미지 : tif, jpg
전자현미경 이미지 : tif라벨링 데이터 : JSON 신장 이식 거부 반응 광학현미경 이미지 : svs
면역형광현미경 이미지 : tif, jpg
전자현미경 이미지 : tif라벨링 데이터 : JSON 정상 대조군 광학현미경 이미지 : svs
면역형광현미경 이미지 : tif, jpg
전자현미경 이미지 : tif라벨링 데이터 : JSON 소아 장 운동장애 광학현미경 이미지 : svs 라벨링 데이터 : JSON 소아 염증성 장 질환 광학현미경 이미지 : svs 라벨링 데이터 : JSON 2. 어노테이션 포맷
1) 1차성 사구체 질환구분 항목명 타입 필수여부 설명 범위 비고 1 clinical_information Object M 공통임상정보 1–1 clinical_information.HOSP String M 참여기관명 "01","02","03","04","05","06","07","08","09","10","11","12","13","14","15","16","17" 1–2 clinical_information.SEX String M 성별 "M","F" 1–3 clinical_information.AGE Int M 나이 1–4 clinical_information.HT Float O 신장 cm 1–5 clinical_information.BWT Float O 체중 kg 1–6 clinical_information.BMI Int O 체질량지수 kg/m2 1–7 clinical_information.BX_DATE String M 조직검사시행일 "YYYY-MM-DD" date 1–8 clinical_information.DM String M 당뇨 "Y","N" 1–9 clinical_information.HTN String M 고혈압 "Y","N" 1–10 clinical_information.SBP Float M 수축기혈압 mmHg 1–11 clinical_information.DBP Float M 이완기혈압 mmHg 1–12 clinical_information.HB Float M 혈색소 g/dl 1–13 clinical_information.Cr Float M 크레아티닌 mg/dl 1–14 clinical_information.U_ALB String M 요알부민 "-","+","+/-", "1+", "2+", "3+", "4+" 1–15 clinical_information.U_BLOD String O 요잠혈 "-","+","+/-", "1+", "2+", "3+", "4+" 1–16 clinical_information.U_RBC String O 요적혈구 1–17 clinical_information.UPCR Float M 단백뇨 g/g 1–18 clinical_information.UACR Float O 미세알부민뇨 g/g 1–19 clinical_information.RASB String O RAS차단제 사용 여부 "Y","N" 1–20 clinical_information.ISD String O 면역억제제 사용여부 "Y","N" 1–21 clinical_information.ESRD String M 말기신부전으로 진행 여부 "Y","N" 1–22 clinical_information.ESRD_DATE String M 말기신부전 진행일 혹은 마지막 추적 관찰일 1–23 clinical_information.DISEASE String M 신장 1차성 사구체 질환 진단 "IgAN","MN" 2 Layer1[] List M Core 구분 폴리곤 세그멘테이션 2–1 Layer1[].coord[] List M Core 좌표 좌표 {x, y} 3 Layer2[] List M Glomerulus 구분 폴리곤 세그멘테이션 3–1 Layer2[].type String M Glomerulus 타입 "NL", "GS", "SS", "CR", "ISC" 3–2 Layer2[].coord[] List M Glomerulus 좌표 좌표 {x, y} 2) 신장 이식 거부 반응구분 항목명 타입 필수여부 설명 범위 비고 1 clinical_information Object M 공통임상정보 1–1 clinical_information.HOSP String M 참여기관명 "01","02","03","04","05","06","07","08","09","10","11","12","13","14","15","16","17" 1–2 clinical_information.SEX String M 성별 "M","F" 1–3 clinical_infromation.AGE Int M 나이 1–4 clinical_information.HT Float O 신장 cm 1–5 clinical_information.WT Float O 체중 kg 1–6 clinical_information.BMI Float O 체질량지수 kg/m2 1–7 clinical_information.DONOR_TYPE String M 기증자별 이식형태 "Living","Deceased" 1–8 clinical_information.RISK_TYPE String M 위험도별 이식형태 "ABOc HLAc" ,"ABOi HLAc", "ABOc HLAi", "ABOi HLAi" 1–9 clinical_information.RELATION String M 기증자와의 관계 1–10 clinical_information.KT_DATE String M 신장이식수술일 "YYYY-MM-DD" 1–11 clinical_information.BX_DATE String M 조직검사시행일 "YYYY-MM-DD" 1–12 clinical_information.BX_CR Float M 조직검사당시Cr mg/dl 1–13 clinical_information.ESRD String M 말기신부전으로 진행 여부 Y, N 1–14 clinical_information.ESRD_DATE String M 말기신부전 진행일 혹은 마지막 추적 관찰일 "YYYY-MM-DD" 1–15 clinical_information.GRADE String M 신장이식 거부반응 진단 "Borderline","Type1", "Type2" 2 Layer1[] List M Core 구분 폴리곤 세그멘테이션 2–1 Layer1[].coord[] List M Core 좌표 좌표 {x, y} 3 Layer2[] List M 특정 영역 박스 구분 바운딩 박스 3–1 Layer2[].coord[] List M 특정 영역 박스 좌표 {x, y} 4 Layer3[] List M tubulitis 구분 폴리곤 세그멘테이션 4–1 Layer3[].coord[] List M tubulitis 좌표 좌표 {x, y} 5 Layer4[] List M endothelialitis(혈관염) 폴리곤 세그멘테이션 5–1 Layer4[].type String M endothelialitis 타입 "V0","V1" V0 : 혈관염 없음, V1 : 혈관염 있음 5–2 Layer4[].coord[] List M endothelialitis 좌표 좌표 {x, y} 3) 신장 정상대조군구분 항목명 타입 필수여부 설명 범위 비고 1 clinical_information Object M 공통임상정보 1–1 clinical_information.HOSP String M 참여기관명 "01","02","03","04","05","06","07","08","09","10","11","12","13","14","15","16","17" 1–2 clinical_information.SEX String M 성별 "M","F" 1–3 clinical_information.AGE Int M 나이 1–4 clinical_information.HT Float O 신장 cm 1–5 clinical_information.BWT Float O 체중 kg 1–6 clinical_information.BMI Int O 체질량지수 kg/m2 1–7 clinical_information.RELATION String M 수혜자와의 관계 1–8 clinical_information.KT_DATE String M 신장이식 수술일 "YYYY-MM-DD" 1–9 clinical_information.BX_DATE String M 조직검사 시행일 "YYYY-MM-DD" 1–10 clinical_information.BX_CR Float M 조직검사 당시 Cr 1–11 clinical_information.U_ALB String M 요알부민 "-","+","+/-", "1+", "2+", "3+", "4+" 1–12 clinical_information.U_RBC String O 요적혈구 2 Layer1[] List M Core 구분 폴리곤 세그멘테이션 2–1 Layer1[].coord[] List M Core 좌표 좌표 {x, y} 3 Layer2[] List M Glomerulus 구분 폴리곤 세그멘테이션 3–1 Layer2[].type String M Glomerulus 타입 "NL", "GS", "SS", "CR", "ISC" 3–2 Layer2[].coord[] List M Glomerulus 좌표 좌표 {x, y} 4) 소아 장 운동장애구분 항목명 타입 필수여부 설명 범위 비고 1 clinical_information Object M 공통임상정보 1–1 clinical_information.HOSP String M 참여기관명 "01","02","03","04","05","06","07","08","09","10","11","12","13","14","15","16","17" 1–2 clinical_information.SEX String M 성별 "F","M" 1–3 clinical_information.HT_OP Float O 수술당시 키 1–4 clinical_information.WT_OP Float O 수술당시 몸무게 1–5 clinical_information.MANNER_OF_BIRTH String O 출산방식 "cesarean section","normal delivery","unknown" 1–6 clinical_information.GA Float O 재태주수 1–7 clinical_information.WT_BIRTH Float O 출생 몸무게 1–8 clinical_information.HT_BIRTH Float O 출생 신장 1–9 clinical_information.NICU_LBW String O 출생 후 과거력_1 "Y","N", "unknown" 1–10 clinical_information.NICU_ABD_DIS String O 출생 후 과거력_2 "Y","N", "unknown" 1–11 clinical_information.CC String M 주증상 "meconium 배출 지연", "abdominal distension", "constipation", "vomiting", "abdominal pain", "fever", "others" 1–12 clinical_information.FHX String O 가족력 "Y","N", "unknown" 1–13 clinical_information.GI_ANO String O 위장관계 동반기형 "duodenal atresia", "intestinal atresia", "imperforate anus", "esophageal atresia", "others", "none" 1–14 clinical_information.GI_OPHX String O 위장관계 수술력 "Y","N", "unknown" 1–15 clinical_information.DX_COLON String O 대장조영술 "checked", "unchecked" 1–16 clinical_information.DX_COLON_R String O 대장조영술 결과 "Rectosigmoid", "D-colon", "T-colon", "Small bowel involve", "No transition zone", "unknown" 1–17 clinical_information.MANO String O 직장항문내압검사결과 "checked", "unchecked" 1–18 clinical_information.MANO_R String O 직장항문억제반응 유무 "Y","N", "unknown" 1–19 clinical_information.STAGED_OP String O 단계 수술 여부 "1-stage", "staged", "unknown" 1–20 clinical_information.OP_NAME String M 수술명 "Laparoscopy assisted Soave", "transanal endorectal pull-through only", "Open Duhamel", "Open Soave", "Swenson", "Laparoscopy assisted Duhamel", "Rehbein", "others" 1–21 clinical_information.DISEASE String M 소아장 운동장애 진단 "Normal", "Aganglionosis", "Hypogagnlionosis", "Other type" 2 Layer1[] List M Mucosa 구분 폴리곤 세그멘테이션 2–1 Layer1[].coord[] List M Mucosa 좌표 좌표 {x, y} 3 Layer2[] List M Submucosa 구분 폴리곤 세그멘테이션 3–1 Layer2[].coord[] List M Submucosa 좌표 좌표 {x, y} 4 Layer3[] List M Proper muscle 구분 폴리곤 세그멘테이션 4–1 Layer3[].coord[] List M Proper muscle 좌표 좌표 {x, y} 5 Layer4[] List M Serosa구분 폴리곤 세그멘테이션 5–1 Layer4[].coord[] List M Serosa 좌표 좌표 {x, y} 6 Layer5[] List M Ganglion 구분 폴리곤 세그멘테이션 6–1 Layer5[].coord[] List M Ganglion 좌표 좌표 {x, y} 7 Layer6[] List M Ganglion cell 구분 바운딩 박스 7–1 Layer6[].coord[] List M Ganglion cell 좌표 좌표 {x, y} 5) 소아 염증성 장 질환구분 항목명 타입 필수여부 설명 범위 비고 1 clinical_information Object M 공통임상정보 1–1 clinical_information.HOSP String M 참여기관명 "01","02","03","04","05","06","07","08","09","10","11","12","13","14","15","16","17" 1–2 clinical_information.SEX String M 성별 "F","M" 1–3 clinical_information.HWT_OP Float O 검체 구득 시 키 cm 1–4 clinical_information.BWT_OP Float O 검체 구득 시 몸무게 kg 1–5 clinical_information.OP_DATE Int M 수술 일자 "YYYY-MM-DD" 1–6 clinical_information.NEUTRO Float O 호중구 분율 % 1–7 clinical_information.CALP Float O Calprotectin ug/g 1–8 clinical_information.DISEASE String M 소아 염증성 장질환 진단 "Normal", "IBD", "IBD unclassified", "Other type" 2 Layer1[] List M Core 구분 폴리곤 세그멘테이션 2–1 Layer1[].coord[] List M Core 좌표 {x, y} 3 Layer2[] List M inflammation 구분 폴리곤 세그멘테이션 3–1 Layer2[].coord[] List M inflammation 좌표 좌표 {x, y} -
데이터셋 구축 담당자
수행기관(주관) : 서울대병원
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김영곤 02-2072-4487 yg@snuh.org · 데이터 수집, 정제, 검수 · 알고리즘 개발 수행기관(참여)
수행기관(참여) 기관명 담당업무 분당서울대병원 · 데이터 수집, 정제, 검수 서울시립보라매병원 · 데이터 수집, 정제, 검수 삼성서울병원 · 데이터 수집, 정제, 검수 고려대안산병원 · 데이터 수집, 정제, 검수 인하대병원 · 데이터 수집, 정제, 검수 충남대병원 · 데이터 수집, 정제, 검수 부산대병원 · 데이터 수집, 정제, 검수 전북대병원 · 데이터 수집, 정제, 검수 전남대병원 · 데이터 수집, 정제, 검수
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.