※온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
암환자 방사선 치료 데이터
- 분야헬스케어
- 구분 안심존(온라인)
- 유형 이미지
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-29 데이터 최종 개방 1.0 2023-07-31 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-03-19 산출물 전체 공개 소개
방사선치료를 받은 암 환자의 CBCT 영상 데이터 및 조직병리/치료 등 EMR 정형데이터와의 융합 데이터
구축목적
방사선 치료 환자의 예후 예측
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 이미지 데이터 형식 DICOM (CBCT) + CSV (정형 데이터) 데이터 출처 의료데이터 라벨링 유형 바운딩박스 라벨링 형식 JSON 데이터 활용 서비스 예후 예측 인공 지능 데이터 구축년도/
데이터 구축량2022년/2,078,317건 -
1. 원천 데이터 규모
1. 원천 데이터 규모 과제번호 과제명 주요 내용 환자 수 데이터 종류 데이터 수 데이터 용량 데이터 형식 1-025-071 암환자 방사선치료 데이터 방사선치료를 받은 암 환자의 데이터셋 5,019명 CBCT 영상 2,038,143 장 800 GB dcm EMR 임상 정형데이터 5,019 건 786 KB csv 2. 라벨링 데이터 규모
2. 라벨링 데이터 규모 과제번호 과제명 주요 내용 환자 수 데이터 종류 데이터 수 데이터 용량 데이터 형식 1-025-071 암환자 방사선치료 데이터 CBCT 슬라이드 내 장기 위치 라벨링 데이터셋 5,019명 Bounding box가 위치한 CBCT 영상 30,136 장 2.47 GB png Json 파일 5,019 건 json 3. 데이터 분포
3. 데이터 분포 특성 항목 분포 구분 구성비 다양성(통계) 남녀 성비 분포 남성 62.78% 여성 37.22% 연령대 분포 50세 미만 12.67% 50세 이상 ~ 60세 미만 16.38% 60세 이상 ~ 70세 미만 26.16% 70세 이상 ~ 80세 미만 26.88% 80세 이상 17.91% 다양성(요건) 암 클래스 분포 직장암 7.71% 전립선암 33.69% 여성암 26.88% 두경부암 26.58% 기타 5.14% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1. 학습 모델 개발
1) CBCT 내 장기 존재 슬라이드 분류
- (개발 목표) CBCT 내 관심 장기가 위치한 슬라이드의 위치를 학습하고, 이를 기반으로 이용자가 원하는 장기가 해당 슬라이드 내부에 존재 시, 해당 슬라이드의 위치 반환
- (개발 내용) 입력받은 3D CBCT에 대하여 이용자가 원하는 관심 장기가 존재하는 경우, 해당 장기가 위치한 슬라이드의 Z축 좌표를 반환. 해당 장기가 없는 경우, 반환하지 않음2) 암환자 방사선치료 생존분석 기반 예후예측 모델
- (개발 목표) 방사선치료를 실시한 암환자에 대하여, 치료 과정 중에 발생한 정형데이터(EMR)와 방사선치료 과정에서 발생하는 CBCT 영상을 혼합하여, 재발까지 걸리는 기간을 예측하는 생존분석 모델 개발
- (개발 내용) 방사선치료를 받은 암환자에 대하여 재발이 발생한 경우, 해당 재발까지의 시간을 예측할 수 있는 생존함수를 딥러닝 기반 생존분석모델을 통해 구현
2. 데이터 활용데이터 명 암환자 방사선치료 데이터 학습 모델 ① CBCT 내 장기 존재 슬라이드 분류 ② 방사선 치료 암 환자 생존분석 모델 ① CBCT 내 장기 존재 슬라이드 분류: MobileNetV2 ② 방사선 치료 암 환자 생존분석: Nnet-survival 성능 지표 ① CBCT 내 장기 존재 슬라이드 분류: AUC 0.7 이상 ② 방사선 치료 암 환자 생존분석: C-index 0.65 이상 개발 내용 ① CBCT 내 장기 존재 슬라이드 분류 암환자 방사선 치료 3D CBCT 이미지를 이용하여 대상 장기가 존재하는 Z축 좌표를 분류하는 모델 개발 ② 방사선 치료 암 환자 생존분석 방사선 치료 암환자의 임상, 조직병리, 치료 정형데이터를 활용하여 방사선 치료를 받은 암환자에 대한 예후예측을 위해 생존 함수를 추론할 수 있는 Nnet-survival 모델개발 응용서비스 의료진이 3D CBCT 데이터 입력 시, 원하는 장기에 대하여 Z축 좌표에 대한 CBCT가 반환되는 응용 프로그램 개발 (예시 및 유의사항) -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 CBCT 내 대상 장기 존재 슬라이드 분류 모델 성능 (전립선) Image Classification MobileNetV2 AUC-ROC 0.7 단위없음 0.98 단위없음 2 CBCT 내 대상 장기 존재 슬라이드 분류 모델 성능 (직장) Image Classification MobileNetV2 AUC-ROC 0.7 단위없음 0.8009 단위없음 3 CBCT 내 대상 장기 존재 슬라이드 분류 모델 성능 (자궁경부) Image Classification MobileNetV2 AUC-ROC 0.7 단위없음 0.908199999999999 단위없음 4 CBCT 내 대상 장기 존재 슬라이드 분류 모델 성능 (유방) Image Classification MobileNetV2 AUC-ROC 0.7 단위없음 0.920199999999999 단위없음 5 CBCT 내 대상 장기 존재 슬라이드 분류 모델 성능 (비인두) Image Classification MobileNetV2 AUC-ROC 0.7 단위없음 0.924899999999999 단위없음 6 CBCT 내 대상 장기 존재 슬라이드 분류 모델 성능 (구인두) Image Classification MobileNetV2 AUC-ROC 0.7 단위없음 0.9748 단위없음 7 CBCT 내 대상 장기 존재 슬라이드 분류 모델 성능 (하인두) Image Classification MobileNetV2 AUC-ROC 0.7 단위없음 0.9647 단위없음 8 방사선치료 환자 생존 분석 성능 Survival Analysis Nnet-survival C-index 0.65 단위없음 0.78 단위없음
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1) 공통 임상 지표 데이터
1) 공통 임상 지표 데이터 No 속성명 항목 설명 필수여부 규격 및 허용범위 1 patientid 대상자ID 필수 2 sex 성별 필수 M:남성, F:여성 3 birth date 생년월 필수 YYYYMM 4 height 신장 비필수 120~220 (Cm) 5 weight 체중 비필수 30~220 (Kg) 6 Diagnosis 진단명 필수 7 bp 고혈압여부 비필수 Y/N 8 bs 당뇨여부 비필수 Y/N 9 sm 흡연여부 비필수 Y/N 10 familyhistory 가족력 비필수 Y/N 11 locationcancer 원발암의위치 비필수 1.직장암 / 2.전립선암, / 3.여성암, / 4.두경부암, / 9. 기타 12 cancerimaging 암영상 병기 필수 13 cancerimagingT 암영상 T병기 비필수 14 cancerimagingN 암영상 N병기 비필수 15 cancerimagingM 암영상 M병기 비필수 16 initialdate 치료 시작일 필수 yyyymmdd : 치료의 종류 (수술, 항암, 방사선) 중에서 제일 먼저 시작한 치료를 선택 17 treatedate 치료 종료일 필수 yyyymmdd 18 relapse 재발 여부 필수 1: 재발하지 않음, 2: 국소재발, 3: 원격재발 19 relapsedate 재발 진단일 비필수 yyyymmdd : 위의(relapse) 2: 국소재발, 3: 원격재발 일 경우만 재발 진단일 필수 입력 20 dead 사망 여부 비필수 0: 없다, 1: 있다 (모르는 경우는 0으로 표기) 21 deathdate 사망일 비필수 yyyymmdd : 위의(dead) 사망여부 = 1 일 경우에만 사망일 필수 입력 22 deathsign 사망 사인 비필수 1:암으로 인한 사망 / 2. 암이외의 원인으로 사망 23 lastdate 마지막 병원 방문일 필수 yyyymmdd 2) 방사선 치료 데이터
2) 방사선 치료 데이터 구분 No 속성명 항목 설명 필수여부 규격 및 허용범위 조직병리 1 patientid 대상자ID 필수 데이터 2 classification cancer 암의 조직학적분류 필수 1. 편평세포암 /2. 선암 /3. 기타 3 surgical cancer 암의 수술적 병기 비필수 4 surgical cancerT 암의 수술적 T병기 비필수 5 surgical cancerN 암의 수술적 N병기 비필수 6 surgical cancerM 암의 수술적 M병기 비필수 7 boundarysurgical 수술부위의 경계 비필수 1. 완전 절제 / 2. 비완전절제 8 Involvementrenal 신경절 침범 유무 비필수 Y/N 9 lymphrenal 림프절 침윤 범위 비필수 Y/N 치료 10 surgicalmethod 수술방법 비필수 데이터 11 antidrug 항암치료 약제 비필수 12 totaldose 방사선 치료 총선량 필수 13 radiationcnt 방사선 치료 횟수 필수 14 radiationperdose 방사선 회당 치료 선량 필수 15 treatmethod 치료 방법 필수 1. 방사선 /2. 항암방사선 /3. 수술+방사선 /4. 수술+항암 방사선 /5. 방사선+호르몬 /6. 수술+방사선+호르몬 /7. 수술+항암방사선+호르몬 /8. 기타 16 treatech 치료 기법 필수 1. conformal /2. IMRT /3. 기타 3) JSON 형식
{
"info": [
{
"name": "RADIO_AJMC_C10015_CBCT_0_0032",
"contributer": "AJMC",
"description": “전립선암”
}
],
"annotations": [
{
"id": 1667527920569,
"class": "Tumor",
"type": [
{
"bbox": [
{
"x" : 150.49125,
"y" : 417.1779166666667,
"width" : 182.1579166666667,
"height" : 416.3445833333334
}
]
}
]
}
]
} -
데이터셋 구축 담당자
수행기관(주관) : 아주대학교 산학협력단
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 허재성 031-219-5337 nahero@ajou.ac.kr 사업 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 부산대학교산학협력단, 순천향대학교산학협력단, 이화여자대학교산학협력단, 인하대학교산학협력단, 충남대학교산학협력단, 한림대학교산학협력단, 데이터 수집 ㈜ 피트케어,㈜코스모티어 데이터 정제 ㈜ 닥터웍스 데이터 가공 ㈜디알랩 AI 모델 개발, 데이터 활용 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 허재성 031-219-5337 nahero@ajou.ac.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.