※온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
악성 림프종 예후 예측 융합 데이터
- 분야헬스케어
- 구분 안심존(온라인)
- 유형 이미지
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-11-30 데이터 최종 개방 1.0 2023-05-26 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-03-19 산출물 전체 공개 소개
악성 림프종의 예후 예측 인공 지능 모델 개발에 활용할수 있는 2천명의 악성 림프종 환자 융합 데이터 (CT,PET,임상 지표/조직병리/치료 데이터)
구축목적
악성 림프종의 예후 예측
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 이미지 데이터 형식 DICOM (CT/PET) + CSV (정형 데이터) 데이터 출처 의료 데이터 라벨링 유형 세그멘테이션 라벨링 형식 JSON 데이터 활용 서비스 예후 예측 인공 지능 데이터 구축년도/
데이터 구축량2022년/2,728,181건 -
1. 원천 데이터 규모
1. 원천 데이터 규모 과제번호 과제명 주요 내용 환자 수 데이터 종류 데이터 수 데이터 용량 데이터 형식 1-025-070 악성 림프종 예후 예측 융합 데이터 조직검사 또는 수술로 악성 림프종으로 진단받은 환자의 데이터셋 2,000명 영상 데이터 2,720,607장 922.6 GB dcm Key Image 데이터 7,574장 dcm EMR 임상 정형데이터 2,000 건 503.3 KB csv 2. 라벨링 데이터 규모
2. 라벨링 데이터 규모 과제번호 과제명 주요 내용 환자 수 데이터 종류 데이터 수 데이터 용량 데이터 형식 1-025-070 악성 림프종 예후 예측 융합 데이터 악성 림프종 CT 영상 및 PET 영상 라벨링 데이터셋 2,000명 png 파일 4,032 건 17.4 MB png Json 파일 4,032 건 json 3. 데이터 분포
3. 데이터 분포 특성 항목 분포 구분 구성비 다양성(통계) 남녀 성비 분포 남성 41.65% 여성 58.35% 연령대 분포 30세 미만 5.75% 30세 이상 ~ 50세 미만 19.65% 50세 이상 ~ 60세 미만 22.40% 60세 이상 ~ 70세 미만 24.55% 70세 이상 27.65% 다양성(요건) 악성 림프종 클래스 분포 호지킨 림프종 7.99% 비호지킨 림프종 92.01% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1. 학습 모델 개발
1) 악성 림프종 이미지 분할
- (개발 목표) 악성 림프종 CT 및 PET 이미지를 기반으로 암 병변을 분할
- (개발 내용) 구축되는 CT 및 PET 학습데이터를 활용하여 EfficientNet을 기반으로 High-Level Feature를 추출하고 이를 U-Net 구조에 입력하여 Pixel 별 암/정상 분류를 진행하여 최종적으로 Segmentation Mask 도출2) 악성 림프종 환자 생존 분석
- (개발 목표) 악성 림프종 환자에 대한 임상 및 병리 정보를 기반으로 환자의 생존 확률을 분석
- (개발 내용) 구축되는 정형 데이터(임상 및 병리 정보)를 활용하여 DeepSurv를 기반으로 예측을 진행하며 정형 데이터의 사망일 및 마지막 병원 방문일로부터 생존 기간을 추출하여 학습2. 데이터 활용
데이터 명 악성 림프종 예후 예측 융합 데이터 학습 모델 ① 악성 림프종 이미지 분할 ② 악성 림프종 환자 생존 분석 모델 ① 악성 림프종 이미지 분할 : EfficientNet + U-Net ② 악성 림프종 환자 생존 분석 : DeepSurv 성능 지표 ① 악성 림프종 이미지 분할 : DSC 0.7 이상 ② 악성 림프종 환자 생존 분석 : C-index 0.65 이상 개발 내용 ① 악성 림프종 이미지 분할 구축되는 악성 림프종 CT 및 PET 이미지를 활용하여 암 병변에 대한 Segmentation이 가능한 U-Net 기반의 모델을 개발 ② 악성 림프종 환자 생존 분석 구축되는 임상 및 병리 정보를 활용하여 악성 림프종 환자에 대한 예후예측을 위해 생존 확률을 추론할 수 있는 DeepSurv 모델 개발 응용서비스
(예시 및 유의사항)악성 림프종 이미지 분할 모델을 활용하여 악성 림프종 환자의 암 병변을 분석하여 정밀 진단을 가능하게 하고, 생존 분석 모델을 기반으로 환자의 예후를 예측하여 맞춤형 진단 수행 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 악성 림프종 생존 분석 성능 Survival Analysis DeepSurv C-index 0.65 단위없음 0.6677 단위없음 2 악성 림프종 분할 성능 Segmentation EfficientNet + Unet DSC 0.7 단위없음 0.7114 단위없음
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1) 악성 림프종 공통 임상 지표 데이터
1) 악성 림프종 공통 임상 지표 데이터 No 속성명 항목 설명 Data Type 규격 및 허용범위 1 patientid 대상자ID VarChar(7) 2 sex 성별 Char(1) M:남성, F:여성 3 birth date 생년월 Date YYYYMM 4 height 신장 Integer 120~220 (Cm) 5 weight 체중 Integer 30~220 (Kg) 6 Diagnosis 진단명 Varchar(200) 7 bp 고혈압여부 Char(1) Y/N 8 bs 당뇨여부 Char(1) Y/N 9 sm 흡연여부 Char(1) Y/N 10 familyhistory 가족력 Char(1) Y/N 11 locationcancer 원발암의위치 Char(1) 1. 우상엽 /2. 우중엽 /3. 우하엽 /4. 좌상엽 /5. 좌하엽 /9. 기타 12 cancerimaging 암영상 병기 Varchar(10) 13 cancerimagingT 암영상 T병기 Varchar(10) 14 cancerimagingN 암영상 N병기 Varchar(10) 15 cancerimagingM 암영상 M병기 Varchar(10) 16 initialdate 치료 시작일 Date yyyymmdd : 치료의 종류 (수술, 항암, 방사선) 중에서 제일 먼저 시작한 치료를 선택 17 treatedate 치료 종료일 Date yyyymmdd 18 relapse 재발 여부 Char(1) 1: 재발하지 않음, 2: 국소재발, 3: 원격재발 19 relapsedate 재발 진단일 Date yyyymmdd : 위의(relapse) 2: 국소재발, 3: 원격재발 일 경우만 재발 진단일 필수 입력 20 dead 사망 여부 Char(1) 0: 없다, 1: 있다 (모르는 경우는 0으로 표기) 21 deathdate 사망일 Date yyyymmdd : 위의(dead) 사망여부 = 1 일 경우에만 사망일 필수 입력 22 deathsign 사망 사인 Char(1) 1:암으로 인한 사망 / 2. 암이외의 원인으로 사망 23 lastdate 마지막 병원 방문일 Date yyyymmdd 2) 악성 임상 데이터
2) 악성 임상 데이터 구분 No 속성명 항목 설명 규격 및 허용범위 조직병리 1 patientid 대상자ID 데이터 2 classification cancer 림프종의 조직학적 분류 1: 호지킨 림프종, 2: 비호지킨 림프종, 3: 기타 치료 데이터 3 CD45 CD45 4 CD20 CD20 5 CD5 CD5 6 CD10 CD10 7 CD30 CD30 8 CD8 CD8 9 CD23 CD23 10 CD56 CD56 11 BCL2 BCL-2 12 BCL6 BCL-6 13 Cyclin_D1 Cyclin_D1 14 ALK ALK 15 Cmyc C-Myc 16 Ki-67 Ki-67 (%) 17 WBC WBC 18 ANC ANC 19 ALC ALC 20 PLT PLT 21 Hb Hb 22 NLR NLR 23 PLR PLR 24 LDH LDH(특수) 25 PEP PEP(특수) PET검사 데이터 26 PRE_AD_MAX SUVmax 27 PRE_BD_MAX SUVmax 28 PRE_TN_MAX SUVmax 29 PRE_SP_MAX SUVmax 30 PRE_BM_MAX SUVmax 31 PRE_LV_MAX SUVmax 32 PRE_ETC_MAX SUVmax 33 PRE_AD_DEU Deuvile score 1/2/3/4/5/x 34 PRE_BD_DEU Deuvile score 1/2/3/4/5/x 35 PRE_TN_DEU Deuvile score 1/2/3/4/5/x 36 PRE_SP_DEU Deuvile score 1/2/3/4/5/x 37 PRE_BM_DEU Deuvile score 1/2/3/4/5/x 38 PRE_LV_DEU Deuvile score 1/2/3/4/5/x 39 PRE_ETC_DEU Deuvile score 1/2/3/4/5/x 40 POST_AD_MAX SUVmax 41 POST_BD_MAX SUVmax 42 POST_TN_MAX SUVmax 43 POST_SP_MAX SUVmax 44 POST_BM_MAX SUVmax 45 POST_LV_MAX SUVmax 46 POST_ETC_MAX SUVmax 47 POST_AD_DEU Deuvile score 1/2/3/4/5/x 48 POST_BD_DEU Deuvile score 1/2/3/4/5/x 49 POST_TN_DEU Deuvile score 1/2/3/4/5/x 50 POST_SP_DEU Deuvile score 1/2/3/4/5/x 51 POST_BM_DEU Deuvile score 1/2/3/4/5/x 52 POST_LV_DEU Deuvile score 1/2/3/4/5/x 53 POST_ETC_DEU Deuvile score 1/2/3/4/5/x 3)어노테이션 항목
3)어노테이션 항목 구분 속성명 타입 필수여부 설명 비고 1 info Object 데이터셋정보 1-1 info.name String Y 데이터셋명 1-2 info.contributer String 데이터제공처 1-3 info.description String 데이터셋 설명 2 annotations Object 라벨링정보 2-1 annotations[].id String Y 라벨링식별자 2-2 annotations[].class String Y 카테고리명 lymphoma, 림프종 2-3 annotations[].type String Y 라벨링식별자 segmentation 2-4 annotations[].coordinates Number Y Segmentation 좌표값 4)JSON 형식
{
"info": [
{
"name": "LYMP_AJMC_B10000_PAIREDCT_0_0001.dcm",
"contributer": "AJMC",
"description": "Annotated Non Contrast-enhanced Computed Tomography Image of Lymphoma"
}
],
"annotations": [
{
"id": "b753cc7f-92a7-4efc-8976-7d0f6a9f4c02",
"class": "lymphoma",
"type": "segmentation",
"coordinates": [
[
[
265.3105393020798,
325.50837151921036
],
[
262.84314416637307,
330.09067677123716
],
[
263.5481142051464,
334.3204970038773
],
[
266.36799436023983,
337.84534719774405
],
[
269.8928445541066,
340.66522735283746
],
[
274.4751498061334,
341.7226824109975
],
[
276.59005992245346,
341.7226824109975
],
[
275.18011984490676,
336.43540712019734
],
[
276.59005992245346,
332.5580719069439
],
[
276.59005992245346,
329.3857067324638
],
[
274.4751498061334,
326.5658265773704
],
[
270.59781459287996,
325.50837151921036
],
[
268.1304194571732,
325.50837151921036
]
]
]
}
]
} -
데이터셋 구축 담당자
수행기관(주관) : 아주대학교 산학협력단
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 허재성 031-219-5337 nahero@ajou.ac.kr 사업 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 부산대학교산학협력단, 순천향대학교산학협력단, 이화여자대학교산학협력단, 인하대학교산학협력단, 충남대학교산학협력단, 한림대학교산학협력단, 데이터 수집 ㈜피트케어, ㈜코스모티어 데이터 정제 ㈜닥터웍스 데이터 가공 ㈜마인즈앤컴퍼니 AI 모델 개발, 데이터 활용 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 허재성 031-219-5337 nahero@ajou.ac.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.