콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
본 데이터는
온라인 안심존 데이터 ?

온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석

입니다.
#헬스케어 건강서비스 #헬스케어 의료

NEW 악성 림프종 예후 예측 융합 데이터

악성 림프종 예후 예측 융합 데이터 아이콘 이미지
  • 분야헬스케어
  • 구분 안심존(온라인)
  • 유형 이미지
구축년도 : 2022 갱신년월 : 2023-11 조회수 : 1,363 다운로드 : 4

※ 23년 신규 개방되는 데이터로 산출물은 추후 업로드 예정입니다

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2023-11-30 데이터 최종 개방
    1.0 2023-05-26 데이터 개방(Beta Version)

    소개

    악성 림프종의 예후 예측 인공 지능 모델 개발에 활용할수 있는 2천명의 악성 림프종 환자 융합 데이터 (CT,PET,임상 지표/조직병리/치료 데이터)

    구축목적

    악성 림프종의 예후 예측
  • 1. 원천 데이터 규모

    과제번호 과제명 주요 내용 환자 수 데이터 종류 데이터 수 데이터 용량 데이터 형식
    1-025-070 악성 림프종 예후 예측 융합 데이터 조직검사 또는 수술로 악성 림프종으로 진단받은 환자의 데이터셋 2,000명 영상 데이터 2,720,607장 922.6 GB dcm
    Key Image 데이터 7,574장 dcm
    EMR 임상 정형데이터 2,000 건 503.3 KB csv

     

    2. 라벨링 데이터 규모

    과제번호 과제명 주요 내용 환자 수 데이터 종류 데이터 수 데이터 용량 데이터 형식
    1-025-070 악성 림프종 예후 예측 융합 데이터 악성 림프종 CT 영상 및 PET 영상 라벨링 데이터셋 2,000명 png 파일 4,032 건 17.4 MB png
    Json 파일 4,032 건 json

     

    3. 데이터 분포

    특성 항목 분포 구분 구성비
    다양성(통계) 남녀 성비 분포 남성 41.65%
    여성 58.35%
    연령대 분포 30세 미만 5.75%
    30세 이상 ~ 50세 미만 19.65%
    50세 이상 ~ 60세 미만 22.40%
    60세 이상 ~ 70세 미만 24.55%
    70세 이상 27.65%
    다양성(요건) 악성 림프종 클래스 분포 호지킨 림프종 7.99%
    비호지킨 림프종 92.01%

     

  • 1. 학습 모델 개발
     1) 악성 림프종 이미지 분할
       - (개발 목표) 악성 림프종 CT 및 PET 이미지를 기반으로 암 병변을 분할
       - (개발 내용) 구축되는 CT 및 PET 학습데이터를 활용하여 EfficientNet을 기반으로 High-Level Feature를 추출하고 이를 U-Net 구조에 입력하여 Pixel 별 암/정상 분류를 진행하여 최종적으로 Segmentation Mask 도출

     

     2) 악성 림프종 환자 생존 분석
       - (개발 목표) 악성 림프종 환자에 대한 임상 및 병리 정보를 기반으로 환자의 생존 확률을 분석
       - (개발 내용) 구축되는 정형 데이터(임상 및 병리 정보)를 활용하여 DeepSurv를 기반으로 예측을 진행하며 정형 데이터의 사망일 및 마지막 병원 방문일로부터 생존 기간을 추출하여 학습

     

    2. 데이터 활용

    데이터 명  악성 림프종 예후 예측 융합 데이터
    학습 모델  ① 악성 림프종 이미지 분할
    ② 악성 림프종 환자 생존 분석
    모델 ① 악성 림프종 이미지 분할 : EfficientNet + U-Net
    ② 악성 림프종 환자 생존 분석 : DeepSurv
    성능 지표 ① 악성 림프종 이미지 분할 : DSC 0.7 이상
    ② 악성 림프종 환자 생존 분석 : C-index 0.65 이상
    개발 내용 ① 악성 림프종 이미지 분할
    구축되는 악성 림프종 CT 및 PET 이미지를 활용하여 암 병변에 대한 Segmentation이 가능한 U-Net 기반의 모델을 개발
    ② 악성 림프종 환자 생존 분석 
    구축되는 임상 및 병리 정보를 활용하여 악성 림프종 환자에 대한 예후예측을 위해 생존 확률을 추론할 수 있는 DeepSurv 모델 개발
    응용서비스
    (예시 및 유의사항)
    악성 림프종 이미지 분할 모델을 활용하여 악성 림프종 환자의 암 병변을 분석하여 정밀 진단을 가능하게 하고, 생존 분석 모델을 기반으로 환자의 예후를 예측하여 맞춤형 진단 수행
  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 악성 림프종 생존 분석 성능 Survival Analysis DeepSurv C-index 0.65 단위없음 0.67 단위없음
    2 악성 림프종 분할 성능 Segmentation EfficientNet + Unet DSC 0.7 단위없음 0.71 단위없음

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 1) 악성 림프종 공통 임상 지표 데이터

    No 속성명 항목 설명 Data Type 규격 및 허용범위
    1 patientid 대상자ID VarChar(7)  
    2 sex 성별 Char(1) M:남성, F:여성
    3 birth date 생년월 Date YYYYMM
    4 height 신장 Integer 120~220 (Cm)
    5 weight 체중 Integer 30~220 (Kg)
    6 Diagnosis 진단명 Varchar(200)  
    7 bp 고혈압여부 Char(1) Y/N
    8 bs 당뇨여부 Char(1) Y/N
    9 sm 흡연여부 Char(1) Y/N
    10 familyhistory 가족력 Char(1) Y/N
    11 locationcancer 원발암의위치 Char(1) 1. 우상엽 /2. 우중엽 /3. 우하엽 /4. 좌상엽 /5. 좌하엽 /9. 기타
    12 cancerimaging 암영상 병기 Varchar(10)  
    13 cancerimagingT 암영상 T병기 Varchar(10)  
    14 cancerimagingN 암영상 N병기 Varchar(10)  
    15 cancerimagingM 암영상 M병기 Varchar(10)  
    16 initialdate 치료 시작일 Date yyyymmdd : 치료의 종류 (수술, 항암, 방사선) 중에서 제일 먼저 시작한 치료를 선택
    17 treatedate 치료 종료일 Date yyyymmdd
    18 relapse 재발 여부 Char(1) 1: 재발하지 않음, 2: 국소재발, 3: 원격재발
    19 relapsedate 재발 진단일 Date yyyymmdd : 위의(relapse) 2: 국소재발, 3: 원격재발 일 경우만 재발 진단일 필수 입력
    20 dead 사망 여부 Char(1) 0: 없다, 1: 있다 (모르는 경우는 0으로 표기)
    21 deathdate 사망일 Date yyyymmdd : 위의(dead) 사망여부 = 1 일 경우에만 사망일 필수 입력
    22 deathsign 사망 사인 Char(1) 1:암으로 인한 사망 / 2. 암이외의 원인으로 사망
    23 lastdate 마지막 병원 방문일 Date yyyymmdd

     

    2) 악성 임상 데이터

    구분 No 속성명 항목 설명 규격 및 허용범위
    조직병리 1 patientid 대상자ID  
    데이터 2 classification cancer 림프종의 조직학적 분류 1: 호지킨 림프종, 2: 비호지킨 림프종, 3: 기타
    치료 데이터 3 CD45 CD45  
    4 CD20 CD20  
    5 CD5 CD5  
    6 CD10 CD10  
    7 CD30 CD30  
    8 CD8 CD8  
    9 CD23 CD23  
    10 CD56 CD56  
    11 BCL2 BCL-2  
    12 BCL6 BCL-6  
    13 Cyclin_D1 Cyclin_D1  
    14 ALK ALK  
    15 Cmyc C-Myc  
    16 Ki-67 Ki-67 (%)  
    17 WBC WBC  
    18 ANC ANC  
    19 ALC ALC  
    20 PLT PLT  
    21 Hb Hb  
    22 NLR NLR  
    23 PLR PLR  
    24 LDH LDH(특수)  
    25 PEP PEP(특수)  
    PET검사 데이터 26 PRE_AD_MAX SUVmax  
    27 PRE_BD_MAX SUVmax  
    28 PRE_TN_MAX SUVmax  
    29 PRE_SP_MAX SUVmax  
    30 PRE_BM_MAX SUVmax  
    31 PRE_LV_MAX SUVmax  
    32 PRE_ETC_MAX SUVmax  
    33 PRE_AD_DEU Deuvile score 1/2/3/4/5/x
    34 PRE_BD_DEU Deuvile score 1/2/3/4/5/x
    35 PRE_TN_DEU Deuvile score 1/2/3/4/5/x
    36 PRE_SP_DEU Deuvile score 1/2/3/4/5/x
    37 PRE_BM_DEU Deuvile score 1/2/3/4/5/x
    38 PRE_LV_DEU Deuvile score 1/2/3/4/5/x
    39 PRE_ETC_DEU Deuvile score 1/2/3/4/5/x
    40 POST_AD_MAX SUVmax  
    41 POST_BD_MAX SUVmax  
    42 POST_TN_MAX SUVmax  
    43 POST_SP_MAX SUVmax  
    44 POST_BM_MAX SUVmax  
    45 POST_LV_MAX SUVmax  
    46 POST_ETC_MAX SUVmax  
    47 POST_AD_DEU Deuvile score 1/2/3/4/5/x
    48 POST_BD_DEU Deuvile score 1/2/3/4/5/x
    49 POST_TN_DEU Deuvile score 1/2/3/4/5/x
    50 POST_SP_DEU Deuvile score 1/2/3/4/5/x
    51 POST_BM_DEU Deuvile score 1/2/3/4/5/x
    52 POST_LV_DEU Deuvile score 1/2/3/4/5/x
    53 POST_ETC_DEU Deuvile score 1/2/3/4/5/x

     

    3)어노테이션 항목

    구분 속성명 타입 필수여부 설명 비고
    1 info Object   데이터셋정보  
      1-1 info.name String Y 데이터셋명  
    1-2 info.contributer String   데이터제공처  
    1-3 info.description String   데이터셋 설명  
    2 annotations Object   라벨링정보  
      2-1 annotations[].id String Y 라벨링식별자  
    2-2 annotations[].class String Y 카테고리명 lymphoma, 림프종
    2-3 annotations[].type String Y 라벨링식별자 segmentation
    2-4 annotations[].coordinates Number Y Segmentation 좌표값
     

     

    4)JSON 형식

     

    {
      "info": [
        {
          "name": "LYMP_AJMC_B10000_PAIREDCT_0_0001.dcm",
          "contributer": "AJMC",
          "description": "Annotated Non Contrast-enhanced Computed Tomography Image of Lymphoma"
        }
      ],
      "annotations": [
        {
          "id": "b753cc7f-92a7-4efc-8976-7d0f6a9f4c02",
          "class": "lymphoma",
          "type": "segmentation",
          "coordinates": [
            [
              [
                265.3105393020798,
                325.50837151921036
              ],
              [
                262.84314416637307,
                330.09067677123716
              ],
              [
                263.5481142051464,
                334.3204970038773
              ],
              [
                266.36799436023983,
                337.84534719774405
              ],
              [
                269.8928445541066,
                340.66522735283746
              ],
              [
                274.4751498061334,
                341.7226824109975
              ],
              [
                276.59005992245346,
                341.7226824109975
              ],
              [
                275.18011984490676,
                336.43540712019734
              ],
              [
                276.59005992245346,
                332.5580719069439
              ],
              [
                276.59005992245346,
                329.3857067324638
              ],
              [
                274.4751498061334,
                326.5658265773704
              ],
              [
                270.59781459287996,
                325.50837151921036
              ],
              [
                268.1304194571732,
                325.50837151921036
              ]
            ]
          ]
        }
      ]
    }

     

  • 데이터셋 구축 담당자

    수행기관(주관) : 아주대학교 산학협력단
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    허재성 031-219-5337 nahero@ajou.ac.kr 사업 총괄
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    부산대학교산학협력단, 순천향대학교산학협력단, 이화여자대학교산학협력단, 인하대학교산학협력단, 충남대학교산학협력단, 한림대학교산학협력단, 데이터 수집
    ㈜피트케어, ㈜코스모티어 데이터 정제
    ㈜닥터웍스 데이터 가공
    ㈜마인즈앤컴퍼니 AI 모델 개발, 데이터 활용
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    허재성 031-219-5337 nahero@ajou.ac.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.