콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
본 데이터는
오프라인 안심존 데이터 ?

오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

입니다.
#조기 진단 # 딥러닝 인공지능 # 영상데이터 # 이미지데이터 # 폐암 # 혈액암 # 정상대조군

핵의학영상(PET) 이미지 데이터

핵의학영상(PET) 이미지
  • 분야헬스케어
  • 구분 안심존(오프라인)
  • 유형 이미지
구축년도 : 2021 갱신년월 : 2022-07 조회수 : 2,577 다운로드 : 22

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2022-07-13 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2022-07-13 콘텐츠 최초 등록

    소개

    핵의학 PET/CT 영상에서 폐암, 혈액암 및 정상대조군의 데이터를 수집, 정제, 가공한 AI학습용 데이터셋

    구축목적

    종양 전신 PET의 다차원적 정량적 평가를 도울 수 있는 인공지능 모델 개발 및 PET 판독과 환자 종양상태 평가에 대한 객관적 지표 제공, 여러 임상 AI 연구에 활용하고자 함.
  • 1) 데이터 구축 규모

    질환명
    질환명 서울대병원 분당서울대병원 국립암센터 세브란스병원 아주대병원 서울성모병원 소계
    폐암 476 108 292 542 292 290 2,000
    혈액암 468 860 468 468 468 468 3,200
    정상인 58 58 58 58 410 58 700
    소계 1,002 1,026 818 1,068 1,170 816 5,900

     

    2) 데이터 분포

    • 폐암 원격전이(Metastasis) 여부
    원격전이 여부 비율(%)
    없음 85
    있음 15

     

    • 혈액암 치료 전/후 비율
    치료상태 비율(%)
    치료 전 48
    치료 후 52

     

    • 정상인 60세 미만/이상 비율
    연령대 비율(%)
    60세 미만 73
    60세 이상 27
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    1) 모델학습
    * 폐암/혈액암 종양 영역 분할 모델 개발

    •  PET/CT 영상을 입력 값, 어노테이션한 영역을 출력 값으로 한 분할 모델을 학습함
    •  학습을 위한 데이터셋(Training, Validation)과 모델 평가를 위한 데이터셋(Test)으로 나누었으며 비율은 Training : Validatation : Test = 8 : 1 : 1로 구성하였음
    •  학습에 사용된 AI 모델은 Biomedical 분야에서 이미지 분할(Image Segmentation)에 자주 사용되는 U-Net을 사용함
    - Optimizer : Adam
    - Loss Function : Dice Cross Entropy Loss
    - Batch Size : 2
    - Crop Size : 128*128*160
    - Epoch : 200  
    • 분할 정확도는 DICE 계수 및 F1 score로 산출했으며 분할 모델을 통해 얻은 mask로 병변 영역 확인 가능

    핵의학영상(PET) 이미지-모델학습_1


    출처(U-Net) : Ronneberger, O., Fischer, P., & Brox, T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation. In Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) (Vol. 9351, Issue Cvd, pp. 234-241). https://doi.org/10.1007/978-3-319-24574-4_28 

     

    2) 서비스 활용 시나리오

    • 학습된 인공지능(AI) 알고리즘을 통해 폐암/혈액암 PET/CT 영상을 분석하여 ROI 영역과 ROI 정량 값 예측 프로그램을 개발
    • 전문의는 폐암 또는 혈액암 PET/CT 영상을 프로그램에 업로드
    • 업로드된 영상은 AI 모델 서버로 영상을 전송하고 학습된 모델에서 ROI 영역 및 SUV 값을 예측하여 프로그램으로 회신

    핵의학영상(PET) 이미지-서비스 활용 시나리오_1

    3) 기타 정보
     포괄성

    • 폐암의 경우 원격전이(Metastasis) 없는 폐암 85%, 원격전이 있는 폐암 15%로 구성하여 다양한 질병 정도에 따른 폐암 데이터를 확보함
    • 혈액암은 기저평가와 치료효과평가를 약 50% 비율로 구성하여 현재 질병 상태(종양의 전체 볼륨)의 다양성을 확보함
    • 정상인은 신체적 기능이 정상이라 할 수 있는 건진 데이터를 다수 확보 및 질병력 없는 노년성 환자의 데이터 확보를 위해 60세 미만 73%, 60세 이상 27% 데이터를 수집함

     독립성

    • 서울대학교병원 외 컨소 구성 5개 병원에서 각 기관별 보안 관련 절차를 준수했으며 IRB 승인을 받은 데이터를 비식별화한 후 연구를 진행함
    • 환자의 의료정보가 포함된 의료 데이터(원시데이터)는 승인된 연구자 외에는 접근이 불가능함
    • 보건복지부의 보건의료 데이터 활용 가이드라인에 따라, 데이터 활용 및 제 3자의 배포를 위해서는 해당 의료 기관의 데이터 심의기관의 허가를 받아야 함

     유의사항

    • 원천 데이터는 환자 비식별화 작업을 거쳤으나 그 자체로도 민감한 의료정보이므로 데이터 수정과 배포에 유의해야 함

     

  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 암종별 병변 분할 모델 (폐암 병변 분할 모델) Segmentation U-Net F1-Score 0.75 0.7804
    2 암종별 병변 분할 모델 (혈액암 병변 분할 모델) Segmentation U-Net F1-Score 0.75 0.7502

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    1) 데이터 포맷

    영상 모달리티
    영상 모달리티 데이터포맷 어노테이션 항목

    3D PET 이미지

    핵의학영상(PET) 이미지-데이터 포맷_1_3D PET 이미지

    DICOM 정상인 장기(organ),
    폐암/혈액암 종양 3D segmentation

    3D CT 이미지

    핵의학영상(PET) 이미지-데이터 포맷_2_3D CT 이미지

    DICOM  
     

     

    • 라벨링 이미지(annotation) 정보와 환자 임상정보를 결합하여 json 파일을 생성함

    핵의학영상(PET) 이미지-데이터 포맷_3

     

    2) 데이터 구성

    핵의학영상(PET) 이미지-데이터 구성_1

     

    3) 어노테이션 포맷

    구분 항목명 타입 필수여부 설명 범위 비고
    1 기본정보 Object   기본정보    
      1–1 AGE NUMBER M 나이    
    1–2 SEX String M 성별 “F”or“M”  
    1–3 SMOKING String O 흡연력    
    1–4 DM String O 과거력:당뇨    
    1–5 HTN String O 과거력:고혈압 “Y” or “N”  
    1–6 PTID String M 익명화ID    
    1–7 IMAGEDATE String C 영상획득날짜   혈액암
    2 임상정보 Object   임상정보    
      2–1 Purpose String C 촬영목적 "BASELINE", "INTERIM", "EOT", null 혈액암
    2–2 Diagnosis String O 진단명 폐암, 림프종, 정상  
    2–3 CStaging String O 임상병기   TNM 병기
    2–4 PStaging String O 병리병기   TNM 병기
    2–5 BX_LOCATION String O 바이오마커 "Squamous cell carcinoma", "Adenocar cinoma", "Small cell lung cancer", "Adenosquamous cell carcinoma", "Large cell carcinoma", "Others", NULL  
    2–6 SUBTYPE_ADC String O 바이오마커 "Papillary", "Micropapillary", "Acinar", "Lepidic", "Solid", "Others", NULL 폐암 관련 바이오마커
    2–7 EGFR String O 바이오마커 Negative, "Positive", NULL 폐암 관련 바이오마커
    2–8 EGFR_LOC String O 바이오마커   폐암 관련 바이오마커
    2–9 ALK String O 바이오마커 "PSTAGE", "P_T", "Negative", "Positive" 폐암/혈액암 관련 바이오마커
    2–10 OTHER_MUTATION String O 바이오마커 "BRAF", "HER-2", "ROS1", "KRAS", "RET", "Others" 폐 암 관 련 바이오마커
    2–11 PD-L1_IHC_2 String O 바이오마커 "22C3", "28-8", "SP263", "SP142" 폐 암 관 련 바이오마커
    2–12 PD-L1_IHC_3 String O 바이오마커 22C3, "28-8", "SP263", "SP142" 폐 암 관 련 바이오마커
    2–13 B_SYMPTOMS String O 바이오마커 "Fever", "Night sweats", "Weight loss", "NA"  
    2–14 ECOG_PS String O 바이오마커 "0", "1", "2", "3", "4" 혈액암관련 바이오마커
    2–15 PREV_CTX String O 바이오마커 "ECOG_P S", "G_CSF_D ATE" 혈액암관련 바이오마커
    2–16 BIOPSY_SITE String O 바이오마커 "LN region", "Spleen", "Bone marrow", "Other extranodal organ"  
    2–17 PATHOLOGY_SUBTYPE String O 바이오마커 "DLBCL", "FL", "HL", "MM", "etc" 혈액암 관련 병리소견
    2–18 CD45 String O 바이오마커 "Positive", "Negative" 혈액암관련 바이오마커
    2–19 CD3 String O 바이오마커 "Positive", "Negative", "reactive T cells" 혈액암관련 바이오마커
    2–20 HHV8 String O 바이오마커 "Positive", "Negative" 혈액암관련 바이오마커
    2–21 SOX11 String O 바이오마커 "Positive", "Negative" 혈액암관련 바이오마커
    2–22 MYC String O 바이오마커 "Positive", "Negative" 혈액암관련 바이오마커
    2–23 BLC6 String O 바이오마커 "Positive", "Negative" 혈액암관련 바이오마커
    3 라벨영역정보 Object   라벨영역정보    
      3–1 ROI.type String C ROI의 종류   정상군(NULL)
    "Primary", "Lymph Node 1", "Lymph Node 2", "Lymph Node 3", "Metastasis", “-” 폐암("Primary", "Lymph Node 1", "Lymph Node 2", "Lymph Node 3", "Metastasis", “-”)
    "Above Diaphragm", "Below Diaphragm", "Tonsil", "Spleen", "Bone marrow", "Liver", "ETC", “-”, NULL 혈액암("Above Diaphragm", "Below Diaphragm", "Tonsil", "Spleen", "Bone marrow", "Liver", "ETC", “-”, NULL)
    3–2 ROI.organ String C ROI 내의 장기 "Aorta", "Liver", "Lumbar Bone Marrow", "Mediastinal Blood Pool“, NULL 정상군
      폐암(NULL)
    혈액암(NULL)
    3–3 ROI.name String M ROI 이름 "aor, "liv", "lbm", "mbp“ 정 상 군
    "P", "N1", "N2", "N3", "M“ 폐암
    "0_AD", "0_BD", "0_TN", "0_SP", "0_BM", "0_LV", "0_ETC", "1_AD", "1_BD", "1_TN", "1_SP", "1_BM", "1_LV", "1_ETC", "2_AD", "2_BD", "2_TN", "2_SP", "2_BM", "2_LV", "2_ETC", "3_AD", "3_BD", "3_TN", "3_SP", "3_BM", "3_LV", "3_ETC", "4_AD", "4_BD", "4_TN", "4_SP", "4_BM", "4_LV", "4_ETC", "-" 혈액암
    3–4 ROI.method String M ROI 생성 방법 "40%", "n", "-" Semi-auto 방식으로 생성시 방법.
    정상군("n"),폐암("40%","n",“-”),혈액암("n",“-”)
    3–5 ROI.id String M   “-”   
    * C: Conditional – 환자군 및 ROI.type에 따라 필수여부가 정해짐
     

    4) 실제 예시

    폐암 혈액암 정상인
    핵의학영상(PET) 이미지-실제 예시_1_폐암 핵의학영상(PET) 이미지-실제 예시_2_혈액암 핵의학영상(PET) 이미지-실제 예시_3_정상인

     

     

     

  • 데이터셋 구축 담당자

    수행기관(주관) : 서울대학교병원
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    최홍윤 02-2072-3347 chy1000@gmail.com 데이터 수집, 정제, 가공, 검수, 알고리즘 개발
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    국립암센터 데이터 수집, 정제, 가공, 검수
    분당서울대병원 데이터 수집, 정제, 가공, 검수
    아주대 산학협력단 (아주대병원) 데이터 수집, 정제 및 가공 교육, 가공, 검수
    연세대 산학협력단 (세브란스병원) 데이터 수집, 정제, 가공, 검수
    가톨릭대 산학협력단 (서울성모병원) 데이터 수집, 정제 및 가공 교육, 가공, 검수
    서울아산병원 데이터 검수 및 QC
    ㈜에이아이더뉴트리진 데이터 정제, 가공, 검수 및 QC, DB 구축, 알고리즘 개발, 서비스 개발, 홍보
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.