갑상선암 진단 의료 영상

갑상선암 진단 의료 영상

본 데이터는 온라인 안심존 데이터입니다.
데이터셋명 갑상선암 진단 의료 영상
데이터 분야 헬스케어 데이터 유형 이미지, 비디오
구축기관 에이아이트릭스 데이터 관련 문의처 담당자명 유진규
가공기관 고신대학교복음병원 전화번호 02-569-5507
검수기관 고신대학교복음병원 이메일 contact@aitrics.com
구축 데이터량 24.7만 구축년도 2020년
버전 1.0 최종수정일자 2021.06.30
소개 갑상선암 진단 및 치료 과정에서 필요한 영상‧이미지 데이터
주요 키워드 조기 진단, 딥러닝 인공지능, 영상데이터, 이미지데이터, 갑상선 초음파, Neck CT, 병리 이미지, 양성, 악성
저작권 및 이용정책 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다 [데이터 이용정책 상세보기]
데이터설명서 자료보기 구축활용가이드 자료보기
샘플데이터 교육활용동영상 영상보기
저작도구 다운로드 AI모델 다운로드
데이터 변경이력
버전 일자 변경내용 비고
1.0 2021.06.30 데이터 최초 개방  
구축 목적
  • 의료 진단에서 활용될 수 있는 의료 인공지능 개발이 세계적으로 소개되고 있지만 민감한 의료 정보를 담고 있기 때문에 접근할 수 있는 오픈소스 의료 데이터의 종류가 제한적임.
  • 따라서 갑상선암 진단에 활용할 수 있는 3종류의 갑상선암 의료 영상 데이터셋을 구축하여 영상 진단 판독을 보조할 수 있는 의료 인공지능 개발을 도모하고 의료 산업의 발전을 기대함.
활용 분야
  • 의료 영상 판독 보조 소프트웨어 산업
소개
  • 갑상선암 데이터셋은 갑상선암 진단에 가장 많이 활용되는 3가지 의료 이미지(갑상선 초음파, Neck CT, 병리 이미지)로 구성되어 있음
  • 갑상선암의 종양 감별을 위해 갑상선 초음파의 양/악성 데이터셋을 구축하였으며, 전이 유무 판단을 할 수 있는 갑상선 CT(Neck CT), 갑상선암의 세포병리학적 진단 기준인 베데스다 클래스를 활용하여 진단한 병리 이미지로 구성되어 있음
구축 내용 및 제공 데이터량
  • 갑상선암 데이터셋은 병원으로부터 원본 의료 이미지 데이터 획득 후 익명화 및 비식별화 과정을 거친 뒤 전문의의 라벨링으로 구축되었다.

     

    구축 내용 및 제공 데이터량 구조테이블
    유형 구축 건수(건)
    분류 환자수 영상 수
    초음파 양성 1.040명 25,790장
    악성 3,960명 3,116,128명
    Neck CT 전이있음 232명 45,143장
    전이없음 270명 56,030장
    병리 이미지 양성 1,585명 2,731장
    악성 1,190명 2,111장
대표도면
대표도면 표
모달리티 갑상선암 영상데이터 데이터
포맷
어노테이션
항목
메타데이터
JSON 형식
갑상선
초음파
갑상선암 대표도면 갑상선초음파 DICOM 단일 결절 부위
Bounding Box
체크
· DICOM 파일(비식별화 후)
 - age, sex, manufacture, machine name
· Json 파일
 - 환자:json = 1:n
· Excel 파일
- 양성/악성정보 비식별 환자ID, 나이, 성별
Nect CT 갑상선암 대표도면  Nect CT DICOM 단일 결절 부위
Bounding Box
체크
· DICOM 파일 (비식별화 후)
 - age, sex, matrix size, machine name, slice thickness, series description
· Json 파일    - 환자:json = 1:n
· Excel 파일 - 전이/비전이 정보, 비식별 환자ID, 나이, 성별, 병리결과, 흡연력
병리
이미지
갑상선암 대표도면 병리이미지 Tif 세포 cluster
Polygon
Segmentation
· Tif 파일
 - Scan machine name, scanning parameter, scanner manufacture
· Json 파일
 - 환자:json = 1:n
· Excel 파일
 - 양성/악성정보,
비식별 환자ID, 나이, 성별
필요성
  • 갑상선암 데이터셋은 의료진이 갑상선암 환자를 진단할 때 사용하는 대표적인 영상 3가지(갑상선 초음파, Neck CT, 병리 이미지) 카테고리로 구성
  • 현재 인공지능 기술은 오픈소스 활용 등으로 다양하게 발전하고 있으나, 의료 데이터는 의료 정보의특수성으로 확보가 어려움
  • 따라서, 갑상선암 진단을 위한3가지 종류의 데이터셋을 통해 의료 인공지능 기술 발전을 도모하고 인공지능 진단 모델을
  • 활용하여 의료진의 종합적이고 효율적인 진단을 통한 의료 서비스의 질적 향상을 기대함
데이터 구조
  • 데이터구성
    데이터 구성 표
    모달리티 super
    category
    super
    category_
    name
    grp_id grp_name id name
    초음파 ULS Ultra
    sound
    1 악성 1 악성_K-TIRADS_1
    2 악성_K-TIRADS_2
    3 악성_K-TIRADS_3
    4 악성_K-TIRADS_4
    5 악성_K-TIRADS_5
    2 양성 6 양성_K-TIRADS_1
    7 양성_K-TIRADS_2
    8 양성_K-TIRADS_3
    9 양성_K-TIRADS_4
    10 양성_K-TIRADS_5
    Neck
    CT
    NCT Neck
    CT
    1 악성 1 악성_림프절
    2 양성 2 양성_림프절
    병리 PTH Pathology 1 악성 1 malignant(PTC)
    2 malignant
    (medullary_ca)
    3 malignant
    (anaplastic)
    4 malignant
    (etc_type)
    2 양성 5 benign
    6 atypical
    3 기타 7 cluster_box
    1. 1) 갑상선 초음파
      갑상선초음파 데이터구성 표
      No 영문명 한글명 필수여부 타입 길이 비고
      1 supercategory 슈퍼카테고리 Y string 3 ULS
      2 grp_id 그룹 아이디 Y number   1~2
      3 grp_name 그룹 이름 Y string 2 1 : 악성
      2 : 양성
      4 id 아이디 Y number   1~10
      5 name 이름 Y string 6 1 :
      악성_K-TIRADS_1
      2 :
      악성_K-TIRADS_2
      3 :
      악성_K-TIRADS_3
      4 :
      악성_K-TIRADS_4
      5 :
      악성_K-TIRADS_5
      6 :
      양성_K-TIRADS_1
      7 :
      양성_K-TIRADS_2
      8 :
      양성_K-TIRADS_3
      9 :
      양성_K-TIRADS_4
      10 :
      양성_K-TIRADS_5
    2. 2) 갑상선 CT
      갑상선 CT 데이터구성 표
      No 영문명 한글명 필수여부 타입 길이 비고
      1 supercategory 슈퍼카테고리 Y string 3 NCT
      2 grp_id 그룹 아이디 Y number   1~2
      3 grp_name 그룹 이름 Y string 2 1 : 악성
      2 : 양성
      4 id 아이디 Y number   1~2
      5 name 이름 Y string 6 1 : 악성_림프절
      2 : 양성_림프절
    3. 3) 병리 이미지
      병리 이미지 데이터구성 표
      No 영문명 한글명 필수여부 타입 길이 비고
      1 supercategory 슈퍼카테고리 Y string 3 PTH
      2 grp_id 그룹 아이디 Y number   1~3
      3 grp_name 그룹 이름 Y string 2 1 : 악성
      2 : 양성
      3 : 기타
      4 id 아이디 Y number   1~7
      5 name 이름 Y string 30 1 : malignant(PTC)
      2 : malignant(medullary_ca)
      3 : malignant(anaplastic)
      4 : malignant(etc_type)
      5 : benign
      6 : atypical
      7 : cluster_box
  • JSON image 포맷
    1. 1) 갑상선 초음파 및 갑상선 CT
      갑상선 초음파 및 CT JSON image 포맷 표
      No 영문명 한글명 필수여부 타입 길이 비고
      1 id 이미지 아이디 Y number   Default=1
      2 file_name 이미지 파일명 Y string 50 영상이미지
      파일명
      3 patient_id 비식별
      환자아이디
      Y string 7 비식별
      환자아이디
      4 series_id 시리즈 번호 Y string 7 환자의
      영상촬영 순번
      5 image_id 이미지 번호 Y string 7 시리즈의
      이미지 순번
      6 width 가로길이 Y number   1~9999999
      7 height 세로길이 Y number   1~9999999
      8 date_
      captured
      생성날짜 Y string 20 yyyy-mm-dd
      hh-mm-ss
      9 modality 모달리티 Y string 3 NCT : Neck CT
      ULS : Ultrasound
      10 manufacturer 검사장비 Y string 300 영상촬영
      장비 제조사
      11 manufacturer
      ModelName
      검사장비 모델 Y string 300 영상촬영
      장비 모델명
    2. 2) 갑상선 병리 이미지
      갑상선 병리 이미지 JSON image 포맷 표
      No 영문명 한글명 필수여부 타입 길이 비고
      1 id 이미지 아이디 Y number   Default=1
      2 file_name 이미지 파일명 Y string 50 영상이미지
      파일명
      3 patient_id 비식별
      환자아이디
      Y string 7 비식별
      환자아이디
      4 slide_id 슬라이드 번호 Y string 3 조직 부위의 번호
      5 scene_id 씬 번호 Y string 3 슬라이드의
      씬 순번
      6 width 이미지 가로길이 Y number   1~9999999
      7 height 이미지 세로길이 Y number   1~9999999
      8 modality 모달리티 Y string 3 PTH : Pathology
      9 microscope 현미경 Y string 300 현미경 이름
      10 imaging_
      device
      이미지 장비 Y string 300 이미지 처리 장비
      11 camera_
      adapter
      카메라 렌즈 Y string 300 렌즈모델명
  • JSON 어노테이션 포맷
    JSON 어노테이션 포맷 표
    No 영문명 한글명 필수여부 타입 길이 비고
    1 id 어노테이션
    아이디
    Y number   어노테이션
    아이디
    2 image_id 이미지 아이디 Y number   시리즈의
    이미지 순번
    3 category_id 카테고리
    아이디
    Y number   1,2,3
    5 iscrowd 어노테이션
    싱글/멀티 유형
    Y number   0 : 싱글, 1 : 멀티
    6 area 어노테이션
    넓이
    Y number   bbox를 활용한 넓이
    7 bbox 어노테이션
    최대 Box 좌표
    Y array   [x1, y1, x2, y2]
    x,y는 float형식
    8 toolname 어노테이션
    툴 유형
    Y string 300 어노테이션 툴명
    9 segmentation 어노테이션
    좌표정보
    Y array   [x1, y1, x2, y2,
    ...., xn, yn]
    x,y는 float형식
    10 width 세그먼트
    가로길이
    Y number   픽셀 길이
    11 height 세그먼트
    세로길이
    Y number   픽셀 길이
데이터셋 구축 담당자
수행기관(주관) : 에이아이트릭스
수행기관(주관)
책임자 전화번호 대표이메일 담당업무
유진규 02-569-5507 contact@aitrics.com · 데이터구축 총괄
· 갑상선암 데이터셋을 활용한 AI모델 개발
수행기관(참여)
수행기관(참여)
기관명 담당업무 기관명 담당업무
고신대복음병원 · 원본 데이터 제공 및 데이터 어노테이션 비알프레임 · 데이터 익명화 작업 및 데이터 어노테이션 툴 개발