콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#소아 # 복부 # x-ray # 합성데이터 # 인공지능 # 선천성유문협착증 # 기복증 # 공기액체음영 # 변비 # 캡션 # 텍스트 # 세그멘테이션 #컴퓨터 비전 #헬스케어 의료

BETA 소아 복부 x-ray 합성데이터

소아 복부 x-ray 합성데이터 아이콘 이미지
  • 분야헬스케어
  • 유형 텍스트 , 이미지
  • 생성 방식합성데이터
구축년도 : 2024 갱신년월 : 2025-05 조회수 : 896 다운로드 : 13 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2025-05-13 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2025-05-13 산출물 전체 공개

    소개

    실제 소아 복부 x-ray를 학습한 확산모델을 통해 선천성유문협착증, 기복증, 공기액체음영, 변비, 정상 클래스별로 합성데이터를 생성하여 의료이미지 데이터셋을 구축

    구축목적

    x-ray 합성데이터 생성모델을 통해 개인정보 및 윤리적 이슈가 없는 의료이미지 데이터셋을 구축 및 공개하여 연구 활성화 및 기술 개발에 활용
  • [데이터 구성]

    데이터 구성
    데이터 종류 데이터
    형태
    이미지 규모(단위 : 장) 어노테이션 규모(단위 : 건)
    파일 수 객체 수 캡션 수 토큰 수
    소아 복부 X-ray
    합성데이터 
    합성
    이미지
    10,000 선천성유문협착증 : 2,000 2,000 2,000 2,000 24,760
    기복증 : 2,000 2,000 3,468 2,000 36,308
    공기액체음영 : 2,000 2,000 3,898 2,000 16,428
    변비 : 2,000 2,000 2,000 2,000 23,544
    정상 : 2,000 2,000 - 2,000 17,948
    총 계 10,000 10,000 11,366 10,000 118,988

     

    [데이터 분포]

    데이터 분포 - 병변 클래스별 세그멘테이션 분포

    데이터 분포 - 질환별 주요 단어 분포

    데이터 분포 - 진단 데이터 어절 길이 분포

     

  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    [활용 모델]
    모델 학습

    ConvNext 모델은 실시간 병변 분류 모델로, 병변 이미지 데이터를 활용하여 학습함. 본 사업에서는 구축된 데이터를 보편적인 데이터셋 비율인 학습, 검증, 시험을 8:1:1로 구분하여 검증과 시험 각각 1천 장으로 준비하는 것을 제안함.

    모델학습-ConvNext
      학습(Training) 검증(Validation) 시험(Test)
    개요 - ConvNeXt 모델 학습
    - 로컬 환경에서 학습
    - 학습 도중 모델 성능 평가 및 비교
    - Accuracy 지표 기준
    - 모델 학습 후 성능 평가
    - Accuracy 지표 기준
    데이터 수량 8,000 장 1,000 장 1,000 장

     

    활용 모델

     

    서비스 활용 시나리오
    - x-ray에 나타난 병변으로 분류하는 서비스로 활용 가능
    - 소아 복부 x-ray 병변 진단 서비스
      - 데이터셋에 주어진 병변 라벨 뿐만 아니라 세그멘테이션 마스크를 활용하여 다양한 형태의 병변 분류 및 탐지 모델 개발이 가능
      - 라벨의 활용에 따라 성능 우선 또는 추론 속도 우선 등의 모델 개발 선택이 가능
    - 기타 서비스
      - 데이터셋에 존재하는 캡션을 활용하여 LLM 기반의 멀티모달 학습 또는 임상 의사결정 지원 서비스로 활용 가능
      - 생성모델을 활용한 x-ray 합성이미지 생성 서비스를 통해 연구 또는 성능 개선 목적으로 활용 가능 

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    [데이터 구성]

    데이터 구성
    객체 라벨링 json 예시
    데이터 구성 - 객체 라벨링 {
        "filename": "1_0987.png",
        "format": "png",
        "imagePath": "1.질환/1.선천성유문협착증",
        "imageDate": "2024-10-07",
        "imageSize": "337.34 KB",
        "imageWidth": 512,
        "imageHeight": 512,
        "patient": {
            "age": null,
            "diagnosis": 1
        },
        "shapes": [
            {
                "class": 1,
                "points": [
                    [390, 149],
                    ...
                ],
                "group_id": null,
                "shape_type": "polygon"
            }
        ],
        "caption": "A plain abdominal radiograph of an about 2-month-old male infant with moderate stomach dilation."
    }
    이미지 캡션
    A plain abdominal radiograph of an about 2-month-old male infant with moderate stomach dilation.

     

    [어노테이션 포맷]

    어노테이션 포맷
    No 항목 길이 타입 필수여부 비고
    한글명 영문명
    1 파일 이름 filename   String Y  
    2 이미지 파일 포맷 format   String Y  
    3 이미지 파일 경로 imagePath   String Y  
    4 이미지 생성 일자 imageDate   String N  
    5 파일크기(KB) imageSize   String Y  
    6 이미지 가로 길이 imageWidth   Integer Y 512
    7 이미지 세로 길이 imageHeight   Integer Y 512
    8 환자 정보 patient   JsonObject Y  
      8-1 환자 나이 구분 age   Integer N [1,2,3,4,5]
      8-2 진단 구분 diagnosis   Integer Y [1,2,3,4,5]
    9 라벨링 정보 shapes   JsonArray Y  
      9-1 마스크 객체 {   JsonObject N  
      9-2 마스크 클래스 class   Integer Y [1,2,3,4]
      9-3 마스크 좌표 points 3≤ JsonArray Y  
      9-4 x, y 좌표 [ 2 JsonArray Y  
      9-5 좌표값 $value   Integer Y 0≤,<512
          ]        
      9-6 그룹 group_id   String N  
      9-7 라벨링 타입 shape_type   String N “polygon”
          }        
    10 이미지 설명 캡션 caption   String Y  

     

    [데이터 포맷]

    데이터 포맷
    이미지
    데이터 포맷 - 이미지
    캡션
    A plain abdominal radiograph of an about 2-month-old male infant with moderate stomach dilation.
    객체 리스트
    객체 1 클래스 2
    객체 좌표 [[114, 165], ...]
    객체 타입 polygon
    객체 2 클래스 2
    객체 좌표 [[289, 143], ...]
    객체 타입 polygon
    이미지 파일명
    2_1834.png
    이미지 높이
    512
    이미지 넓이
    512
    JSON 형식 및 실제 예시
    데이터 포맷 - JSON 형식 및 실제 예시
  • 데이터셋 구축 담당자

    수행기관(주관) : 서울대학교병원
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    김현영 02-2072-2478 spkhy02@snu.ac.kr 과제 총괄
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    경북대학교 산학협력단 생성모델 구현, 합성데이터 생성
    고려대학교 산학협력단 데이터 제공 및 합성데이터 가공 검증
    양산부산대학교병원 데이터 제공 및 합성데이터 가공 검증
    ㈜서르 라벨 가공 및 검수, 합성데이터 품질 검증
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    이연주 070-5066-0525 yjlee@seoreu.com
    박지애 070-5066-0525 ji_ae@seoreu.com
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    이해진 070-5066-0525 lee_hj@seoreu.com
    최태훈 070-5066-0525 choi_th@seoreu.com
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    류연경 070-5066-0525 yg_ryu@seoreu.com
    공한석 070-5066-0525 gong_hs@seoreu.com
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

오프라인 데이터 이용 안내

본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.

K-ICT 빅데이터센터는 데이터 안심구역으로 지정되어
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.

데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 이용신청 탭 이미지

국방데이터 개방 안내

본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.