콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#자연어 #헬스케어 건강서비스 #헬스케어 의료

BETA 필수의료 의학지식 데이터

필수의료 의학지식 데이터 아이콘 이미지
  • 분야헬스케어
  • 유형 텍스트
  • 생성 방식LLM
구축년도 : 2024 갱신년월 : 2025-05 조회수 : 139 다운로드 : 4 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2025-05-16 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2025-05-16 산출물 전체 공개

    소개

    ● 국내 Big 5 대형병원 중 총 4개 병원 (서울성모병원, 삼성서울병원, 서울대학교병원, 세브란스병원), 국내 최대규모의 공공병원인 서울특별시 보라매병원에서 참여하여, 고품질의 필수의료 의학지식 관련 말뭉치 및 질의응답 데이터셋을 확보

    구축목적

    ● 임상학적 근거가 분명한 필수의료 의학지식(질병의 원인, 진단, 치료, 관리, 예방, 최신지견 등)을 내포한 영어/한글 필수의료 의학 말뭉치 1억 토큰 구축/개방
    ● 향후 의학지식에 대한 전문적 자연어처리 태스크에 대응할 수 있는 필수의료 의학 지식 질의응답 1.5만 쌍 (10만 토큰) 구축/개방
  • 1. 데이터 구축 규모
    ● 원천데이터: 101,400,003 토큰
    ● 라벨링데이터: 19,201 쌍

     

    2. 데이터 분포 (단위: 쌍)
    1. domain
    ● 산부인과: 2518
    ● 소아청소년과: 3087
    ● 응급의학과: 815
    ● 내과: 12781

     

    2. q_type
    ● 객관식: 15600
    ● 단답형: 1814
    ● 서술형: 1787

     

    1. 원천데이터

    1. 원천데이터
    대분류 소분류 포맷 수량 단위
    국문 학술 논문 및 저널 JSON 15928056 토큰
    온라인 의료 정보 제공 사이트 JSON 515531 토큰
    정부기관 가이드라인 JSON 0 토큰
    학회 가이드라인 JSON 7709412 토큰
    국제기관 가이드라인 JSON 0 토큰
    의학 교과서 JSON 647538 토큰
    기타 (수술/검사/기타 동의서) JSON 39799317 토큰
    영문 학술 논문 및 저널 JSON 2355433 토큰
    온라인 의료 정보 제공 사이트 JSON 12030958 토큰
    정부기관 가이드라인 JSON 0 토큰
    학회 가이드라인 JSON 0 토큰
    국제기관 가이드라인 JSON 22413758 토큰
    의학 교과서 JSON 0 토큰
    기타 (수술/검사/기타 동의서) JSON 0 토큰

    2. 라벨링 데이터

    2. 라벨링 데이터
    대분류 포맷 수량 단위
    산부인과 JSON 2518
    소아청소년과 JSON 3087
    응급의학과 JSON 815
    내과 JSON 12781

     

  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    1. 모델 학습
    (1) 학습: 본 과제에서 구축한 질의응답 데이터셋
    (2) 테스트: https://huggingface.co/datasets/sean0042/KorMedMCQA

     

    2. 활용 시나리오
    (1) 의료진: 의사 교육/진단 보조, 사례 기반 학습, 지식 갱신, 의사결정 지원, 시간 절약, 실수 예방
    (2) 환자: 환자 교육, 의료 정보 접근성 개선, 응급 상황 대응 개선, 예방 의학 강화, 개인화된 치료, 의료 오류 감소, 진료 품질 향상, 대기 시간 감소, 의료 비용 절감

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    1. 데이터 구성
    (1) qa_id: 질의응답별 고유 id
    (2) domain: 의료분야
    (3) q_type: 질문 유형
    (4) question: 질문
    (5) answer: 답변

     

    2. 어노테이션 포맷
    (1) qa_id: 1-보라매병원, 2-삼성서울병원, 3-서울대병원, 4-서울성모병원, 5-세브란스병원, 6-크라우드웍스
    (2) domain: 1-외과, 2-예방의학, 3-정신건강의학과, 4-신경과/신경외과, 5-피부과, 6-안과, 7-이비인후과, 8-비뇨의학과, 9-방사선종양학과, 10-병리과, 11-마취통증의학과, 12-의료법규, 13-기타, 14-산부인과, 15-소아청소년과, 16-응급의학과, 17-내과
    (3) q_type: 1-객관식, 2-단답형, 3-서술형
    (4) question: 질문 텍스트
    (5) answer: 답변 텍스트


    3. 데이터 포맷
    Json 형식
    {    "qa_id": "",
        "domain": "",
        "q_type": "",
        "question": "",
        "answer": ""
    }

     

    4. 실제 예시
    {    "qa_id": "65",
        "domain": "13",
        "q_type": "1",
        "question": "35세 여성이 항레트로바이러스제 STRIBILD(Emtricitabine+Tenofovir Alafenamide+Elvitegravir+Cobicistat)를 과다 복용한 후 병원에 내원하였다. 활력징후는 혈압 110/70mmHg, 맥박 88회/분, 호흡 18회/분, 체온 37.2°C로 측정되었으며, 현재 특별한 증상은 없다. 의료진은 그녀의 상태를 모니터링하고 있다. STRIBILD의 구성 성분인 엘비테그라비르, 코비시스타트, 엠트리시타빈, 테노포비르 DF 각각의 과량 투여에 대한 임상적 경험이 제한적이다. 다음 중 STRIBILD의 성분에 대한 설명으로 옳지 않은 것은?\n1) 엘비테그라비르는 혈장 단백질에 강하게 결합되어 있어 혈액투석이나 복막투석으로 효과적으로 제거되지 않을 가능성이 높다.\n2) 코비시스타트는 400 mg 단일 투여 시 심각한 부작용이 보고되지 않았다.\n3) 엠트리시타빈은 혈액투석으로 약 30%가 제거될 수 있으며, 복막투석으로 제거가 가능한지는 알려져 있지 않다.\n4) 테노포비르 DF는 600 mg 투여 시 심각한 부작용이 보고되었으며, 혈액투석으로 약 54%가 제거될 수 있다.\n5) STRIBILD의 과다 복용 시 일반적인 지원 조치로 환자의 임상 상태를 관찰하고 활력 징후를 모니터링하는 것이 중요하다.",
        "answer": "4) 테노포비르 DF는 600 mg 투여 시 심각한 부작용이 보고되었으며, 혈액투석으로 약 54%가 제거될 수 있다."
    }

  • 데이터셋 구축 담당자

    수행기관(주관) : 가톨릭대학교 산학협력단
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    김동민 02-3147-8626 diana.kim.0804@gmail.com 총괄
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    삼성서울병원 데이터 수집 및 정제
    서울특별시 보라매병원 데이터 수집 및 정제
    서울대학교병원 데이터 수집 및 정제
    연세대학교 산학협력단 데이터 수집 및 정제
    크라우드웍스 데이터 수집 및 정제
    에스앤유에이치벤처 데이터 수집 및 정제
    파이디지털헬스케어 데이터 수집 및 정제
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    고태훈 02-3147-8429 thko@catholic.ac.kr
    김동민 02-3147-8626 diana.kim.0804@gmail.com
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    고태훈 02-3147-8429 thko@catholic.ac.kr
    김동민 02-3147-8626 diana.kim.0804@gmail.com
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    고태훈 02-3147-8429 thko@catholic.ac.kr
    김동민 02-3147-8626 diana.kim.0804@gmail.com
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

오프라인 데이터 이용 안내

본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.

K-ICT 빅데이터센터는 데이터 안심구역으로 지정되어
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.

데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 이용신청 탭 이미지

국방데이터 개방 안내

본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.