BETA 필수의료 의학지식 데이터
- 분야헬스케어
- 유형 텍스트
- 생성 방식LLM
※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2025-05-16 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2025-05-16 산출물 전체 공개 소개
● 국내 Big 5 대형병원 중 총 4개 병원 (서울성모병원, 삼성서울병원, 서울대학교병원, 세브란스병원), 국내 최대규모의 공공병원인 서울특별시 보라매병원에서 참여하여, 고품질의 필수의료 의학지식 관련 말뭉치 및 질의응답 데이터셋을 확보
구축목적
● 임상학적 근거가 분명한 필수의료 의학지식(질병의 원인, 진단, 치료, 관리, 예방, 최신지견 등)을 내포한 영어/한글 필수의료 의학 말뭉치 1억 토큰 구축/개방 ● 향후 의학지식에 대한 전문적 자연어처리 태스크에 대응할 수 있는 필수의료 의학 지식 질의응답 1.5만 쌍 (10만 토큰) 구축/개방
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 텍스트 데이터 형식 json 데이터 출처 학술 논문 및 저널, 온라인 의료 정보 제공 사이트, 정부기관 가이드라인, 학회 가이드라인, 국제기관 가이드라인, 의학 교과서, 기타 (수술/검사/기타 동의서) 라벨링 유형 질의응답(자연어) 라벨링 형식 json 데이터 활용 서비스 ● 진료 보조, 예방 및 건강증진, 의료 연구 및 교육에 있어 본 사업의 개방 데이터와 AI 모델은 의료분야 생성형 AI의 근간이 될 것 ● 대규모 전문의가 참여한 고품질 데이터셋을 개발하여, 국내 의료분야 인공지능, 나아가 우리나라 인공지능의 국제 경쟁력 향상에 도움이 될 것이라 기대 ● 의료자원이 제한된 의료환경에서 저비용 고효율로 다양한 의료분야 애플리케이션의 AI 가속화에 기여하고, 이를 통해 최적의 치료 계획 제공, 건강관리 및 공공보건 관리의 질적 향상, 올바른 정보제공을 통한 일반 국민들의 건강 관련 정보비대칭 해소에 도움이 될 것 데이터 구축년도/
데이터 구축량2024년/● 원천데이터: 101,400,003 토큰 ● 라벨링데이터: 19,201 쌍 -
1. 데이터 구축 규모
● 원천데이터: 101,400,003 토큰
● 라벨링데이터: 19,201 쌍2. 데이터 분포 (단위: 쌍)
1. domain
● 산부인과: 2518
● 소아청소년과: 3087
● 응급의학과: 815
● 내과: 127812. q_type
● 객관식: 15600
● 단답형: 1814
● 서술형: 17871. 원천데이터
1. 원천데이터 대분류 소분류 포맷 수량 단위 국문 학술 논문 및 저널 JSON 15928056 토큰 온라인 의료 정보 제공 사이트 JSON 515531 토큰 정부기관 가이드라인 JSON 0 토큰 학회 가이드라인 JSON 7709412 토큰 국제기관 가이드라인 JSON 0 토큰 의학 교과서 JSON 647538 토큰 기타 (수술/검사/기타 동의서) JSON 39799317 토큰 영문 학술 논문 및 저널 JSON 2355433 토큰 온라인 의료 정보 제공 사이트 JSON 12030958 토큰 정부기관 가이드라인 JSON 0 토큰 학회 가이드라인 JSON 0 토큰 국제기관 가이드라인 JSON 22413758 토큰 의학 교과서 JSON 0 토큰 기타 (수술/검사/기타 동의서) JSON 0 토큰 2. 라벨링 데이터
2. 라벨링 데이터 대분류 포맷 수량 단위 산부인과 JSON 2518 쌍 소아청소년과 JSON 3087 쌍 응급의학과 JSON 815 쌍 내과 JSON 12781 쌍 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1. 모델 학습
(1) 학습: 본 과제에서 구축한 질의응답 데이터셋
(2) 테스트: https://huggingface.co/datasets/sean0042/KorMedMCQA2. 활용 시나리오
(1) 의료진: 의사 교육/진단 보조, 사례 기반 학습, 지식 갱신, 의사결정 지원, 시간 절약, 실수 예방
(2) 환자: 환자 교육, 의료 정보 접근성 개선, 응급 상황 대응 개선, 예방 의학 강화, 개인화된 치료, 의료 오류 감소, 진료 품질 향상, 대기 시간 감소, 의료 비용 절감 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 데이터 구성
(1) qa_id: 질의응답별 고유 id
(2) domain: 의료분야
(3) q_type: 질문 유형
(4) question: 질문
(5) answer: 답변2. 어노테이션 포맷
(1) qa_id: 1-보라매병원, 2-삼성서울병원, 3-서울대병원, 4-서울성모병원, 5-세브란스병원, 6-크라우드웍스
(2) domain: 1-외과, 2-예방의학, 3-정신건강의학과, 4-신경과/신경외과, 5-피부과, 6-안과, 7-이비인후과, 8-비뇨의학과, 9-방사선종양학과, 10-병리과, 11-마취통증의학과, 12-의료법규, 13-기타, 14-산부인과, 15-소아청소년과, 16-응급의학과, 17-내과
(3) q_type: 1-객관식, 2-단답형, 3-서술형
(4) question: 질문 텍스트
(5) answer: 답변 텍스트
3. 데이터 포맷
Json 형식
{ "qa_id": "",
"domain": "",
"q_type": "",
"question": "",
"answer": ""
}4. 실제 예시
{ "qa_id": "65",
"domain": "13",
"q_type": "1",
"question": "35세 여성이 항레트로바이러스제 STRIBILD(Emtricitabine+Tenofovir Alafenamide+Elvitegravir+Cobicistat)를 과다 복용한 후 병원에 내원하였다. 활력징후는 혈압 110/70mmHg, 맥박 88회/분, 호흡 18회/분, 체온 37.2°C로 측정되었으며, 현재 특별한 증상은 없다. 의료진은 그녀의 상태를 모니터링하고 있다. STRIBILD의 구성 성분인 엘비테그라비르, 코비시스타트, 엠트리시타빈, 테노포비르 DF 각각의 과량 투여에 대한 임상적 경험이 제한적이다. 다음 중 STRIBILD의 성분에 대한 설명으로 옳지 않은 것은?\n1) 엘비테그라비르는 혈장 단백질에 강하게 결합되어 있어 혈액투석이나 복막투석으로 효과적으로 제거되지 않을 가능성이 높다.\n2) 코비시스타트는 400 mg 단일 투여 시 심각한 부작용이 보고되지 않았다.\n3) 엠트리시타빈은 혈액투석으로 약 30%가 제거될 수 있으며, 복막투석으로 제거가 가능한지는 알려져 있지 않다.\n4) 테노포비르 DF는 600 mg 투여 시 심각한 부작용이 보고되었으며, 혈액투석으로 약 54%가 제거될 수 있다.\n5) STRIBILD의 과다 복용 시 일반적인 지원 조치로 환자의 임상 상태를 관찰하고 활력 징후를 모니터링하는 것이 중요하다.",
"answer": "4) 테노포비르 DF는 600 mg 투여 시 심각한 부작용이 보고되었으며, 혈액투석으로 약 54%가 제거될 수 있다."
} -
데이터셋 구축 담당자
수행기관(주관) : 가톨릭대학교 산학협력단
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김동민 02-3147-8626 diana.kim.0804@gmail.com 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 삼성서울병원 데이터 수집 및 정제 서울특별시 보라매병원 데이터 수집 및 정제 서울대학교병원 데이터 수집 및 정제 연세대학교 산학협력단 데이터 수집 및 정제 크라우드웍스 데이터 수집 및 정제 에스앤유에이치벤처 데이터 수집 및 정제 파이디지털헬스케어 데이터 수집 및 정제 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 고태훈 02-3147-8429 thko@catholic.ac.kr 김동민 02-3147-8626 diana.kim.0804@gmail.com AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 고태훈 02-3147-8429 thko@catholic.ac.kr 김동민 02-3147-8626 diana.kim.0804@gmail.com 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 고태훈 02-3147-8429 thko@catholic.ac.kr 김동민 02-3147-8626 diana.kim.0804@gmail.com
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.
국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.