비대면 진료를 위한 의료진 및 환자 음성 소개
기본탭
데이터셋명 | 비대면 진료를 위한 의료진 및 환자 음성 | |||
---|---|---|---|---|
데이터 분야 | 헬스케어 | 데이터 유형 | 오디오 | |
구축기관 | 미디어젠 | 데이터 관련 문의처 | 담당자명 | 송민규(미디어젠) |
가공기관 | 메트릭스리서치, 고려대학교 의료원 산학협력단 | 전화번호 | 02-6429-7104 | |
검수기관 | 미디어젠 | 이메일 | minks@mediazen.co.kr | |
구축 데이터량 | 187.2만 | 구축년도 | 2020년 | |
버전 | 1.0 | 최종수정일자 | 2021.06.18 | |
소개 | 비대면 진료를 위한 의사, 간호사의 음성 데이터 및 환자 음성 데이터 | |||
주요 키워드 | 음성데이터, 코퍼스, 인공지능, 비대면 진료, 의료, Sound data, Corpus, Artificial Intelligence, Telemedicine, Health care | |||
저작권 및 이용정책 | 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기] | |||
데이터설명서 | 자료보기 | 구축활용가이드 | 자료보기 | |
샘플데이터 | 다운로드 | 교육활용동영상 | 영상보기 | |
저작도구 | 다운로드 | AI모델 | 다운로드 |
데이터 변경이력
버전 | 일자 | 변경내용 | 비고 |
---|---|---|---|
1.0 | 2021.06.18 | 데이터 최초 개방 |
구축 목적
- 의료진 음성 발화 및 환자 음성 발화 데이터를 구축하여 궁극적으로 언택트 진료를 위한 음성인식 AI 서비스 개발에 활용
활용 분야
- 코로나19 이후 드러난 비대면 의료 사업
주요 키워드
- 의료진, 환자, 음성, 비대면, 음성인식, 진료
소개
- 의료 현장의 음성 및 텍스트 데이터 수집을 통해 비대면 진료를 위한 음성인식 AI 서비스 제공이 목적
- 의료진 음성 발화 및 환자 음성 발화 데이터를 구축하여 궁극적으로 언택트 진료를 위한 음성인식 AI 서비스 개발에 활용
- 언택트 진료를 위한 의료진과 환자 음성 발화 수집, 직군별, 직능별 의료진 음성 발화 수집, 연령, 성별, 증상별 환자 음성 발화 및 대화 데이터를 수집함
- EMR 자동 음성 입력 등 다양한 응용 서비스 활용 기대.
구축 내용 및 제공 데이터량
구분 | 내용 |
---|---|
데이터 구축 범위 | · 언택트 진료를 위한 의료진과 환자 음성 발화 수집 · 직군별, 직능별 의료진 음성 발화 수집 · 연령, 성별, 증상별 환자 음성 발화 수집 · 대화 응답 시나리오 동반 수집 |
데이터 구축 규모 | · 의사, 간호사, 환자별 음성과 문장 수집 · 의사 300시간(약 300,000문장) Wave, 간호사 400시간(약400,000문장), 의료진33,000문장 Text · 환자 45만 문장 Wave, 15만 문장 Text 코퍼스 수집 |
데이터 구축 일정 | · 총 5.5개월 소요 · 데이터 설계 및 인프라 구축 2개월 · 데이터 수집/태깅 2개월 · 데이터 품질 검수 1.5개월 |
- 의료진 음성 700시간 및 33,000 문장 코퍼스 구축
- 환자 45만 문장(약 600시간 분량) 음성 및 15만 문장 코퍼스 구축
- 일반인 1,500명 크라우드워커 고용창출
- 데이터를 활용한 비대면 진료 서비스의 가능성을 확인하기 위한 프로토타입 APP 개발
데이터 구축 프로세스
- 데이터 설계, 수집, 가공, 검수 및 AI 모델링 수행
대표도면
데이터 구축 구조
- 의료진 및 환자로부터 EMR 및 진료 상황에 맞는 구어 음성과 텍스트를 수집. 비대면 진료 상황에서 음성 AI 기술을 활용한 의료 서비스 제공을 목적으로 함.
음성 데이터 수집 도구
- 스마트폰, 태블릿, PC 등 다양한 환경에서 크라우드 워커들의 데이터 수집 수행, 문장 단위 데이터 가공의 자동화로 효율적 수집 가능

파일명 구조 및 샘플
- 파일명으로 데이터 항목, 의사/간호사/환자, 화자정보, 환경정보 등을 쉽게 구분.
데이터 검수 도구
- 3단계의 강도 높은 검수를 통해 데이터 품질 확보.

필요성
- 대면 진료에서도 의사가 환자와 상담하면서 의료기록시스템에 환자 정보를 입력하느라 환자 얼굴을 제대로 보지 못하여, 환자 서비스가 저하됨
- 전화상담 등 비대면 진료에서는 의사가 환자 상담 내용을 기록하기 어려움. 전화 상담을 녹음하더라도 추후 정리하는 것이 매우 어려움
- 비대면 진료에서 음성인식 기술의 활용은 의사가 환자의 진찰에 집중할 수 있게 되고, 상담내용을 문서기록으로 남길 수 있게 되어 의료서비스의 질을 획기적으로 제고시킬 수 있음
- 전화상담 진료가 활발하게 이뤄지고 있는 온 선진국에서는 음성인식 기술이 헬스케어 분야에 가장 활발히 접목되어 발전하고 있음.
데이터 구조
데이터 구성
- (1) Wave 파일 : 48kHz(44kHz), 16bit, mono
- (2) Json 파일 : Json 포맷 어노테이션 정보
JSON 포맷 샘플
데이터셋 구축 담당자
수행기관(주관) : 미디어젠
책임자명 | 전화번호 | 대표이메일 | 담당업무 |
---|---|---|---|
윤성준 | 02-6429-7104 | minks@mediazen.co.kr | · 데이터 구축 총괄 |
수행기관(참여)
기관명 | 담당업무 | 기관명 | 담당업무 |
---|---|---|---|
비디 | · 응용서비스 개발 | 메트릭스리서치 | · 크라우드소싱 · 결과물 정제 및 검수 |
고려대학교 의료원 산학협력단 | · 의료진 데이터 수집 및 제공 |