비대면 진료를 위한 의료진 및 환자 음성

비대면 진료를 위한 의료진 및 환자 음성

데이터셋명 비대면 진료를 위한 의료진 및 환자 음성
데이터 분야 헬스케어 데이터 유형 오디오
구축기관 주식회사 미디어젠 데이터 관련 문의처 담당자명 윤성준
가공기관 전화번호 02-6429-7104
검수기관 이메일 minks@mediazen.co.kr
구축 데이터량 187.2만 구축년도 2020년
버전 1.0 최종수정일자 2021.06.18
소개 비대면 진료를 위한 의사, 간호사의 음성 데이터 및 환자 음성 데이터
주요 키워드 음성데이터, 코퍼스, 인공지능, 비대면 진료, 의료, Sound data, Corpus, Artificial Intelligence, Telemedicine, Health care
저작권 및 이용정책 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기]
데이터설명서 자료보기 구축활용가이드 자료보기
샘플데이터 다운로드 교육활용동영상 영상보기
저작도구 다운로드 AI모델 다운로드
데이터 변경이력
버전 일자 변경내용 비고
1.0 2021.06.18 데이터 최초 개방  
구축 목적
  • 의료진 음성 발화 및 환자 음성 발화 데이터를 구축하여 궁극적으로 언택트 진료를 위한 음성인식 AI 서비스 개발에 활용
활용 분야
  • 코로나19 이후 드러난 비대면 의료 사업
주요 키워드
  • 의료진, 환자, 음성, 비대면, 음성인식, 진료
소개
  • 의료 현장의 음성 및 텍스트 데이터 수집을 통해 비대면 진료를 위한 음성인식 AI 서비스 제공이 목적
  • 의료진 음성 발화 및 환자 음성 발화 데이터를 구축하여 궁극적으로 언택트 진료를 위한 음성인식 AI 서비스 개발에 활용
  • 언택트 진료를 위한 의료진과 환자 음성 발화 수집, 직군별, 직능별 의료진 음성 발화 수집, 연령, 성별, 증상별 환자 음성 발화 및 대화 데이터를 수집함
  • EMR 자동 음성 입력 등 다양한 응용 서비스 활용 기대.
구축 내용 및 제공 데이터량
구축 내용 및 제공 데이터량
구분 내용
데이터 구축 범위 · 언택트 진료를 위한 의료진과 환자 음성 발화 수집
· 직군별, 직능별 의료진 음성 발화 수집
· 연령, 성별, 증상별 환자 음성 발화 수집
· 대화 응답 시나리오 동반 수집
데이터 구축 규모 · 의사, 간호사, 환자별 음성과 문장 수집
· 의사 300시간(약 300,000문장) Wave, 간호사 400시간(약400,000문장), 의료진33,000문장 Text
· 환자 45만 문장 Wave, 15만 문장 Text 코퍼스 수집
데이터 구축 일정 · 총 5.5개월 소요
· 데이터 설계 및 인프라 구축 2개월
· 데이터 수집/태깅 2개월
· 데이터 품질 검수 1.5개월
  • 의료진 음성 700시간 및 33,000 문장 코퍼스 구축
  • 환자 45만 문장(약 600시간 분량) 음성 및 15만 문장 코퍼스 구축
  • 일반인 1,500명 크라우드워커 고용창출
  • 데이터를 활용한 비대면 진료 서비스의 가능성을 확인하기 위한 프로토타입 APP 개발

 

데이터 구축 프로세스
  • 데이터 설계, 수집, 가공, 검수 및 AI 모델링 수행
대표도면
데이터 구축 구조
  • 의료진 및 환자로부터 EMR 및 진료 상황에 맞는 구어 음성과 텍스트를 수집. 비대면 진료 상황에서 음성 AI 기술을 활용한 의료 서비스 제공을 목적으로 함.
음성 데이터 수집 도구
  • 스마트폰, 태블릿, PC 등 다양한 환경에서 크라우드 워커들의 데이터 수집 수행, 문장 단위 데이터 가공의 자동화로 효율적 수집 가능

 

비대면 진료를 위한 의료진 및 환자 데이터 대표도면
파일명 구조 및 샘플
  • 파일명으로 데이터 항목, 의사/간호사/환자, 화자정보, 환경정보 등을 쉽게 구분.
데이터 검수 도구
  • 3단계의 강도 높은 검수를 통해 데이터 품질 확보.

 

비대면 진료를 위한 의료진 및 환자 데이터 대표도면
필요성
  • 대면 진료에서도 의사가 환자와 상담하면서 의료기록시스템에 환자 정보를 입력하느라 환자 얼굴을 제대로 보지 못하여, 환자 서비스가 저하됨
  • 전화상담 등 비대면 진료에서는 의사가 환자 상담 내용을 기록하기 어려움. 전화 상담을 녹음하더라도 추후 정리하는 것이 매우 어려움
  • 비대면 진료에서 음성인식 기술의 활용은 의사가 환자의 진찰에 집중할 수 있게 되고, 상담내용을 문서기록으로 남길 수 있게 되어 의료서비스의 질을 획기적으로 제고시킬 수 있음
  • 전화상담 진료가 활발하게 이뤄지고 있는 온 선진국에서는 음성인식 기술이 헬스케어 분야에 가장 활발히 접목되어 발전하고 있음.
데이터 구조
데이터 구성
  • (1) Wave 파일 : 48kHz(44kHz), 16bit, mono
  • (2) Json 파일 : Json 포맷 어노테이션 정보

 

JSON 포맷 샘플
데이터셋 구축 담당자
수행기관(주관) : 미디어젠㈜
수행기관 (주관)
책임자명 전화번호 대표이메일 담당업무
윤성준 02-6429-7104 minks@mediazen.co.kr · 데이터 구축 총괄
수행기관(참여)
수행기관(참여)
기관명 담당업무 기관명 담당업무
비디 · 응용서비스 개발 메트릭스리서치 · 크라우드소싱
· 결과물 정제 및 검수
고려대학교 의료원 산학협력단 · 의료진 데이터 수집 및 제공