한국인 대화음성

한국인의 대화음성 AI 학습데이터

AI learning data for Korean conversational speech

 

구축목적
  • 연령ㆍ원거리ㆍ노이즈ㆍ다자발화 등 다양한 환경을 인식할 수 있는 대화ㆍ음성 데이터 셋 구축
활용분야
  • 연구분야:
    음성인식, 화자인식, 노이즈 제거 기술 등의 연구에 활용
  • 산업분야:
    온라인/오프라인 기반의 음성인식, 음성봇, AI비서, 외국어교육, 동시통역, 녹취록 작성, 청각 보완 실시간 자막 서비스 등에서 사용가능
주요 키워드
  • AI학습데이터, 일상대화, 음성데이터, 어노테이션, 메타데이터, 라벨링
소개
  • 한국인의 일상 대화를 인식하고 음성을 문자로 실시간 변환하는 AI기술 개발을 위한 대화 음성 데이터 셋 구축
  • 성별, 지역, 연령, 원거리, 다자발화 등 분야별 원본 음성데이터(4,000시간), 텍스트 데이터 400만 문장 포함

img
< 원천데이터 정제과정 >

 

구축 내용 및 제공 데이터량
  • 원본 음성 데이터: 2,000H
  • 방송 콘텐츠(춘천 MBC, EBS 시사) 음원 데이터: 2,000H - 400만 문장 포함
  • 성별, 지역, 연령, 주제어 등의 메타데이터 정보 제공
  • FILE 위치, FILE 명, FILE 시작위치, FILE 종료위치, FILE 재생시간 등의 어노테이션 구조 JSON 형태의 파일로 제공
  • 파일의 후 처리(개체정보, 형태소분석 등)의 가공 처리 후 JSON 형태의 파일 제공

img

 

대표도면
  • 방송콘텐츠는 춘천 MBC와 EBS의 음원을 추출하여 데이터를 획득하고 확보된 음원파일을 통해서 텍스트 전사(STT 엔진을 활용하여 음성파일을 텍스트로 변환)하고 검수를 진행한다.
    (음원 파일: PCM 형식, 텍스트 파일: TEXT 형식)

img

 

 

  •  크라우드소싱 업체의 캐시미션 플랫폼을 활용하여 음원 녹음기능을 통해서 음원파일과 전사파일을 확보한다. 확보된 음원파일을 통해서 텍스트 전사(사람이 직접 음원파일 청취 후 전사)작업을 진행하고 매 업무마다 약식검수(크라우드소싱 업체 녹음자들이 크로스 체크를 통해서 검수 진행)를 진행한다.

img

필요성
  • AI 학습데이터 셋 공유를 통한 민간 중심의 선순환 생태계 조성
  • AI 기술개발에 양질의 AI 학습데이터 대규모 구축, 원천데이터 확보
  • 기술 산업적으로 유망하고, AI 응용개발에 활용 가능한 범용성이 높은 AI 학습데이터 구축 및 공개
  • AI 기술개발에 표준 가이드라인을 마련하고 단계적 품질 검증 확보
데이터 구조
  • 원시데이터(음성)PCM, 전사파일 (TXT) 데이터셋

img
< 음성변환 어노테이션 정제 >

 

img
< 어노테이션 구조 >

 

데이터셋 구축 담당자
수행기관(주관) : 솔루게이트

 

 
책임자명 전화번호 대표이메일 담당업무
김 미 010-5518-8911 kimmi@solugate.com · AI학습데이터 구축 개발 총괄PM
· 원천데이터 확보 및 정제
수행기관(참여)
 
 
기관명 담당업무 기관명 담당업무
코난
테크놀로지
· 저작도구 개발 및 자막 서비스개발, 데이터셋 후처리 가공 타임소프트 · 회의록 서비스 개발, 메타데이터정보 구축
논문 인용 정보