KETI 지능정보 플래그십 R&D

감정 음성합성 데이터셋

외부 데이터는 해당 기관의 이용정책과 다운로드 절차를 따라야 하며 AI 허브와 관련이 없음을 알려 드립니다. [저작권 및 이용정책 상세보기]

구축량
  • 30대 여성 성우 1인, 7가지 감정에 대하여 각각 3,000개 발화, 총 21,000개 음성 파일
필요성
  • 스마트폰/로봇 등을 기반으로 한 대화형 비서 서비스, 안내 서비스 등 음성 합성에 대한 필요성은 시간이 지날수록 높아지고 있음
  • 사람과 비슷한 음성을 내기 위해서는 상황과 대화 흐름에 따라, 해당 감정에 알맞는 음성을 합성하는 기술이 필요하나, 동일 인물에 대한 다감정 음성 데이터셋은 공개된 바가 없음
구축 내용
  • 30대 여성 성우 1인, 7가지 감정에 대해서 각각 3,000개 발화에 대한 음성 녹음을 수행하였음. 총 21,000개 음성 파일 구축
데이터 구조
  • raw 폴더 아래에 acriil_(감정)_(문장번호).raw 파일 존재 
  • 해당 파일은 16bit, mono, 16KHz, PCM format의 음성 파일임
  • txt 폴더 아래에 acriil_(감정)_(문장번호).txt 파일이 해당 pcm 파일의 텍스트
  • 실제 발화 내용(발음)에 따라 텍스트가 수정되었으므로 txt 파일은 감정에 따라 상이할 수 있음

데이터 구축 담당자 표 (담당기관, 책임자명, 전화번호, 대표이메일)
담당기관 책임자명 전화번호 대표이메일
㈜ 아크릴 이세화 · green@iacryl.com
다운로드 폴더 구성정보

데이터 다운로드는 PC에서만 가능합니다.