감정 분류를 위한 대화 음성 데이터셋
외부 데이터는 해당 기관의 이용정책과 다운로드 절차를 따라야 하며 AI 허브와 관련이 없음을 알려 드립니다. [저작권 및 이용정책 상세보기]
1차 공개 구축양
- 4차년도 14,606건
- 5차년도 10,011건
- 5차년도(2차) 19,374건
대표 도면
필요성
- 다분류 감정에 대한 대화 음성 데이터는 IEMOCAP 등 영어 데이터가 많고, 한국어 데이터는 부족함
- 다수의 사람이 다양한 상황에서 발화한 다분류 감정에 대한 한국어 대화 음성 데이터는 부족함
구축 내용
- 감성대화 어플리케이션을 이용한 수집
- 일정 기간동안 사용자들이 어플리케이션과 자연스럽게 대화하고, 수집된 데이터를 정제 작업을 거쳐 선별
- 7가지 감정(happiness, angry, disgust, fear, neutral, sadness, surprise)에 대해 5명이 라벨링
데이터 구조
- 음성 포맷 : 16bit, 48kHz wav 파일
- csv 포맷 파일의 메타정보: 대화의 상황, 음성인식 결과, 감정 라벨링 정보, 사용자의 성별 나이 정보
활용 예시
- 감정 분류용 음성인식 및 텍스트 인식기 연구에 활용