어린이 음성 데이터셋
외부 데이터는 해당 기관의 이용정책과 다운로드 절차를 따라야 하며 AI 허브와 관련이 없음을 알려 드립니다. [저작권 및 이용정책 상세보기]
구축량
- 40명 12시간 녹음 자료 수집
필요성
- 세계적으로 공개된 어린이 음성 데이터는 희귀함
- 적응형 모델을 구축하기 위한 데이터로 활용
- Kid-Phone등 어린이 음성인식 성능 향상을 위한 튜닝 데이터로 활용 가능
- 소용량의 딥러닝 알고리즘 구현에 활용 가능
- 음성인식 Open Source를 구현/활용을 위한 학습 데이터로 활용 가능
- 기존 음성인식기에 대한 어린이 발화 성능을 고찰 가능
구축 내용
- 초등학생 1학년에서 6학년의 남녀가 발성한 총 22.387시간의 음성데이터
- 총화자 300명 중 여성 149명, 남성 151명
- 화자당 평균 발성회수 : 60~100문장
- 총 발화문장 : 25,369문장
- 녹음형태 : 16kHz 또는 8kHz, headerless 16bit Linear PCM Mono 데이터
- 녹음환경 : 조용한 환경의 스마트폰
데이터 구조
- 음성데이터 및 그 전사파일
- 디렉토리 구조 :: 화자별, ANBBBCCC0C
A : F 여성, M 남성
N : 학년 정보, 1~6
BBB : 이름정보
CCCC : dummy - 각 화자별 디렉토리 내용 :: ANBBBCCCC_XXX.{txt, wav}, transcription.txt
XXX : 발화번호, 001 ~ 999
~.wav : 음성 데이터
~.txt : 해당 파일의 전사 데이터
transcription : 화자별 음성파일 및 전사 내용(Tab으로 분리)