KETI 지능정보 플래그십 R&D

어린이 음성 데이터셋

외부 데이터는 해당 기관의 이용정책과 다운로드 절차를 따라야 하며 AI 허브와 관련이 없음을 알려 드립니다. [저작권 및 이용정책 상세보기]

구축량
  • 40명 12시간 녹음 자료 수집
필요성
  • 세계적으로 공개된 어린이 음성 데이터는 희귀함
  • 적응형 모델을 구축하기 위한 데이터로 활용
  • Kid-Phone등 어린이 음성인식 성능 향상을 위한 튜닝 데이터로 활용 가능
  • 소용량의 딥러닝 알고리즘 구현에 활용 가능
  • 음성인식 Open Source를 구현/활용을 위한 학습 데이터로 활용 가능
  • 기존 음성인식기에 대한 어린이 발화 성능을 고찰 가능
구축 내용
  • 초등학생 1학년에서 6학년의 남녀가 발성한 총 22.387시간의 음성데이터
  • 총화자 300명 중 여성 149명, 남성 151명
  • 화자당 평균 발성회수 : 60~100문장
  • 총 발화문장 : 25,369문장
  • 녹음형태 : 16kHz 또는 8kHz, headerless 16bit Linear PCM Mono 데이터
  • 녹음환경 : 조용한 환경의 스마트폰
데이터 구조
  • 음성데이터 및 그 전사파일
  • 디렉토리 구조 :: 화자별,  ANBBBCCC0C
    A :  F 여성, M 남성
    N :  학년 정보,  1~6
    BBB :  이름정보
    CCCC :  dummy 
  • 각 화자별 디렉토리 내용 ::  ANBBBCCCC_XXX.{txt, wav}, transcription.txt
    XXX : 발화번호, 001 ~ 999
    ~.wav : 음성 데이터
    ~.txt  : 해당 파일의 전사 데이터
    transcription : 화자별 음성파일 및 전사 내용(Tab으로 분리)

데이터 구축 담당자 표 (담당기관, 책임자명, 전화번호, 대표이메일)
담당기관 책임자명 전화번호 대표이메일
㈜엘솔루 이상운 · sahngwoon.lee@llsollu.com
다운로드 폴더 구성정보

데이터 다운로드는 PC에서만 가능합니다.