카이스트 오디오북 데이터셋


카이스트 오디오북 데이터셋


구축 목적
  • 음성합성을 통한 오디오북 제작
활용 분야
  • 음성합성(text-to-speech; TTS), 오디오북 제작.
주요 키워드
  • 음성합성, 오디오북
소개
  • 소설, 동화, 자기계발, 뉴스, 어학 장르에 어울리는 음성을 합성하기 위해 활용.
구축 내용 및 제공 데이터량
  • 총 58,559개의 wav 음성 파일 (44.1kHz, mono).
  • 총 72시간 40분 44초의 음성 길이.
  • 음성 파일당 평균 길이: 4.13초.
  • 오 화자수: 13명. 남성 7명, 여성 6명. 한국어화자 11명, 영어 화자 남녀 각각 1명.
  • 음성 데이터 녹음시 각 장르에 맞는 내레이션 기법 및 정확한 감정선이 표현될 수 있도록 오디오 연출.
  • 오디오 클립 작업시 각종 노이즈(Lip noise외) 제거, 앞뒤 공백 0.5초, 페이드 인/아웃 처리.
  • 자세한 정보는 아래 표로 첨부.
필요성
  • 여러 장르에 어울리는 음성을 합성하기 위해 활용.
  • 오디오북은 저작권 문제 때문에 공개된 데이터가 드묾.
  • 음성합성을 목적으로 음성을 합성했기 때문에 음성합성에 적당한 음성길이로 녹음이 되어 음성합성을 위해 음성 파일을 자르는 수고를 덜 수 있어 경제적임.
데이터 구조
  • stat 폴더: 전체 데이터셋에 대한 통계 자료가 있음
  • wav 폴더: 음성 파일이 있음. 안에 각 장르 서적과 화자에 따라 폴더가 있음. 각 폴더 안에 서적에 따른 대사 번호로 음성 파일이 명명되어있음.
  • script.xlsx: 각 장르 서적의 대사가 대사 번호와 함께 저장되어 있음.
데이터셋 구축 담당자

[주관기관 : 한국과학기술원 (KAIST 인공지능연구소)]

  • 책임자명 : 이수영
  • 대표 이메일 : sy-lee@kaist.ac.kr
  • 실무자 : 조성재
  • 실무자 이메일 : sungjae.cho.1118@gmail.com
  • 담당업무: 음성합성 목적으로 오디오북 데이터셋 구축

 

[위탁기관 : ㈜레인보우보이스]

  • 담당업무: 음성녹음 및 연구 목적 서적 저작권 확보
논문 인용 정보
  • 한국어로 “카이스트 오디오북 데이터셋”으로 명시. 영어로는 “KAIST Audio Book Dataset”라고 명시.
화자에 따른 통계
화자 파일 수 음성 시간 통계
평균(초) 중간값(초) 최대값(초) 최소값(초)
남1 8,104 7h 7m 30s 3.17 3 13.27 0.41
남2 11,154 12h 36m 49s 4.07 3.62 12.7 0.93
남3 1,500 3h 12m 24s 7.7 7.54 14.42 3.05
남4 1,766 3h 11m 39s 6.51 6.22 13.94 3.11
남5 2,200 3h 12m 10s 5.24 5.03 14.16 2.45
남6 1,880 3h 14m 56s 6.22 5.97 13.59 2.71
남7(영어) 3,104 3h 53m 36s 4.52 4.13 12.49 2.21
여1 9,883 11h 46m 3s 4.29 3.85 14.27 0.99
여2 10,140 11h 3m 5s 3.92 3.68 20.49 0.28
여3 1,900 3h 5m 44s 5.87 5.6 13.2 2.5
여4 1,604 3h 14m 38s 7.28 7.16 14.9 3.16
여5 2,220 3h 12m 15s 5.2 4.96 12.7 2.5
여6(영어) 3,104 3h 49m 49s 4.44 4.14 11.75 2.47
총합 58,559 72h 40m 44s 4.47 4.13 20.49 0.28
서적에 따른 통계
서적 파일 수 음성 시간 통계
평균(초) 중간값(초) 최대값(초) 최소값(초)
뉴스 3,104 6h 27m 3s 7.48 7.37 14.9 3.05
동화1 8,659 8h 10m 45s 3.4 3.15 13.47 0.93
동화2 7,730 13h 4m 23s 6.09 5.82 20.49 2.42
소설1 9,428 8h 34m 43s 3.28 3.03 8.84 0.97
소설2 4,420 6h 24m 25s 5.22 5 14.16 2.45
어학1 6,990 5h 1m 38s 2.59 2.37 7.96 0.28
어학2 6,208 7h 43m 25s 4.48 4.14 12.49 2.21
자기계발1 7,350 8h 27m 10s 4.14 4.04 9.02 1.09
자기계발2 4,670 8h 47m 8s 6.77 6.65 14.27 1.08
총합 58,559 72h 40m 44s 4.47 4.13 20.49 0.28