자유대화 음성(일반남녀) 소개
기본탭
데이터셋명 | 자유대화 음성(일반남녀) | |||
---|---|---|---|---|
데이터 분야 | 음성/자연어 | 데이터 유형 | 텍스트, 오디오 | |
구축기관 | NHN다이퀘스트 | 데이터 관련 문의처 | 담당자명 | 전기왕(NHN다이퀘스트) |
가공기관 | 크라우드웍스, NHN다이퀘스트, 셀바스AI | 전화번호 | 02-3470-4307 | |
검수기관 | 아임클라우드 | 이메일 | kiwang@diquest.com | |
구축 데이터량 | 576만 | 구축년도 | 2020년 | |
버전 | 1.2 | 최종수정일자 | 2021.10.28 | |
소개 | 한국인 중 일반남녀의 음성을 문자로 바꾸어 주고, 문맥을 이해하는 한국어 음성언어처리 기술 개발을 위한 한국어 음성 데이터 | |||
주요 키워드 | 음성인식, 음성언어처리, 자연어처리, 한국어 음성언어연구, 신호처리, AI 비서, Voice Command & Control, AI 로봇 | |||
저작권 및 이용정책 | 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기] | |||
데이터설명서 | 자료보기 | 구축활용가이드 | 자료보기 | |
샘플데이터 | 업데이트 중 | 교육활용동영상 | 영상보기 | |
저작도구 | 다운로드 | AI모델 | 다운로드 |
※ 본 데이터에 포함된 이름, 주소, 전화번호, 상황 등은 모두 창작된 것으로 실제와 어떠한 관련이 없음을 알려드립니다.
데이터 변경이력
버전 | 일자 | 변경내용 | 비고 |
---|---|---|---|
1.2 | 2021.10.28 | 데이터 품질 보완 | |
1.1 | 2021.10.07 | 데이터 품질 보완 | |
1.0 | 2021.06.30 | 데이터 최초 개방 |
구축 목적
- 자유대화를 효과적으로 인식하기 위해 인공지능(AI) 기반 한국어 자유대화(일상대화) 데이터를 구축하며, 국민들에게 더욱 질 높은 인공지능(AI) 서비스를 제공 할 수 있는 양질의 학습데이터 확보하여 기술적 기반을 마련
활용 분야
- 음성인식, 음성언어처리, 자연어처리, 한국어 음성언어연구, 신호처리 등의 연구 분야와 온/오프라인 기반의 음성인식, AI비서, Voice Bot, Voice Command & Control, AI 로봇, 음성인식 기반 키오스크 등의 산업분야에 활용
소개
- 자연어 자유대화 학습데이터셋은 일반 사용자들의 자유대화 음성데이터 및 음성데이터 전사결과, 녹음 대상자의 정보, 녹음환경 등의 정보를 포함한 메타데이터로 구성

구축 내용 및 제공 데이터량
- 10대에서 50대 사이의 일반인 남녀를 대상으로 데이터 수집
- 2,000명 이상의 발화자를 대상으로 4,000여 시간 음성 데이터 수집
대표도면
- 발화데이터
- Jason 데이터
필요성
- 인공지능(AI)기반 음성인식 기술개발을 위해서는 실제 잡음 환경에서 한국인이 일상생활에서 사용하는 발화의 특징이 반영된 한국어 음성 데이터 구축이 절실함
- 신조어, 줄임말, 반복 등 문법에 맞지 않는 표현이나 실제로 한국인들이 일상생활에서 자주 사용하는 언어적 특징을 반영한 한국어 학습용 음성 데이터 구축이 필요
- 신조어, 줄임말, 반복 등 문법에 맞지 않는 표현이나 실제로 한국인들이 일상생활에서 자주 사용하는 언어적 특징을 반영한 한국어 학습용 음성 데이터 구축이 필요
데이터 구조
- 데이터 형태
데이터 형태 표 수집 대상 형태 원천데이터 o PCM(WAV) 음성 파일
o 대상자 및 대화 시나리오 정보를 포함한 음성파일메타데이터 o Json 형태
o 대상자 상세정보 (성별 / 연령 / 지역)
o 녹음환경 정보 (실내 / 실외 : 대중교통, 거리 등)
o 대화 주제 및 상세내용
- 원천데이터(음성파일)은 각각의 파일명으로 구분 (Ex. sample1.wav) - 어노테이션 포맷
데이터 Naming 표 대분류 속성표기 의미 타입 필수여부 발화정보 recrdDt 녹음일시 String Y recrdTime 녹음시간 String Y stt 음성인식결과 String Y fileNm 파일명 String Y recrdQuality 녹음품질 String Y scriptSetNo 스크립트셋 번호 String scriptId 스크립트ID String 대화정보 colctUnitCode 수집방법 String Y convrsThema 대화주제 String Y cityCode 지역 String Y recrdEnvrn 녹음환경 String Y recrdUnit 녹음도구 String Y 녹음자정보 recorderId 녹음자ID String gender 성별 String Y age 나이 String Y
데이터셋 구축 담당자
수행기관(주관) : NHN다이퀘스트
책임자 | 전화번호 | 대표이메일 | 담당업무 |
---|---|---|---|
전기왕 | 02-3470-4307 | kiwang@diquest.com | · 데이터 구축 총괄 |
수행기관(참여)
기관명 | 담당업무 | 기관명 | 담당업무 |
---|---|---|---|
NHN다이퀘스트 | · 음성데이터 수집 및 가공 | 셀바스AI | · AI모델 개발, 음성데이터 수집 및 가공 |
크라우드웍스 | · 음성데이터 수집 및 가공 | 아임클라우드 | · 음성데이터 검수 및 응용서비스 개발 |