한국인 대화 음성

한국인 대화 음성

데이터셋명 한국인 대화 음성
데이터 분야 음성/자연어 데이터 유형 텍스트, 오디오
구축기관 솔루게이트 데이터 관련 문의처 담당자명 박준호(솔루게이트)
가공기관 솔루게이트 전화번호 070-4405-7847
검수기관 솔루게이트 이메일 park1058@solugate.com
구축 데이터량 595만 구축년도 2020년
버전 1.3 최종수정일자 2021.09.03
소개 한국인의 일상 대화를 인식하고 음성을 문자로 실시간 변환하는 AI개발용 대화 한국어 음성 데이터
주요 키워드 AI학습데이터, 일상대화, 음성데이터, 어노테이션, 메타데이터, 라벨링, 음성인식, 화자인식, 노이즈 제거 기술
저작권 및 이용정책 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기]
데이터설명서 자료보기 구축활용가이드 자료보기
샘플데이터 업데이트 중 교육활용동영상 영상보기
저작도구 다운로드 AI모델 다운로드
※ 본 데이터에 포함된 이름, 주소, 전화번호, 상황 등은 모두 창작된 것으로 실제와 어떠한 관련이 없음을 알려드립니다.
데이터 변경이력
데이터 변경이력
버전 일자 변경내용 비고
1.3 2021.09.03 개방데이터, 샘플데이터 품질 추가 보완  
1.2 2021.08.09 데이터 품질 보완  
1.1 2021.07.16 데이터 추가 개방  
1.0 2021.06.30 데이터 최초 개방  
구축목적
  • 연령ㆍ원거리ㆍ노이즈ㆍ다자발화 등 다양한 환경을 인식할 수 있는 대화ㆍ음성 데이터 셋 구축
활용분야
  • 연구분야
    - 음성인식, 화자인식, 노이즈 제거 기술 등의 연구에 활용
  • 산업분야
    - 온라인/오프라인 기반의 음성인식, 음성봇, AI비서, 외국어교육, 동시통역, 녹취록 작성, 청각 보완 실시간 자막 서비스 등에서 사용가능
주요 키워드
  • AI학습데이터, 일상대화, 음성데이터, 어노테이션, 메타데이터, 라벨링
소개
  • 한국인의 일상 대화를 인식하고 음성을 문자로 실시간 변환하는 AI기술 개발을 위한 대화 음성 데이터 셋 구축
  • 성별, 지역, 연령, 원거리, 다자발화 등 분야별 원본 음성데이터(4,000시간), 텍스트 데이터 400만 문장 포함

한국인 대화 음성 소개 이미지- 원천데이터 정제과정
< 원천데이터 정제과정 >

 

구축 내용 및 제공 데이터량
  • 원본 음성 데이터: 2,000H
  • 방송 콘텐츠(춘천 MBC, EBS 시사) 음원 데이터: 2,000H
  • 성별, 지역, 연령, 주제어 등의 메타데이터 정보 제공
  • FILE 위치, FILE 명, FILE 시작위치, FILE 종료위치, FILE 재생시간 등의 어노테이션 구조 JSON 형태의 파일로 제공
  • 파일의 후 처리(개체정보, 형태소분석 등)의 가공 처리 후 JSON 형태의 파일 제공

한국인 대화 음성 구축 내용 및 제공 데이터량 예시 이미지

 

대표도면
  • 방송콘텐츠는 춘천 MBC와 EBS의 음원을 추출하여 데이터를 획득하고 확보된 음원파일을 통해서 텍스트 전사(STT 엔진을 활용하여 음성파일을 텍스트로 변환)하고 검수를 진행한다.
    (음원 파일: PCM 형식, 텍스트 파일: TEXT 형식)

한국인 대화 음성 대표도면 예시-1

 

 

  •  크라우드소싱 업체의 캐시미션 플랫폼을 활용하여 음원 녹음기능을 통해서 음원파일과 전사파일을 확보한다. 확보된 음원파일을 통해서 텍스트 전사(사람이 직접 음원파일 청취 후 전사)작업을 진행하고 매 업무마다 약식검수(크라우드소싱 업체 녹음자들이 크로스 체크를 통해서 검수 진행)를 진행한다.

한국인 대화 음성 대표도면 예시-2

필요성
  • AI 학습데이터 셋 공유를 통한 민간 중심의 선순환 생태계 조성
  • AI 기술개발에 양질의 AI 학습데이터 대규모 구축, 원천데이터 확보
  • 기술 산업적으로 유망하고, AI 응용개발에 활용 가능한 범용성이 높은 AI 학습데이터 구축 및 공개
  • AI 기술개발에 표준 가이드라인을 마련하고 단계적 품질 검증 확보
데이터 구조
  • 원시데이터(음성)PCM, 전사파일 (TXT) 데이터셋

한국인 대화 음성 데이터 구조 - 원시데이터(음성)PCM, 전사파일 (TXT) 데이터셋
< 음성변환 어노테이션 정제 >

 

  • 어노테이션 구조
    어노테이션 구조 표
    주제
    구분
    주제
    코드
    세부
    주제
    세부
    주제
    코드
    성별
    구분
    성별
    코드
    세대
    구분
    세대
    코드
    거주
    지역
    구분
    거주
    지역
    코드
    화자
    방언
    구분
    화자
    방언
    코드
    출처
    구분
    출처
    코드
    음질
    구분
    음질
    코드
    방송 01 드라마 01 M 유아 C 서울
    경기
    1 서울
    경기
    1 방송 1 정상 1
    영화 02 F 청소년 T 강원 2 강원 2 제작 2 노이즈 2
    K-POP 03     일반성인 A 충청 3 충청 3 크라우드
    소싱
    3 잡음 3
    시사교양 04     고령층 S 경상 4 경상 4 기타 9 원거리 4
    예능 05     기타 Z 전라 5 전라 5        
    연예인 06         제주 6 제주 6        
    회화 07         기타 9 기타 9        
    다큐 08                        
    뉴스 09                        
    스포츠 10                        
    만화 11                        
    여행 12                        
    건강 13                        
    역사 14                      
    교육 15                        
    기타 99                        

 

데이터셋 구축 담당자
수행기관(주관) : 솔루게이트
수행기관(주관) 표
책임자명 전화번호 대표이메일 담당업무
박준호 070-4405-7847 park1058@solugate.com · AI학습데이터 구축 개발 총괄PM
· 원천데이터 확보 및 정제
수행기관(참여)
수행기관(참여) 표
기관명 담당업무 기관명 담당업무
코난
테크놀로지
· 저작도구 개발 및 자막 서비스개발, 데이터셋 후처리 가공 타임소프트 · 회의록 서비스 개발, 메타데이터정보 구축