회의 음성 소개
기본탭
데이터셋명 | 회의 음성 | |||
---|---|---|---|---|
데이터 분야 | 음성/자연어 | 데이터 유형 | 텍스트, 오디오 | |
구축기관 | 티맥스소프트 | 데이터 관련 문의처 | 담당자명 | 박윤수(티맥스소프트) |
가공기관 | 티맥스소프트, 한국에듀테크산업협회 | 전화번호 | 031-8081-9398 | |
검수기관 | 나무기술 | 이메일 | yoonsu_park@tmax.co.kr | |
구축 데이터량 | 432만 | 구축년도 | 2020년 | |
버전 | 1.1 | 최종수정일자 | 2021.09.09 | |
소개 | 한국어로 된 회의영상/음성을 인식하여 자동으로 자막을 생성해주고, 내용을 이해하는 한국어 회의 음성 데이터 | |||
주요 키워드 | 한국어 음성 DB, 한국어 음성언어처리 기술, 자동 자막 생성, 음성 품질, 명료도, 대화 주제, 저작권 | |||
저작권 및 이용정책 | 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기] | |||
데이터설명서 | 자료보기 | 구축활용가이드 | 자료보기 | |
샘플데이터 | 다운로드 | 교육활용동영상 | 영상보기 | |
저작도구 | 다운로드 | AI모델 | 다운로드 |
데이터 변경이력
버전 | 일자 | 변경내용 | 비고 |
---|---|---|---|
1.1 | 2021.09.09 | 데이터 품질 보완 | |
1.0 | 2021.06.25 | 데이터 최초 개방 |
구축 목적
- 한국인의 음성을 문자로 바꾸어 주고, 문맥을 이해하는 한국어 음성 언어처리 기술 개발을 위한 AI 학습용 한국어 음성 DB를 구축
- 한국어로 된 회의 영상/음성을 인식하여 자동으로 자막/회의록을 생성해주고, 내용을 이해하는 서비스를 위한 한국어 회의 음성 DB를 구축
활용 분야
- 연구분야: 음성인식, 음성언어처리, 자연어처리, 한국어 음성언어연구, 신호처리 등
- 산업분야: 온/오프라인 기반의 음성인식, 회의 대화록 자동생성
소개

- 8가지 주제별 다양한 한국어 회의 음성으로부터 음성의 내용을 전사하고 검증한 한국어 회의 음성 AI 데이터셋으로, 다양한 음성의 재사용에 제한이 없도록 저작권 문제를 완전히 해결한 원천 데이터를 확보
구축 내용 및 제공 데이터량
구분 | 회의 음성 데이터 |
---|---|
시간(hr) | 3,000 |
데이터 선정 기준 | 교육, 문화예술, 가족 (400시간 X 3개분야 = 1,200시간) 교양, 시사 (550시간 X 2개분야 = 1,100시간) 토크 300시간 금융, IT (200시간 X 2개분야 = 400시간) |
수집항목 | 회의(토론/토크) 음성, 장르, 발화자 성별, 회의정보(방송날짜) 등 |
대표도면

필요성
- 최근 AI를 활용한 음성인식 기술이 인공지능 비서를 포함한 다양한 서비스에 적용되고 있음
- 하지만 AI 음성인식 모델이 회의 음성 데이터로 학습이 이루어지지 않을 경우, 회의에서 발생하는 다양한 노이즈 및 화자 간 목소리가 겹치는 등의 문제로 음성인식 성능이 떨어지는 경향을 보임
- 회의 데이터는 회의 참여자 간의 민감한 정보를 다루는 경우가 많아 외부 유출이 가능한 경우가 드물어 데이터셋 구축에 어려움이 있음
데이터 구조
ID | 항목 | 타입 | |||
---|---|---|---|---|---|
키 명 | 키 설명 | ||||
dataSet | 데이터셋 | Dict | |||
1 | version | 데이터셋 버전 | String | ||
3 | date | 녹취된 날짜 | String | ||
4 | typeInfo | 음원 데이터 상세 정보 | Dict | ||
4-1 | category | 음원 카테고리 정보 | String | ||
4-2 | subcategory | 음원 서브카테고리 | String | ||
4-3 | place | 음원 녹취 장소 | String | ||
4-4 | speakers | 화자 목록 | List | ||
4-3-1 | id | 화자 아이디 | String | ||
4-3-1 | age | 나이대: 20대, 30대, 50대(추정), null(알수없음) 등 | |||
4-3-2 | gender | 화자 성별: 남, 여 | String | ||
4-3-2 | residence | 거주지역: 서울, 대전, 부산, 광주, null(알수없음) 등 | |||
4-5 | inputType | 입력형식: 방송, 유선, 모바일, 인터넷 등 |
List | ||
5 | dialogs | 전사 데이터 목록: 묵음 기준으로 나누어진 발화 단위로 생성 |
List | ||
5-1 | speaker | 화자 아이디: speakers에 등록된 id | String | ||
5-2 | audioPath | 발화 단위 RAW 데이터 경로 | String | ||
5-3 | textPath | 발화 단위 TEXT 데이터 경로 | String |
데이터셋 구축 담당자
수행기관(주관) : 티맥스소프트
책임자명 | 전화번호 | 대표이메일 | 담당업무 |
---|---|---|---|
김윤성 | 031-8018-9325 | kimys130907@gmail.com | · 데이터구축 총괄 · 데이터 수집 · 데이터 정제 · 데이터 가공 · AI모델개발 · 응용서비스 개발 |
수행기관(참여)
기관명 | 담당업무 | 기관명 | 담당업무 |
---|---|---|---|
㈜아이스크림에듀 | · 데이터 수집 · 데이터 정제 · 데이터 가공 |
(사)한국에듀테크산업협회 | · 데이터 수집 · 데이터 정제 · 데이터 가공 |
나무기술(주) | · 품질검증 |