한국어 강의 음성

한국어 강의 음성

데이터셋명 한국어 강의 음성
데이터 분야 음성/자연어 데이터 유형 텍스트, 오디오
구축기관 티맥스소프트 데이터 관련 문의처 담당자명 이강희(티맥스소프트)
가공기관 티맥스소프트, 한국에듀테크산업협회 전화번호 031-8018-1814
검수기관 나무기술 이메일 kanghee_lee@tmax.co.kr
구축 데이터량 576만 구축년도 2020년
버전 1.1 최종수정일자 2021.09.09
소개 한국어로 된 강의영상/음성을 인식하여 자동으로 자막을 생성해주고, 내용을 이해하는 강의 음성 데이터
주요 키워드 한국어 음성 DB, 한국어 음성언어처리 기술, 자동 자막 생성, 음성 품질, 명료도, 대화 주제, 저작권
저작권 및 이용정책 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기]
데이터설명서 자료보기 구축활용가이드 자료보기
샘플데이터 다운로드 교육활용동영상 영상보기
저작도구 다운로드 AI모델 다운로드
데이터 변경이력
버전 일자 변경내용 비고
1.1 2021.09.09 데이터 품질 보완  
1.0 2021.06.25 데이터 최초 개방  
구축 목적
  • 한국인의 음성을 문자로 바꾸어 주고, 문맥을 이해하는 한국어 음성 언어처리 기술 개발을 위한 AI 학습용 한국어 음성 DB를 구축
  • 한국어로 된 강의 영상/음성을 인식하여 자동으로 자막을 생성해주고, 내용을 이해하는 서비스를 위한 한국어 강의 음성 DB를 구축
활용 분야
  • 연구분야 : 음성인식, 음성언어처리, 자연어처리, 한국어 음성언어연구, 신호처리 등
  • 산업분야: 온/오프라인 기반의 음성인식, 강의 자동 자막생성기, AI로봇, Untact 교육 솔루션 등
소개
한국어 강의 소개 이미지

 

  • 연령, 주제별, 과목별 다양한 한국어 강의 음성으로부터 음성의 내용을 전사하고 AI모델 개발을 진행한 한국어 강의 음성 AI 데이터셋으로, EBS의 교육영상을 기반으로 데이터를 수집하였으며, 강의 자막 자동 생성 서비스 및 교육 관련 응용서비스 개발에 활용할 수 있음. 
    다양한 음성의 재사용에 제한이 없도록 저작권 문제를 완전히 해결한 원천 데이터를 확보함.
구축 내용 및 제공 데이터량
  • 대분류(초,중,고,직업/자격증,기타 성인)에서 파생된 10여종의 콘텐츠 기반으로 한 주제별, 수준별 학습 목적에 적합한 4,000시간의 한국교육방송공사(EBS) TV/라디오 방송콘텐츠 및 온라인 강의 콘텐츠
구축 내용 및 제공 데이터량
구분 직업/자격증 기타 성인
시간(hr) 960시간 이상 750시간 이상 1,340시간 이상 530시간 이상 420시간 이상
데이터 선정 기준 - 총 12학년 (초,중,고)
- 국어, 수학, 사회, 과학, 역사 5종
- 국어 640시간, 수학 680시간, 사회 570시간, 과학 610시간, 역사 550시간
- 10종 분류 (국어, 한국사, 사회, 과학, 수학, 전문자격, 금융, 경영, IT, 기술)
- 종별 50~80시간
- 10종 분류 (인문, 철학, 문학, 예술, 과학, 사회, IT,교육)
- 종별 30~100시간
수집항목 - 강의음성, 강사정보(성별, 연령), 강의주제(과목, 학년), 강의정보(방송날짜, 발화장소) 등 - 강의음성, 강사정보(성별), 강의주제, 강의정보(방송날짜, 발화장소) 등
대표도면
한국어 강의 대표 도면 이미지

 

필요성
  • 최근 AI를 활용한 음성인식 기술이 인공지능 비서를 포함한 다양한 서비스에 적용되고 있음
  • 하지만 AI 음성인식 모델이 한국어 강의 데이터로 학습이 이루어지지 않을 경우, 강의에서 발생하는 다양한 노이즈 등으로 인해 음성인식 성능이 떨어지는 경향을 보임
  • 기존에 공개된 한국어 강의 도메인에 대한 데이터셋은 존재하지 않으며, 저작권 문제 등으로 활용이 불가하였음
  • 본 과제를 통해 한국어 강의 도메인에 대한 AI 음성인식 성능 향상을 위한 한국교육방송공사(EBS)로부터 제공받은 4,000 시간 이상의 한국어 강의 데이터셋을 구축함
데이터 구조
데이터 구조
ID 항목 타입
키 명 키 설명
  dataSet 데이터셋 Dict
1 version 데이터셋 버전 String
3 date 녹취된 날짜 String
4 typeInfo 음원 데이터 상세 정보 Dict
  4-1 category 음원 카테고리 정보 String
  4-2 subcategory 음원 서브카테고리 String
  4-3 place 음원 녹취 장소 String
  4-4 speakers 화자 목록 List
    4-3-1 id 화자 아이디 String
4-3-1 age 나이대: 20대, 30대, 50대(추정), null(알수없음) 등
    4-3-2 gender 화자 성별: 남, 여 String
4-3-2 residence 거주지역: 서울, 대전, 부산, 광주, null(알수없음) 등
  4-5 inputType 입력형식:
방송, 유선, 모바일, 인터넷 등
List
5 dialogs 전사 데이터 목록:
묵음 기준으로 나누어진 발화 단위로 생성
List
  5-1 speaker 화자 아이디: speakers에 등록된 id String
  5-2 audioPath 발화 단위 RAW 데이터 경로 String
  5-3 textPath 발화 단위 TEXT 데이터 경로 String
데이터셋 구축 담당자
수행기관(주관) : 티맥스소프트
수행기관(주관) 표
책임자명 전화번호 대표이메일 담당업무
임성민 031-8018-1821 seongmin_lim@tmax.co.kr · 데이터구축 총괄
· 데이터 수집
· 데이터 정제
· 데이터 가공
· AI모델개발
· 응용서비스 개발

 

수행기관(참여)
수행기관(참여) 표
기관명 담당업무 기관명 담당업무
㈜아이스크림에듀 · 데이터 수집
· 데이터 정제
· 데이터 가공
(사)한국에듀테크산업협회 · 데이터 수집
· 데이터 정제
· 데이터 가공
나무기술(주) · 품질검증