AI-Hub

방송콘텐츠 한국어-아시아어 통·번역 음성 데이터

분야한국어
유형 오디오 , 텍스트

구축년도 : 2022 갱신년월 : 2023-12 조회수 : 6,250 다운로드 : 222 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2023-12-06	데이터 최종 개방
1.0	2023-07-05	데이터 개방(Beta Version)

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2025-06-16	구축업체 정보수정
2024-07-15	데이터 설명서, 구축업체정보 수정
2023-12-15	산출물 전체 공개
2023-07-21	세부데이터 및 데이터통계 수정

소개

방송콘텐츠의 인공신경망기계번역기(Neural Machin Translation;NMT) 성능향상을 위하여 학습데이터로 활용하기 위한 한국어-아시아어 음성 및 말뭉치 데이터

구축목적

한국어 방송콘텐츠 분야의 아시아어 통·번역 성능 향상 및 상황별 신조어, 약어, 은어, 관용적 의미와 어투까지 효과적으로 전달 가능한 인공신경망기계번역(Neural Machin Translation;NMT) 인공지능 학습모델 개발

메타데이터 구조표
데이터 영역	한국어	데이터 유형	오디오 , 텍스트
데이터 형식	wav, txt	데이터 출처	방송콘텐츠(KBS 등)
라벨링 유형	번역(자연어)	라벨링 형식	JSON
데이터 활용 서비스	인공신경망기계번역(NMT)	데이터 구축년도/ 데이터 구축량	2022년/음성 3,000시간

▪ 데이터 구축 규모
- 음성데이터 3000시간

▪ 데이터 구축 규모- 음성데이터 3000시간
분류	북경어	일본어	대만어	몽골어	힌디어	합계
음성 데이터(시간)	700	700	700	700	200	3,000

▪ 데이터 분포
- 언어별 분포 : 북경어, 일본어, 대만어, 몽골어, 힌디어
- 카테고리별 분포 : 연예/공연, 영화/드라마. 다큐멘터리. 오락/예능, 교양

○ 1-11-035 방송콘텐츠 한국어-아시아어 통·번역 데이터
▪ 방송콘텐츠 카테고리 분포

▪ 방송콘텐츠 카테고리 분포
항목명	측정지표	목표		성과
방송콘텐츠 카테고리분포	구성비 중첩률	구성비 중첩률	50%	결과 구성비
		목표 구성비		결과 구성비
		연예/공연	20%	연예/공연	17%
		영화/드라마	20%	영화/드라마	19%
		다큐멘터리	20%	다큐멘터리	12%
		오락/예능	20%	오락/예능	30%
		교양	20%	교양	22%
언어별 수량	수량	목표 수량		결과 수량
		한국어	700시간 이상	한국어	893.83시간
		북경어	700시간 이상	북경어	700.77시간
		일본어	700시간 이상	일본어	700.95시간
		대만어	700시간 이상	대만어	700.96시간
		몽골어	700시간 이상	몽골어	701.18시간
		힌디어	200시간 이상	힌디어	200.34시간

결과 구성비 차트

언어별 수량 차트

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드

AI 모델 상세 설명서 다운로드

AI 모델 상세 설명서 다운로드 AI 모델 다운로드

▪ 활용모델
가. 인공지능 학습용 데이터 활용모델 개발 방안
1) 구축 데이터 품질을 위한 방송콘텐츠용 한국어 음성인식 학습모델 선정, 개발
○ 방송콘텐츠용 한국어 음성인식 모델
- 본 과제를 통하여 구축된 3,000시간 이상의 ‘방송콘텐츠 한국어-아시아어 통번역 음성데이터’의 한국어 음성데이터 및 전사 텍스트데이터에 대한 데이터 품질 검토를 위하여 방송콘텐츠용 한국어 음성인식 학습모델을 선정함
○ 오픈소스 툴킷 이용한 방송콘텐츠용 한국어 음성인식 학습모델 구축
- 학습도구: 오픈소스툴인 ESPnet을 사용함
- 학습방식: ESPnet의 학습스크립트를 바탕으로 수정하여 사용함
○ 최신 종단형 방송콘텐츠용 한국어 음성인식 학습모델 학습
- 구축데이터의 80%에 해당하는 학습용 데이터셋과 10%에 해당하는 개발용 데이터셋을 이용하여 인공지능 음성인식 모델을 학습함
- 최신 알고리즘인 Transformer, Conformer 등 학습모델을 생성함
○ 방송콘텐츠용 한국어-아시아어 음성인식 학습모델 평가
- 구축데이터의 10%에 해당하는 평가용 데이터셋을 이용하여 학습된 인공지능 음성인식 모델을 평가함
- 한국어 음성인식 분야에서의 평가척도인 CER을 측정 및 목표성능 충족 여부를 판단함
- 목표 성능은 다음과 같음

○ 방송콘텐츠용 한국어-아시아어 음성인식 학습모델 평가 목표 성능
AI 모델	모델 성능 지표
Transformer, Conformer 등 한국어 음성인식 모델	CER 10 이하

2) 구축 데이터 품질을 위한 방송콘텐츠용 한국어-아시아어 자동통역 학습모델 선정, 개발
○ 방송콘텐츠용 한국어-아시아어 자동통역 모델
- 본 과제를 통하여 구축된 2,000시간 이상의 ‘방송콘텐츠 한국어-아시아어 통번역 음성데이터’의 한국어 음성데이터 및 번역 텍스트데이터에 대한 데이터 품질 검토를 위하여 방송콘텐츠용 한국어-아시아어 자동통역 학습모델을 선정함
○ 오픈소스 툴킷 이용한 방송콘텐츠용 한국어-아시아어 자동통역 학습모델 구축
- 학습도구: 오픈소스툴킷인 ESPnet을 사용함
- 학습방식: ESPnet의 학습스크립트를 바탕으로 수정하여 사용함
○ 최신 종단형 방송콘텐츠용 한국어-아시아어 자동통역 학습모델 학습
- 구축데이터의 80%에 해당하는 학습용 데이터셋과 10%에 해당하는 개발용 데이터셋을 이용하여 인공지능 자동통역 모델을 학습함
- 최신 알고리즘인 Transformer, Conformer 등 학습모델을 생성함
○ 방송콘텐츠용 한국어-아시아어 자동통역 학습모델 평가
- 구축데이터의 10%에 해당하는 평가용 데이터셋을 이용하여 학습된 인공지능 자동통역 모델을 평가함
- 자동통역 분야에서의 주요 평가척도인 BLEU를 측정 및 목표성능 충족 여부를 판단함
- 목표 성능은 다음과 같음

○ 방송콘텐츠용 한국어-아시아어 자동통역 학습모델 평가 목표 성능
AI 모델	모델 성능 지표
Transformer, Conformer 등 한국어-아시아어 자동통역 모델	중국어, 일본어	BLEU 20 이상
Transformer, Conformer 등 한국어-아시아어 자동통역 모델	기타	BLEU 15 이상

나. 인공지능 모델을 적용한 기술혁신 지원 방안
1) 국가적 측면
○ 인공지능 기술의 국가 경쟁력 제고를 위하여 고품질의 통번역 데이터를 공유, 개방
- 인공지능 기술력의 선진국과의 격차 극복을 도모
- 개방적인 데이터 유통 과정으로 누구나 자유롭게 고품질의 데이터 활용할 수 있는 환경 조성
- 높은 자료의 접근성 및 연구의 다양성 확보를 통한 인공지능 기술력에 대한 국가경쟁력 제고 및 경제 성장 도모
○ 방송콘텐츠에 대한 디지털 산업 혁신 및 시장 확대를 위하여 데이터 활용 서비스 개발 가이드를 제공함
- 지속적인 선순환 체계 구축을 위한 데이터 활용 서비스 개발 가이드를 제공함
- ESPnet과 연계하여 연구, 개발할 수 있는 데이터 처리 가이드 제공
2) 연구, 개발적 측면
○ 한국어-아시아어 자동통역 학습모델 공개
- 주관기관 및 참여기관이 영위하는 유관 사업의 저작권, 영업권 등에 상충하지 않는 범위에서 한국어-아시아어 자동통역 학습모델 공개함
● 공개하는 한국어-아시아어 자동통역 학습모델은 ESPnet 툴킷에서 동작 가능함
● 품질 평가를 위해 사용되는 학습모델과는 다를 수 있음

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	기계번역(중국어)	Machine Translation	Transformer for NLP	BLEU	0.4 점	0.4514 점
2	기계번역(일본어)	Machine Translation	Transformer for NLP	BLEU	0.4 점	0.4814 점
3	기계번역(대만어)	Machine Translation	Transformer for NLP	BLEU	0.2 점	0.4085 점
4	기계번역(몽골어)	Machine Translation	Transformer for NLP	BLEU	0.15 점	0.210599999999999 점
5	기계번역(힌디어)	Machine Translation	Transformer for NLP	BLEU	0.15 점	0.1689 점
6	기계번역 성능(중국어)	Machine Translation	Transformer for NLP	BLEU	0.4 점	0.4499 점
7	기계번역 성능(일본어)	Machine Translation	Transformer for NLP	BLEU	0.4 점	0.5119 점
8	기계번역 성능(대만어)	Machine Translation	Transformer for NLP	BLEU	0.2 점	0.4013 점
9	기계번역 성능(몽골어)	Machine Translation	Transformer for NLP	BLEU	0.15 점	0.276 점
10	기계번역 성능(힌디어)	Machine Translation	Transformer for NLP	BLEU	0.15 점	0.1788 점
11	한국어 음성인식	Speech Recognition	Conformer for ASR	CER	10 %	9.6 %
12	음성인식 성능(중국어)	Speech Recognition	Conformer for ASR	ERR	5 %	10.81 %
13	음성인식 성능(일본어)	Speech Recognition	Conformer for ASR	ERR	5 %	18.5 %
14	음성인식 성능(대만어)	Speech Recognition	Conformer for ASR	ERR	5 %	5.26 %
15	음성인식 성능(몽골어)	Speech Recognition	Conformer for ASR	ERR	2 %	2.47 %
16	음성인식 성능(힌디어)	Speech Recognition	Conformer for ASR	ERR	2 %	42.86 %

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

▪ 데이터 포맷

▪ 데이터 포맷
콘텐츠명
생로병사의 비밀(816회)
카테고리	다큐멘터리
언어	일본어
발화시간	5.23초
성별	남
나이	50대
원문
20년 전을 보면 통념성이라고 해서 1년 내내 지속되면서
전처리 후
20年前を見ると、通念性といって、1年中に続いて。

▪ 어노테이션 포맷 설명
"01_dataset" : {
"1_identifier" : "2022-1-11-035",
"2_name" : "방송콘텐츠 한국어-아시아어 통번역 음성데이터",
"3_src_path" : "11-1/source/L01/C03/C01625/U0180534.wav",
"4_label_path" : "11-1/labels/L01_L03/C03/C01625/U0180534.json",
"5_category" : "C03",
"6_type" : "음성",
"7_copyright" : "Y",
"8_src_length" : "5.18"
},
"02_srcinfo" : {
"1_id" : "C01625",
"2_title" : "생로병사의 비밀(816회)",
"3_video_duration" : "2877",
"4_language" : "한국어"
},
"04_contentinfo" : {
"4_storyline" : "코로나 19가 장기화 하면서 야외 운동으로 주목받고 있는 등산! 하지만 가벼운 마음으로 준비 없이 나섰다간 부상을 당할 수 있다. 등산 인구 증가의 시대, 부상 위험을 줄이고 운동 효과를 높이는 새로운 등산법, 둘레길 걷기! 2021년 등산·트래킹 실태조사에 따르면, 3년 사이 트래킹 인구가 9.3% 증가한 것으로 나타났다. 산 정상을 향해 오르는 등산보다 둘레길을 따라 걷는 운동 인구가 크게 늘고 있는 것이다. 높은 산을 찾아 멀리 떠나지 않아도 집 근처에서 쉽게 도전할 수 있는 둘레길 걷기! KBS1TV <생/로/병/사/의 비밀>에서는 장노년을 위한, 안전하고 건강한 둘레길 걷기의 효과를 다양한 실험을 통해 분석해 보고, 둘레길 걷기로 건강을 회복한 사람들을 만나본다."
},
"05_sceneinfo" : {
"1_place" : "N",
"2_echo" : "N",
"3_crowd" : "N",
"4_speakers" : "1",
"5_dialect" : "N",
"6_noise" : "N",
"7_background" : "N",
"8_naration" : "N"
},
"06_speakerinfo" : {
"1_id" : "S16250008",
"2_gender" : "남",
"3_age" : "50"
},
"07_nativesrcinfo" : {
"1_src_path" : "11-1/labels/L01_L03/C03/C01625/U0180534.wav",
"4_duration" : "5.23"
},
"08_nativespeakerinfo" : {
"1_id" : "55816",
"2_country_birth" : "일본"
},
"09_transcription" : {
"1_text" : "20년 전을 보면 통념성이라고 해서 1년 내내 지속되면서"
},
"10_translation" : {
"1_text" : "20年前を見ると、通念性といって、1年中に続いて。",
"2_language" : "일본어"

데이터셋 구축 담당자

수행기관(주관) : ㈜아키아카

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
정민혁	02-859-0884	mona@akiaka.com	사업 관리, 데이터 가공

수행기관(참여)

수행기관(참여)
기관명	담당업무
스피치랩스	데이터 설계 및 AI모델 개발
쿠버릭스	정제 및 가공
밍크엔터테인먼트	원천데이터 수집
이랜서	크라우드워커 채용
한국국가기록연구원	품질관리

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
정민혁	02-859-0884	mona@akiaka.com

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의