AI-Hub

#자연어 #음성

BETA 라이브 스트리밍 영상 중국어 통번역 데이터

분야한국어
유형 오디오 , 텍스트

구축년도 : 2023 갱신년월 : 2024-06 조회수 : 60 다운로드 : 0

※ 본 데이터는 추후 개방될 예정입니다. 베타개방을 통해 제공되는 데이터 목록은 공지사항을 참고하시기 바랍니다.

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.0	2024-06-28	데이터 개방	Beta Version

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2024-06-28	산출물 공개	Beta Version

소개

- 한국 콘텐츠 산업의 해외성장세에 발맞춰, 자연어를 기반으로 하는, 상황별 신조어, 약어, 은어, 관용적 의미와 어투까지 효과적으로 전달 가능한 인공지능 학습데이터 구축 및 모델 개발

구축목적

- 연구분야 및 산업분야에 부합하는 인공지능 기술 및 서비스가 실현 가능한 라이브 스트리밍 영상 중국어 통번역의 성능 향상을 위한 인공지능 학습용 통번역 데이터 구축

메타데이터 구조표
데이터 영역	한국어	데이터 유형	오디오 , 텍스트
데이터 형식	PCM 형식의 WAV	데이터 출처	자체수집
라벨링 유형	번역(자연어), 전사(음성)	라벨링 형식	json(UTF-8)
데이터 활용 서비스	영상 요약 및 번역 서비스, 한국어 음성 연구 및 대화체 음성 인식 서비스, 다국어 통번역 서비스, 중국어 영상 자막 자동 생성 서비스	데이터 구축년도/ 데이터 구축량	2023년/총 파일수: 4,945,638 / 서브라벨링: 2,062

- 데이터 구축 규모

데이터명	원천데이터 구분		원천데이터	라벨링데이터	서브
데이터명	원천데이터 구분		구축량	구축량	라벨링
001-002 라이브 스트리밍 영상 중국어 통번역 데이터	한국어-중국어	일상,소통	111,109	111,109	748
		여행	209,600	209,600
		게임	277,264	277,264
		경제	27,223	27,223
		교육	67,580	67,580
		스포츠	191,566	191,566
		라이브커머스	125,651	125,651
		음식,요리	108,046	108,046
	중국어-한국어	일상,소통	293,224	293,224	1,314
		여행	193,593	193,593
		게임	263,061	263,061
		라이브커머스	328,778	328,778
		패션,뷰티	276,124	276,124

표 4. 데이터 구축 규모

데이터 구축 규모 그래프

그래프 1. 데이터 구축 규모

- 데이터 분포

성별 분포
speaker_gender	COUNT	비율
남성	1,543,806	60.89%
여성	991,455	39.11%
합계	2,535,261	100.00%

표 5. 데이터 분포

데이터 분포 그래프 이미지

그래프 2. 데이터 분포

- 데이터 클래스 분포 명세

데이터명		원천데이터 구분	구축 비율
001-002 라이브 스트리밍 영상 중국어 통번역 데이터	한국어	일상,소통	20%
		여행	15%
		게임	15%
		경제	5%
		교육	5%
		스포츠	5%
		라이브커머스	15%
		음식,요리	20%
	중국어	일상,소통	20%
		여행	20%
		게임	20%
		라이브커머스	20%
		패션,뷰티	20%

이미지 1. Transfomer model

- Wav2Vec2.0-XLSR
○ 개요
- 여러 언어의 음성 파일로 단일 모델을 pre training
- XLSR은 wav2vec2.0를 기반으로 하며, 숨겨진 음성 표현(latent speech representation)의 대비 작업(contrastive task)을 해결하여 학습하며 다국어 간에 공유되는 숨겨진 부분(latent shared)의 양자화(quantization)를 공통으로 학습
- 모델은 레이블이 지정된 데이터로 세밀하게 조정

○ Fine tuning
- model의 output layer 바로 위에 downstream task의 representing vocab을 이용해 결과값을 생성해 낼 수 있게 linear classifier layer를 결합해 CTC(Connectionist Temporal Classification) loss를 이용하여 파인 튜닝

이미지 2. Fine tuning

- MBART
○ 개요
- 다국어 데이터들을 denoising 방식으로 pretrained 된 모델이 번역 task에서 높은 성능을 보임을 입증함.
- mBART는 encoder, decoder 혹은 reconstructing 부분에만 집중하던 이전의 연구들과는 다르게 다국어로 전체 텍스트를 denoising 하는 방법론을 제시함.
- 번역 task를 위한 fine tuning을 하기 위해 모델에 추가적인 작업 없이도 지도학습이던 비지도 학습이던 바로 fine tuning이 가능함.

- 데이터 구성

메타 데이터		ID	필수 여부	형식
메타 데이터		ID	필수 여부	형식
콘텐츠 정보 (contents)	콘텐츠 아이디	contentsidx	○	string
	라이브 스트리밍 출처	source	○	string
	라이브 스트리밍 카테고리	category	○	string
	저작권	solved_copyright	○	string
	라이브 스트리밍 콘텐츠 언어	origin_lang	○	string
파일 정보 (file)	라이브 스트리밍 콘텐츠 원본 데이터 파일명	source_filename	○	string
	라이브 스트리밍 콘텐츠 원본 데이터 파일주소	source_filepath	○	string
	라이브 스트리밍 콘텐츠의 음성 추출 데이터 파일명	sound_filename	○	string
	라이브 스트리밍 콘텐츠의 음성 추출 데이터 파일주소	sound_filepath	○	string
	목소리 추출 데이터의 시작 시간	start_voice_time	○	string
	목소리 추출 데이터의 종료 시간	end_voice_time	○	string
	총 목소리 데이터 시간	duration_time	○	string
라이브 스트리밍 정보 (live streaming)	라이브 스트리밍 플랫폼 정보	platform_info	○	string
	라이브 스트리밍 주제	subject		string
	총 발화자 명수	total_speaker_num	○	string
	발화자 이름	speaker_name	○	string
	발화자 성별	speaker_gender	○	string
	발화자 나이 그룹	speaker_age_group	○	string
	라이브 스트리밍 장소 정보	location	○	string
	총 영상 길이	total_video_time	○	string
	총 발화 길이	total_voice_time	○	string
전사 (transcription)	전사 텍스트	text	○	string
번역 (translation)	번역 언어	trans_lang	○	string
	번역 텍스트	trans_text	○	string
	역번역 언어	back_trans_lang	○	string
	역번역 텍스트	back_trans_text	○	string
특수 언어 표현 (special language expression)	신조어	new_word		string
	축약어	abbreviation_word		string
	비속어	slang		string
	말실수	mistake		string
	재발화	again		string
	간투사	interjection		string
환경 요소 (enviroment)	실외	outside	○	string
	실내	inside	○	string
	오전	day	○	string
	오후	night	○	string

표 1. 데이터 구성

- 어노테이션 명세

주요 어노테이션 속성		속성 설명	비고
콘텐츠 정보 (contents)	contentsidx	콘텐츠 아이디
	source	라이브 스트리밍 출처
	category	라이브 스트리밍 카테고리
	solved_copyright	저작권
	origin_lang	라이브 스트리밍 콘텐츠 언어
파일 정보 (file)	source_filename	라이브 스트리밍 콘텐츠 원본 데이터 파일명
	source_filepath	라이브 스트리밍 콘텐츠 원본 데이터 파일주소
	sound_filename	라이브 스트리밍 콘텐츠의 음성 추출 데이터 파일명
	sound_filepath	라이브 스트리밍 콘텐츠의 음성 추출 데이터 파일주소
	start_voice_time	목소리 추출 데이터의 시작 시간
	end_voice_time	목소리 추출 데이터의 종료 시간
	duration_time	총 목소리 데이터 시간
라이브 스트리밍 정보 (live streaming)	platform_info	라이브 스트리밍 플랫폼 정보
	subject	라이브 스트리밍 주제
	total_speaker_num	총 발화자 명수
	speaker_name	발화자 이름
	speaker_gender	발화자 성별
	speaker_age_group	발화자 나이 그룹
	location	라이브 스트리밍 장소 정보
	total_video_time	총 영상 길이
	total_voice_time	총 발화 길이
전사 (transcription)	text	전사 텍스트
번역 (translation)	trans_lang	번역 언어
	trans_text	번역 텍스트
	back_trans_lang	역번역 언어
	back_trans_text	역번역 텍스트
특수 언어 표현 (special language expression)	new_word	신조어
	abbreviation_word	축약어
	slang	비속어
	mistake	말실수
	again	재발화
	interjection	간투사
환경 요소 (enviroment)	outside	실외
	inside	실내
	day	오전
	night	오후

표 2. 어노테이션 명세

- 원문데이터 포맷 예시

제목
pdd直播回放- 1h
화자	남자1
연령대	30-50대 미만
성별	남성
장소	실외
태그
원문
所以一到了下雨天什么的。
전처리 후
그래서 비 오는 날만 되면 뭐.

표 3. 원문데이터 포맷 예시

- 실제 예시

{

"contentsIdx":"1168",

"source":"웨이보",

"category":"일상,소통_ch_ca1",

"solved_copyright":"플레이타운",

"origin_lang_type":"CH_TO_KO",

"origin_lang":"중국어",

"contentsName":"【黄子弘凡直播】2023.0815 66min录屏我又来唠嗑啦_和小何浅连麦_浅唱_期待好消息 - 1.【黄子弘凡直播】2023.0815直播录屏我又来唠嗑啦_和小何浅连麦_浅唱(Av232356684,P1)",

"fi_source_filename":"【黄子弘凡直播】2023.0815 66min录屏我又来唠嗑啦_和小何浅连麦_浅唱_期待好消息 - 1.【黄子弘凡直播】2023.0815直播录屏我又来唠嗑啦_和小何浅连麦_浅唱(Av232356684,P1).mp4",

"fi_source_filepath":"/data/ai_contents/중국어_한국어/【黄子弘凡直播】2023.0815 66min录屏我又来唠嗑啦_和小何浅连麦_浅唱_期待好消息 - 1.【黄子弘凡直播】2023.0815直播录屏我又来唠嗑啦_和小何浅连麦_浅唱(Av232356684,P1)",

"li_platform_info":"플레이타운",

"li_subject":"중국",

"li_location":"중국",

"fi_sound_filename":"1168_3446_4.82_7.82.wav",

"fi_sound_filepath":"https://objectstorage.ap-seoul-1.oraclecloud.com/n/cnb97trxvnun/b/clive-resource/o/output/중국어_한국어/원천데이터/일상,소통/1168/1168_3446_4.82_7.82.wav",

"li_total_video_time":"3585.1",

"li_total_voice_time":"2610.79",

"li_total_speaker_num":"2",

"fi_start_voice_time":"4.820000733327222",

"fi_end_voice_time":"7.8249999885",

"fi_duration_time":"3.0049992551727778",

"tc_text":"这个，迟到了十分钟，",

"tl_trans_lang":"한국어",

"tl_trans_text":"이거, 10분 지각했네요.",

"tl_back_trans_lang":"중국어",

"tl_back_trans_text":"这，迟到了十分钟。",

"speaker_tone":"[]",

"sl_new_word":[],

"sl_abbreviation_word":[ ],

"sl_slang":[ ],

"sl_mistake":[ ],

"sl_again":[ ],

}

데이터셋 구축 담당자

수행기관(주관) : 알엠소프트

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
이동훈	070-5226-1346	ldh@rmsoft.kr	사업관리총괄, 데이터 정제, AI모델 개발

수행기관(참여)

수행기관(참여)
기관명	담당업무
부산외국어대학교 산학협력단	품질관리 및 데이터 검사
이고에듀	데이터 정제 및 비식별화
이창용어학원	데이터 가공(라벨링) 및 역번역
인트리	원시데이터 수집 및 저작권 관리

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
이동훈	070-5226-1346	ldh@rmsoft.kr

AI모델 관련 문의처

AI모델 관련 문의처
담당자명	전화번호	이메일
현화수	070-5226-1346	reina@rmsoft.kr

저작도구 관련 문의처

저작도구 관련 문의처
담당자명	전화번호	이메일
이창규	070-5226-1346	lcg@rmsoft.kr

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의