콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#자연어 #음성

BETA 라이브 스트리밍 영상 중국어 통번역 데이터

라이브 스트리밍 영상 중국어 통번역 데이터 아이콘 이미지
  • 분야한국어
  • 유형 오디오 , 텍스트
구축년도 : 2023 갱신년월 : 2024-06 조회수 : 60 다운로드 : 0

※ 본 데이터는 추후 개방될 예정입니다. 베타개방을 통해 제공되는 데이터 목록은 공지사항을 참고하시기 바랍니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2024-06-28 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-06-28 산출물 공개 Beta Version

    소개

    - 한국 콘텐츠 산업의 해외성장세에 발맞춰, 자연어를 기반으로 하는, 상황별 신조어, 약어, 은어, 관용적 의미와 어투까지 효과적으로 전달 가능한 인공지능 학습데이터 구축 및 모델 개발

    구축목적

    - 연구분야 및 산업분야에 부합하는 인공지능 기술 및 서비스가 실현 가능한 라이브 스트리밍 영상 중국어 통번역의 성능 향상을 위한 인공지능 학습용 통번역 데이터 구축
  • - 데이터 구축 규모

    데이터명 원천데이터 구분 원천데이터  라벨링데이터  서브
    구축량 구축량 라벨링
    001-002
    라이브
    스트리밍 영상
    중국어
    통번역 데이터
    한국어-중국어 일상,소통 111,109 111,109 748
    여행 209,600 209,600
    게임 277,264 277,264
    경제 27,223 27,223
    교육 67,580 67,580
    스포츠 191,566 191,566
    라이브커머스 125,651 125,651
    음식,요리 108,046 108,046
    중국어-한국어 일상,소통 293,224 293,224 1,314
    여행 193,593 193,593
    게임 263,061 263,061
    라이브커머스 328,778 328,778
    패션,뷰티 276,124 276,124

                                      표 4. 데이터 구축 규모

    데이터 구축 규모 그래프

                                                     그래프 1. 데이터 구축 규모

     

    - 데이터 분포

    성별 분포
    speaker_gender COUNT 비율
    남성 1,543,806 60.89%
    여성 991,455 39.11%
    합계 2,535,261 100.00%

                                           표 5. 데이터 분포

    데이터 분포 그래프 이미지

                                                      그래프 2. 데이터 분포

     

    - 데이터 클래스 분포 명세

    데이터명 원천데이터 구분 구축 비율
    001-002 라이브 스트리밍 영상 중국어 통번역 데이터 한국어 일상,소통 20%
    여행 15%
    게임 15%
    경제 5%
    교육 5%
    스포츠 5%
    라이브커머스 15%
    음식,요리 20%
    중국어 일상,소통 20%
    여행 20%
    게임 20%
    라이브커머스 20%
    패션,뷰티 20%
  • Transfomer model 이미지

                                                         이미지 1. Transfomer model

     

    - Wav2Vec2.0-XLSR
     ○ 개요
      - 여러 언어의 음성 파일로 단일 모델을 pre training
      - XLSR은 wav2vec2.0를 기반으로 하며, 숨겨진 음성 표현(latent speech representation)의 대비 작업(contrastive task)을 해결하여 학습하며 다국어 간에 공유되는 숨겨진 부분(latent shared)의 양자화(quantization)를 공통으로 학습
      - 모델은 레이블이 지정된 데이터로 세밀하게 조정

     ○ Fine tuning
      - model의 output layer 바로 위에 downstream task의 representing vocab을 이용해 결과값을 생성해 낼 수 있게 linear classifier layer를 결합해 CTC(Connectionist Temporal Classification) loss를 이용하여 파인 튜닝

     

    Fine tuning 이미지

                                                        이미지 2. Fine tuning

    - MBART
     ○ 개요
      - 다국어 데이터들을 denoising 방식으로 pretrained 된 모델이 번역 task에서 높은 성능을 보임을 입증함.
      - mBART는 encoder, decoder 혹은 reconstructing 부분에만 집중하던 이전의 연구들과는 다르게 다국어로 전체 텍스트를 denoising 하는 방법론을 제시함. 
      - 번역 task를 위한 fine tuning을 하기 위해 모델에 추가적인 작업 없이도 지도학습이던 비지도 학습이던 바로 fine tuning이 가능함.

  • - 데이터 구성

    메타 데이터 ID 필수
    여부
    형식
    콘텐츠 정보
    (contents)
    콘텐츠 아이디 contentsidx string
    라이브 스트리밍 출처 source string
    라이브 스트리밍 카테고리 category string
    저작권 solved_copyright string
    라이브 스트리밍 콘텐츠 언어 origin_lang string
    파일 정보
    (file)
    라이브 스트리밍 콘텐츠 원본 데이터 파일명 source_filename string
    라이브 스트리밍 콘텐츠 원본 데이터 파일주소 source_filepath string
    라이브 스트리밍 콘텐츠의 음성 추출 데이터 파일명 sound_filename string
    라이브 스트리밍 콘텐츠의 음성 추출 데이터 파일주소 sound_filepath string
    목소리 추출 데이터의 시작 시간 start_voice_time string
    목소리 추출 데이터의 종료 시간 end_voice_time string
    총 목소리 데이터 시간 duration_time string
    라이브 스트리밍 정보
    (live streaming)
    라이브 스트리밍 플랫폼 정보 platform_info string
    라이브 스트리밍 주제 subject   string
    총 발화자 명수 total_speaker_num string
    발화자 이름 speaker_name string
    발화자 성별 speaker_gender string
    발화자 나이 그룹 speaker_age_group string
    라이브 스트리밍 장소 정보 location string
    총 영상 길이 total_video_time string
    총 발화 길이 total_voice_time string
    전사 (transcription) 전사 텍스트 text string
    번역 (translation) 번역 언어 trans_lang string
    번역 텍스트 trans_text string
    역번역 언어 back_trans_lang string
    역번역 텍스트 back_trans_text string
    특수 언어 표현
    (special language expression)
    신조어 new_word   string
    축약어 abbreviation_word   string
    비속어 slang   string
    말실수 mistake   string
    재발화 again   string
    간투사 interjection   string
    환경 요소
    (enviroment)
    실외 outside string
    실내 inside string
    오전 day string
    오후 night string

                                           표 1. 데이터 구성

     

    - 어노테이션 명세

    주요 어노테이션 속성 속성 설명 비고
    콘텐츠 정보
    (contents)
    contentsidx 콘텐츠 아이디  
    source 라이브 스트리밍 출처  
    category 라이브 스트리밍 카테고리  
    solved_copyright 저작권  
    origin_lang 라이브 스트리밍 콘텐츠 언어  
    파일 정보
    (file)
    source_filename 라이브 스트리밍 콘텐츠 원본 데이터 파일명  
    source_filepath 라이브 스트리밍 콘텐츠 원본 데이터 파일주소  
    sound_filename 라이브 스트리밍 콘텐츠의 음성 추출 데이터 파일명  
    sound_filepath 라이브 스트리밍 콘텐츠의 음성 추출 데이터 파일주소  
    start_voice_time 목소리 추출 데이터의 시작 시간  
    end_voice_time 목소리 추출 데이터의 종료 시간  
    duration_time 총 목소리 데이터 시간  
    라이브 스트리밍 정보
    (live streaming)
    platform_info 라이브 스트리밍 플랫폼 정보  
    subject 라이브 스트리밍 주제  
    total_speaker_num 총 발화자 명수  
    speaker_name 발화자 이름  
    speaker_gender 발화자 성별  
    speaker_age_group 발화자 나이 그룹  
    location 라이브 스트리밍 장소 정보  
    total_video_time 총 영상 길이  
    total_voice_time 총 발화 길이  
    전사 (transcription) text 전사 텍스트  
    번역 (translation) trans_lang 번역 언어  
    trans_text 번역 텍스트  
    back_trans_lang 역번역 언어  
    back_trans_text 역번역 텍스트  
    특수 언어 표현
    (special language expression)
    new_word 신조어  
    abbreviation_word 축약어  
    slang 비속어  
    mistake 말실수  
    again 재발화  
    interjection 간투사  
    환경 요소
    (enviroment)
    outside 실외  
    inside 실내  
    day 오전  
    night 오후  

                                    표 2. 어노테이션 명세

     

    - 원문데이터 포맷 예시

    제목
    pdd直播回放- 1h
    화자 남자1
    연령대 30-50대 미만
    성별 남성
    장소 실외
    태그  
    원문
    所以一到了下雨天什么的。
    전처리 후
    그래서 비 오는 날만 되면 뭐.

                                  표 3. 원문데이터 포맷 예시

     

    - 실제 예시

    {

    "contentsIdx":"1168",

    "source":"웨이보",

    "category":"일상,소통_ch_ca1",

    "solved_copyright":"플레이타운",

    "origin_lang_type":"CH_TO_KO",

    "origin_lang":"중국어",

    "contentsName":"黄子弘凡直播2023.0815 66min录屏 我又来唠嗑啦_和小何浅连麦_浅唱_期待好消息 - 1.黄子弘凡直播2023.0815直播录屏 我又来唠嗑啦_和小何浅连麦_浅唱(Av232356684,P1)",

    "fi_source_filename":"黄子弘凡直播2023.0815 66min录屏 我又来唠嗑啦_和小何浅连麦_浅唱_期待好消息 - 1.黄子弘凡直播2023.0815直播录屏 我又来唠嗑啦_和小何浅连麦_浅唱(Av232356684,P1).mp4",

    "fi_source_filepath":"/data/ai_contents/중국어_한국어/黄子弘凡直播2023.0815 66min录屏 我又来唠嗑啦_和小何浅连麦_浅唱_期待好消息 - 1.黄子弘凡直播2023.0815直播录屏 我又来唠嗑啦_和小何浅连麦_浅唱(Av232356684,P1)",

    "li_platform_info":"플레이타운",

    "li_subject":"중국",

    "li_location":"중국",

    "fi_sound_filename":"1168_3446_4.82_7.82.wav",

    "fi_sound_filepath":"https://objectstorage.ap-seoul-1.oraclecloud.com/n/cnb97trxvnun/b/clive-resource/o/output/중국어_한국어/원천데이터/일상,소통/1168/1168_3446_4.82_7.82.wav",

    "li_total_video_time":"3585.1",

    "li_total_voice_time":"2610.79",

    "li_total_speaker_num":"2",

    "fi_start_voice_time":"4.820000733327222",

    "fi_end_voice_time":"7.8249999885",

    "fi_duration_time":"3.0049992551727778",

    "tc_text":"这个迟到了十分钟",

    "tl_trans_lang":"한국어",

    "tl_trans_text":"이거, 10분 지각했네요.",

    "tl_back_trans_lang":"중국어",

    "tl_back_trans_text":"迟到了十分钟",

    "speaker_tone":"[]",

    "sl_new_word":[],

    "sl_abbreviation_word":[ ],

    "sl_slang":[ ],

    "sl_mistake":[ ],

    "sl_again":[ ],

    }

     

     
  • 데이터셋 구축 담당자

    수행기관(주관) : 알엠소프트
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    이동훈 070-5226-1346 ldh@rmsoft.kr 사업관리총괄, 데이터 정제, AI모델 개발
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    부산외국어대학교 산학협력단 품질관리 및 데이터 검사
    이고에듀 데이터 정제 및 비식별화
    이창용어학원 데이터 가공(라벨링) 및 역번역
    인트리 원시데이터 수집 및 저작권 관리
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    이동훈 070-5226-1346 ldh@rmsoft.kr
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    현화수 070-5226-1346 reina@rmsoft.kr
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    이창규 070-5226-1346 lcg@rmsoft.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.