한국어-일본어 번역 말뭉치

한국어-일본어 번역 말뭉치

데이터셋명 한국어-일본어 번역 말뭉치
데이터 분야 음성/자연어 데이터 유형 텍스트
구축기관 플리토 데이터 관련 문의처 담당자명 이정수(플리토)
가공기관 플리토, 에버트란, 솔트룩스파트너스, 온아시아, 윤즈정보개발, 디엠티랩스 전화번호 02-512-0162
검수기관 플리토, 에버트란, 솔트룩스파트너스, 디엠티랩스 이메일 help@flitto.com
구축 데이터량 150만 구축년도 2020년
버전 1.0 최종수정일자 2021.06.18
소개 문화 분야에서 한-일본어 번역 정확도가 상대적으로 낮은 세부 분야 데이터 번역 말뭉치
주요 키워드 AI 기반 번역, 문화 분야 전문 번역기, 문화 분야 용어사전 개발, 인공지능 학습용 번역 말뭉치, 신문, 저널, 웹 데이터
저작권 및 이용정책 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기]
데이터설명서 자료보기 구축활용가이드 자료보기
샘플데이터 다운로드 교육활용동영상 영상보기
저작도구 다운로드 AI모델 다운로드
데이터 변경이력
버전 일자 변경내용 비고
1.0 2021.06.18 데이터 최초 개방  
구축 목적
  • 양질, 대규모 인공지능 학습 데이터를 구축 및 공개하여 중소ㆍ벤처기업, 스타트업 등 민간 기업들의 인공지능 기술개발을 촉진하고, 이들 기업이 인공지능 기술을 바탕으로 인공지능 서비스, 인공지능 제품을 공급하는 등 인공지능 활용 산업이 활성화를 위함
활용 분야
  • 민간 및 기관의 한국어-일본어 AI 자동번역 기술 개발 등
주요 키워드
  • 크라우스소싱(집단지성), 인공지능, NMT, MTPE, 기계학습, 말뭉치, 인공지능 학습, 생태계, 번역, 기계번역
소개
  • 다양한 분야의 한국어 원문 데이터로부터 정제된 한국어-일본어 번역 말뭉치를 구축하고 검증한 데이터셋으로, 특정 산업 영역에 편중되지 않으면서도 인공지능 개발에 공통적으로 활용할 수 있는 범용성 높은 데이터를 구축하였으며, 데이터의 재사용에 제한이 없도록 저작권 문제를 완전히 해결한 원천 데이터를 확보하여 인공지능 학습용 데이터 구축
     

한국어-일본어 번역 말뭉치 소개 이미지

구축 내용 및 제공 데이터량
  • 데이터 구축분야: 문화재/향토/K-FOOD, K-POP(한류)/대중문화_공연_콘텐츠,IT/컴퓨터/모바일, 금융/증시, 사회/노동/복지, 교육, 특허/기술의료/보건, 자동차
  • 한글 원문 어절 수 : 평균 15어절
  • 수량 : 병렬 말뭉치 150만개
  • 분야별 세부 구축 수량(단위:만): 문화재/향토/K-FOOD(15만), K-POP(한류)/대중문화_공연_콘텐츠(20만), IT/컴퓨터/모바일(20만), 금융/증시(20만), 사회/노동/복지(20만), 교육(10만), 특허/기술(15만), 의료/보건(10만), 자동차(20만)
대표도면

필요성
  • 현재 대한민국은 AI 기술 연구 개발 및 활용의 시작 단계
  • AI 데이터 축적/활용 미흡 (선진국[미국] 대비 약 2년의 기술력 차)
  • AI 기술 개발을 위해 대규모 AI 학습용 데이터 확보 필수
  • 중소·벤처 기업 수요는 있으나 구축 역량 부족
  • AI 학습 데이터 자체 구축 시간/예산 부족 및 원천 데이터 확보의 어려움으로 정부 차원의 투자/지원 필요
데이터 구조
  • 데이터 구성
데이터 구성
No. 속성명 타입 필수 여부
1 관리번호 string 필수
2 분야 string 필수
3 한국어 string 필수
4 일본어 string 필수
5 한국어_어절수 number 필수
6 일본어_글자수 number 필수
7 길이_분류 number 필수
8 출처 string 선택
9 수행기관 string 필수

 

  • 구체적인 필드
     
데이터 구성
필드 정보 세부 내용
데이터 셋 명칭 한국어-일본어 문화 분야 이중 말뭉치
구축분야 문화재/향토/K-Food, K-POP(한류)/대중문화_공연 콘텐츠, IT/컴퓨터/모바일, 금융/증시, 사회/노동/복지, 교육, 특허/기술, 자동차
구축량 150만 문장쌍
응용분야 언어모델, 자동번역
언어 원시어-한국어, 목적어-일본어
기타  

 

  • 제공형태 - JSON 일본어
{
    "관리번호" : "K0-JA-2020-KPOP-000002",
    "분야" : "K-POP(한류)/대중문화공연콘텐츠",
    "한국어" : "JTBC 드라마 '부부의 세계'가 시청률 28%의 대기록을 쓰고 종영했다.",
    "일본어" : "JTBC ドラマ 「夫婦の世界」が視聴率28%の記録を達成して放送終了した。",
    "한국어_어절수" : "9",
    "일본어_글자수" : "26",
    "길이_분류" : "1",
    "출처" : "http://www.sedaily.com/NewsView/1Z2SBC1W5Y",
    "수행기관" : "플리토",
  }
데이터셋 구축 담당자
수행기관(주관) : 플리토
데이터셋 구축 담당자
책임자명 전화번호 대표이메일 담당업무
이정수 02-512-0162 help@flitto.com · 사업 관리 총괄 / 위탁용역 계약 및 업무관리
· 크라우드 소싱 활용한 한-중/일 번역(MTPE 번역/감수)
· 활용 서비스 개발 및 방안 도출
수행기관(참여)
수행기관 (참여)
기관명 담당업무 기관명 담당업무
솔트룩스파트너스 · 한-일 번역(MTPE 번역/감수)
· 서비스 활용 방안 도출
에버트란 · 한-중/일 번역(MTPE 번역/감수)
· 서비스 활용 방안 도출
온아시아 · 한-중 번역 윤즈정보개발 · 원시데이터 정제
· 저작권 구매(한국언론진흥재단, 한국학중앙연구원 등)
디엠티랩스 · 한-중 번역(MTPE 번역/감수)
· 서비스 활용 방안 도출