Loading...

소개

데이터 명

한국어-영어 번역 병렬 말뭉치 AI데이터

Korean-English Text Corpora

’19년 구축 목표

한국어-영어 160만 문장의 번역 말뭉치

  • 문어체 한영 번역 110만 문장(뉴스 80만, 웹 10만, 법률 10만, 한국문화 10만)
  • 구어체 한영 번역 50만 문장(구어체 문장 40만, 대화체 문장 세트 10만)

1차 공개 구축량

 

구분

분야

솔트룩스 파트너스

에버트란

플리토

합계

문어체

뉴스

35,000

10,000

10,000

55,000

법률

-

17,000

-

17,000

한국문화

-

5,000

-

5,000

정부 지자체

-

-

-

0

구어체

구어체

-

-

60,000

60,000

대화체

대화체

-

-

20,000

20,000

합계

35,000

32,000

90,000

157,000

대표 도면

필요성

  • AI 번역 기술을 개발하고자 하는 중소/벤처기업이 재정과 시간의 부족으로 학습데이터를 확보할 수 없어 사업에 활용하지 못하거나 범용 엔진을 수정 없이 사용함
  • 공개 데이터로 맞춤 AI 번역 기술을 개발하고, 서비스와 제품을 통한 추가 말뭉치 구축 및 공개로 선순환 생태계 조성

구축내용

분야 설명 수량
뉴스 뉴스 텍스트 80만 문장
정부 웹사이트/저널 정부/지자체 홈페이지, 간행물 10만 문장
법률 행정 규칙, 자치 법규 10만 문장
한국문화 한국 역사, 문화  콘텐츠 10만 문장
구어체 자연스러운 구어체 문장 40만 문장
대화체 상황/시나리오 기반 대화 세트 10만 문장
합계 160만 문장
  • AI 번역엔진 개발을 위한 학습용 문장 구축
  • 한국어-영어 쌍으로 구성
  • 활용에 필요한 정보 제공
  • 구축용 프로그램 공개

데이터 구조

  • 구축 데이터는 엑셀 파일(*.xlsx, *.tsv)로 제공, 번역 DB를 다운받아 수월하게 활용.
  • 데이터의 모든 문장에는 문장번호를 부착하여 관리 용이
  • 데이터 가공(번역) 방식이 인공신경망 자동 번역(NMT)를 활용한 경우에는 NMT 결과와, 이를 후편집(Post-editing, PE)한 결과가 같이 있음

구분

문장번호

구분

출처

특성

NMT

활용여부

뉴스

분야(3단계)

기사 url

기사 작성일

일부

웹사이트

-

url

 

법률

지자체

 

 

한국문화

분야

url, 출판물

 

구어체

-

 

 

X

대화체

분류/상황

 

대화세트/화자

X

활용예시

연구 분야:

  • 공개 한영 말뭉치를 활용하여 고품질 AI 번역 엔진 개발
  • 다양한 언어 지능 기술 개발에 활용
  • 한영 대화 세트는 자동번역 챗봇 평가/개발에 활용 가능

 

산업 분야:

  • 자동번역을 글로벌 쇼핑, 커뮤니티 서비스에 활용
  • 서비스로 수집한 말뭉치를 추가 학습에 활용

데이터셋 다운로드

한국어-영어 말뭉치 다운로드

데이터 구축 담당자

주관기관

책임자명

전화번호

대표이메일

(주)솔트룩스파트너스

신석환

02-2193-1723

nia@saltlux.com

샘플데이터 다운로드 페이지