한국어-영어 번역 말뭉치

한국어-영어 번역(병렬) 말뭉치 AI데이터

Korean-English AI Training Text Corpus

'19년 구축량
한국어-영어 160만 문장의 번역 말뭉치

 

  • 문어체 한영 번역 110만 문장(뉴스 80만, 정부 웹사이트 컨텐츠 10만, 조례 10만, 한국문화 10만)
  • 구어체 한영 번역 50만 문장(구어체 40만, 대화체 10만)
대표 도면
IMAGE

 

필요성
  • 민간/공공기관 자동 번역기 개발의 기초 데이터 가치 발현

  • 기계번역학계 연구 자료의 수요

  • 자동번역 기반 크라우드소싱 사업 활용

구축내용
  • AI 번역엔진 개발을 위한 학습용 문장 구축
분야 설명 수량
뉴스 뉴스 텍스트 80만 문장
정부 웹사이트/저널 정부/지자체 홈페이지,간행물 10만 문장
법률 행정 규칙,자치 법규 10만 문장
한국문화 한국 역사,문화 콘텐츠 10만 문장
구어체 자연스러운 구어체 문장 40만 문장
대화체 상황/시나리오 기반 대화 세트 10만 문장
합계 160만 문장
  • 말뭉치 구축 프로그램 공개
  • 법률(조례)번역 시범서비스 공개
데이터 구조
  • 구축 데이터는 엑셀 파일(*.xlsx)로 제공, 번역 DB를 다운받아 활용 가능
  • 데이터의 모든 문장에는 문장번호를 부착하여 관리 용이
 
구분 문장번호 구분 출처 특성
뉴스 분야(3단계) 기사 url 언론사, 기사 작성일
웹사이트 - url  
법률 지자체    
한국문화 분야 url,출판물  
구어체 -    
대화체 분류/상황   대화세트/화자
활용예시
산업분야

 

  • 자동번역을 글로벌 쇼핑, 커뮤니티 서비스에 활용
  • 서비스로 수집한 말뭉치를 추가 학습에 활용

 

연구분야

 

  • 공개 한영 말뭉치를 활용하여 고품질 AI 번역 엔진 개발
  • 다양한 언어 지능 기술 개발에 활용
  • 한영 대화 세트는 자동번역 챗봇 평가/개발에 활용 가능
데이터 구축 담당자
수행기관(주관) : ㈜솔트룩스파트너스

 

 
책임자명 전화번호 대표이메일 담당업무
신석환 02-2193-1723 nia@saltlux.com · AI 학습용 데이터 제작(뉴스와 지자체 사이트) 및 검수
수행기관(참여)
 
 
기관명 담당업무 기관명 담당업무
㈜에버트란 · AI 학습용 데이터 제작(뉴스일부, 한국문화, 조례)
· 시범서비스 "조례 자동번역 사이트" 개발
㈜플리토 · AI 학습용 데이터 제작(대화체와 구어체, 뉴스일부)