한국어-영어 번역(병렬) 말뭉치 AI데이터
활용분야
산업분야
- 자동번역을 글로벌 쇼핑, 커뮤니티 서비스에 활용
- 서비스로 수집한 말뭉치를 추가 학습에 활용
연구분야
- 공개 한영 말뭉치를 활용하여 고품질 AI 번역 엔진 개발
- 다양한 언어 지능 기술 개발에 활용
- 한영 대화 세트는 자동번역 챗봇 평가/개발에 활용 가능
구축량
한국어-영어 160만 문장의 번역 말뭉치
- 문어체 한영 번역 110만 문장(뉴스 80만, 정부 웹사이트 컨텐츠 10만, 조례 10만, 한국문화 10만)
- 구어체 한영 번역 50만 문장(구어체 40만, 대화체 10만)
대표 도면

필요성
-
민간/공공기관 자동 번역기 개발의 기초 데이터 가치 발현
-
기계번역학계 연구 자료의 수요
-
자동번역 기반 크라우드소싱 사업 활용
구축내용
- AI 번역엔진 개발을 위한 학습용 문장 구축
분야 | 설명 | 수량 |
---|---|---|
뉴스 | 뉴스 텍스트 | 80만 문장 |
정부 웹사이트/저널 | 정부/지자체 홈페이지,간행물 | 10만 문장 |
법률 | 행정 규칙,자치 법규 | 10만 문장 |
한국문화 | 한국 역사,문화 콘텐츠 | 10만 문장 |
구어체 | 자연스러운 구어체 문장 | 40만 문장 |
대화체 | 상황/시나리오 기반 대화 세트 | 10만 문장 |
합계 | 160만 문장 |
- 말뭉치 구축 프로그램 공개
- 법률(조례)번역 시범서비스 공개
데이터 구조
- 구축 데이터는 엑셀 파일(*.xlsx)로 제공, 번역 DB를 다운받아 활용 가능
- 데이터의 모든 문장에는 문장번호를 부착하여 관리 용이
구분 | 문장번호 | 구분 | 출처 | 특성 |
---|---|---|---|---|
뉴스 | ○ | 분야(3단계) | 기사 url | 언론사, 기사 작성일 |
웹사이트 | ○ | - | url | |
법률 | ○ | 지자체 | ||
한국문화 | ○ | 분야 | url,출판물 | |
구어체 | ○ | - | ||
대화체 | ○ | 분류/상황 | 대화세트/화자 |
데이터 구축 담당자
수행기관(주관) : ㈜솔트룩스파트너스
책임자명 | 전화번호 | 대표이메일 | 담당업무 |
---|---|---|---|
신석환 | 02-2193-1723 | nia@saltlux.com | · AI 학습용 데이터 제작(뉴스와 지자체 사이트) 및 검수 |
수행기관(참여)
기관명 | 담당업무 | 기관명 | 담당업무 |
---|---|---|---|
㈜에버트란 | · AI 학습용 데이터 제작(뉴스일부, 한국문화, 조례) · 시범서비스 "조례 자동번역 사이트" 개발 |
㈜플리토 | · AI 학습용 데이터 제작(대화체와 구어체, 뉴스일부) |
가이드라인 다운로드