전문분야 한영 말뭉치 소개
기본탭
데이터셋명 | 전문분야 한영 말뭉치 | |||
---|---|---|---|---|
데이터 분야 | 음성/자연어 | 데이터 유형 | 텍스트 | |
구축기관 | 플리토 | 데이터 관련 문의처 | 담당자명 | 이정수(플리토) |
가공기관 | 플리토, 에버트란, 솔트룩스파트너스 | 전화번호 | 02-512-0162 | |
검수기관 | 플리토, 광운대학교, 온아시아 | 이메일 | help@flitto.com | |
구축 데이터량 | 150만 문장 이상 | 구축년도 | 2020년 | |
버전 | 1.0 | 최종수정일자 | 2021.06.18 | |
소개 | AI기반 자동 번역 기술 개발을 위해 고품질의 한-영 병렬 말뭉치 150만 이상의 문장을 학습용 번역 데이터로 구축하여 특화된 맞춤 번역기 서비스 제공 | |||
주요 키워드 | NMT, MTPE, 말뭉치, 크라우드소싱(집단지성), 생태계, 번역, 기계번역 | |||
저작권 및 이용정책 | 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기] | |||
데이터설명서 | 자료보기 | 구축활용가이드 | 자료보기 | |
샘플데이터 | 다운로드 | 교육활용동영상 | 영상보기 | |
저작도구 | 다운로드 | AI모델 | 다운로드 |
데이터 변경이력
버전 | 일자 | 변경내용 | 비고 |
---|---|---|---|
1.0 | 2021.06.18 | 데이터 최초 개방 |
구축목적
- 양질의 대규모 AI 학습용 번역 데이터를 구축/공개하여 중소벤처, 스타트업 등 민간의 AI기반 자동번역 기술개발 촉진과 이를 적용한 활용 서비스 출시로 AI 번역 산업의 자생적 선순환 생태계 도모
활용분야
- 다국어 가정 통신문 특화 번역 서비스, 판례 특화 전문 번역기 등
소개
- AI 번역 (신경망 번역 NMT) 성능 향상을 위한 고품질의 한-영 병렬 말뭉치 150만 문장 이상을 구축 이를 전문 분야에 특화된 맞춤 번역기 형태로 활용 서비스를 제공/구현함
구축 내용 및 제공 데이터량
- 데이터 구축 분야 8개
- 의료/보건, 금융/증시, 가정 통신문, 국제 스포츠 행사, IT기술, 축제/행사, 대법원 판례, 향토문화/음식 - 한글 원문 어절 수: 평균 15어절
- 수량: 병렬 말뭉치 150만개
- 분야별 세부 구축 수량 (단위-만)
- 의료-25 / 금융-20 / 가정 통신문-10 / 스포츠-20 / IT-20 / 축제-20 / 판례-15 / 향토문화-20 - 데이터 구축 예시
필요성
- 현재 대한민국은 AI 기술 연구 개발 및 활용의 시작 단계
- AI 데이터 축적/활용 미흡 (선진국[미국] 대비 약 2년의 기술력 차)
- AI 기술 개발을 위해 대규모 AI 학습용 데이터 확보 필수
- 중소·벤처 기업 수요는 있으나 구축 역량 부족
- AI 학습 데이터 자체 구축 시간/예산 부족 및 원천 데이터 확보의 어려움으로 정부 차원의 투자/지원 필요
데이터셋 구축 담당자
수행기관(주관) : 플리토
책임자명 | 전화번호 | 대표이메일 | 담당업무 |
---|---|---|---|
이정수 | 02-512-0162 | help@flitto.com | · 사업 관리 총괄 / 위탁용역 계약 및 업무 관리 · 크라우드소싱 한영 번역 및 감수 / 활용 서비스 개발 및 방안 도출 |
수행기관(참여)
기관명 | 담당업무 | 기관명 | 담당업무 |
---|---|---|---|
솔트룩스파트너스 | · 축제_행사 및 IT 관련 한-영 MTPE 번역 및 감수 / 과제 품질 관리 | 에버트란 | · ‘법원 종합법률정보 판례 및 의료 관련 한-영 MTPE 번역 및 감수 · 과제 저작 도구 관리_개발 및 개선성 |