한국어-영어 번역 말뭉치(기술과학) 소개
기본탭
데이터셋명 | 한국어-영어 번역 말뭉치(기술과학) | |||
---|---|---|---|---|
데이터 분야 | 음성/자연어 | 데이터 유형 | 텍스트 | |
구축기관 | 트위그팜 | 데이터 관련 문의처 | 담당자명 | 백선호(트위그팜) |
가공기관 | 트위그팜, 렉스코드, 네이버, TTA, 에프엔제이 | 전화번호 | 02-1833-5926 | |
검수기관 | 렉스코드, 네이버, TTA | 이메일 | ceo@twigfarm.net | |
구축 데이터량 | 150만건 | 구축년도 | 2020년 | |
버전 | 1.3 | 최종수정일자 | 2022.01.24 | |
소개 | 기술과학(인공지능, 빅데이터, IT, SNS, 의학, 특허 등) 분야 등 한-영 번역 정확도가 상대적으로 낮은 분야의 데이터 구축을 통해 AI 기반 번역 기술 개발에 활용할 수 있는 학습 데이터셋을 구축하여 보다 원활한 기술과학 분야 관련 정보 소통 도모 | |||
주요 키워드 | 기술과학, AI 기반 번역, 기술과학 분야 전문 번역기, 기술과학 분야 용어사전 개발, 기술과학 한영 말뭉치 | |||
저작권 및 이용정책 | 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기] | |||
데이터설명서 | 자료보기 | 구축활용가이드 | 자료보기 | |
샘플데이터 | 다운로드 | 교육활용동영상 | ||
저작도구 | AI모델 |
데이터 변경이력
버전 | 일자 | 변경내용 | 비고 |
---|---|---|---|
1.3 | 2022.01.24 | 데이터 추가 개방 | |
1.2 | 2021.08.02 | 데이터 추가 개방 | |
1.1 | 2021.07.20 | 데이터 추가 개방 | |
1.0 | 2021.06.18 | 데이터 최초 개방 |
구축 목적
- 기술 과학 분야 (ICT, 전기/전자/기계, 의학) 한-영 말뭉치 150만 문장 구축. 인공지능 번역 학습에 활용되기 위한 데이터셋
활용 분야
- ICT 기업의 기술문서 번역 지원, 수출 기업의 제품 현지화 업무 지원
주요 키워드
- 말뭉치, 한-영말뭉치, 기계번역 데이터셋
소개
- 특허정보원, 한국학술정보 등의 분야별 원천 데이터를 확보한 후 정제된 텍스트 추출하여 전문 번역가가 번역하고, ICT 전문가, 통번역대학원 교수진의 전문 감수를 통해 기술과학 150만개 한-영말뭉치 구축
구축 내용 및 제공 데이터량
- 특허정보원, 한국학술정보등의 분야별 원천 데이터를 확보한 후 기술과학(ICT, 전기/전가/기계, 의학) 150만개 한-영 말뭉치 구축
데이터셋 | 대분야 | 소분야 | 목표수량 |
---|---|---|---|
기술과학 | ICT(35만) | 통신 | 195,000 |
빅데이터 | 65,000 | ||
컴퓨터 | 90,000 | ||
전기(15만) | 에너지 | 53,000 | |
배터리 | 51,000 | ||
설비 | 46,000 | ||
전자(15만) | 반도체 | 52,000 | |
디스플레이 | 43,000 | ||
무선통신 | 55,000 | ||
기계(35만) | 재료공학 | 87,000 | |
열처리 | 47,000 | ||
의공학 | 101,000 | ||
동력기관 | 115,000 | ||
의학(50만) | 가정의학 | 125,000 | |
병리학 | 130,000 | ||
간호학 | 60,000 | ||
내과학 | 140,000 | ||
외과학 | 45,000 |
데이터셋 | 대분야 | 소분야 | 목표수량 |
---|---|---|---|
사회과학 | 법률(50만) | 법률연구 | 250,000 |
세법 | 80,000 | ||
민법 | 40,000 | ||
형법 | 60,000 | ||
판례 | 70,000 | ||
교육(40만) | 초중고등교육 | 200,000 | |
에듀테크 | 18,000 | ||
평생교육 | 55,000 | ||
대학교육 | 58,000 | ||
교육공학 | 69,000 | ||
경제(30만) | 경제/경영 | 190,000 | |
금융 | 68,000 | ||
조세/재정 | 42,000 | ||
문화(9만) | 출판 | 10,000 | |
공연 | 74,000 | ||
공예 | 6,000 | ||
관광(10만) | 관광학 | 60,000 | |
여행 | 20,000 | ||
호텔관광 | 20,000 | ||
예술(11만) | 음악 | 45,000 | |
미술 | 30,000 | ||
무용 | 35,000 |
대표도면
필요성
- 기계번역 서비스와 전문 번역인력을 연계할 수 있도록 응용 서비스를 제공하여 번역가 영역과 기술 영역간의 벨류 체인 형성 및 가치 극대화
- 기술적으로 중요한 위치를 차지하는 기술문서, 학술논문, 법률 문서, 관광 안내 홍보물 등을 빠르게 접근할 수 있는 번역 서비스를 제공함으로써 국내 지식 산업 발전에 기여
- 전문 분야별 한영, 영한 말뭉치를 구축함으로써 기계학습을 위한 방대한 데이터 구축 및 인공지능 기반의
- 전문 분야 기계번역 성능 향상 전문 분야별 기계 번역 결과를 학습 목적으로도 활용함으로써 일반 번역가의 역량 강화에 기여
데이터 구조
- 데이터 구성
수행기관 (참여) Key Description Type sn 데이터 번호 String file_name 정제된 원본 문서명 String data_set 기술과학/사회과학 구분 String domain 데이터 대분야 String subdomain 데이터 소분야 String source 원문 출처 String ko 한국어 문장 String mt 기계번역 문장 String en 영어 문장 String source_language 원문 언어 코드 String target_language 번역문 언어 코드 String license 라이선스 String style 문체 String - 어노테이션 포맷
수행기관 (참여) No 항목 타입 필수여부 한글명 영문명 1 데이터 data JsonArray Y 1-1 데이터 번호 sn String Y 1-2 정제된 원본 문서명 file_name String Y 1-3 기술과학/사회과학 구분 data_set String Y 1-4 데이터 대분야 domain String Y 1-5 데이터 소분야 subdomain String Y 1-6 원문 출처 source String Y 1-7 한국어 문장 ko String Y 1-8 기계번역 문장 mt String Y 1-9 영어 문장 en String Y 1-10 원문 언어 코드 source_language String Y 1-11 번역문 언어 코드 target_language String Y 1-12 라이선스 license String Y 1-13 문체 style String Y
데이터셋 구축 담당자
수행기관(주관) : 트위그팜
책임자명 | 전화번호 | 대표이메일 | 담당업무 |
---|---|---|---|
백선호 | 02-1833-5926 | ceo@twigfarm.net | · 데이터 구축, 정제 및 운영 총괄 · 응용 서비스 개발 |
수행기관(참여)
기관명 | 담당업무 | 기관명 | 담당업무 |
---|---|---|---|
렉스코드 | · 원천 데이터 정제 · 번역 및 기술 감수 · 말뭉치 데이터 구축 |
네이버 | · 말뭉치 데이터 품질 검증 |
TTA | · ICT 분야 기술 감수 · 저작도구 및 서비스 품질 검증 |
에프앤제이 | · 원천 데이터 정제 · 장애우 인력 교육 |