한국어-영어 번역 말뭉치(기술과학)

한국어-영어 번역 말뭉치(기술과학)

데이터셋명 한국어-영어 번역 말뭉치(기술과학)
데이터 분야 음성/자연어 데이터 유형 텍스트
구축기관 트위그팜 데이터 관련 문의처 담당자명 백선호(트위그팜)
가공기관 트위그팜, 렉스코드, 네이버, TTA, 에프엔제이 전화번호 02-1833-5926
검수기관 렉스코드, 네이버, TTA 이메일 ceo@twigfarm.net
구축 데이터량 150만건 구축년도 2020년
버전 1.2 최종수정일자 2021.08.02
소개 기술과학(인공지능, 빅데이터, IT, SNS, 의학, 특허 등) 분야 등 한-영 번역 정확도가 상대적으로 낮은 분야의 데이터 구축을 통해 AI 기반 번역 기술 개발에 활용할 수 있는 학습 데이터셋을 구축하여 보다 원활한 기술과학 분야 관련 정보 소통 도모
주요 키워드 기술과학, AI 기반 번역, 기술과학 분야 전문 번역기, 기술과학 분야 용어사전 개발, 기술과학 한영 말뭉치
저작권 및 이용정책 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기]
데이터설명서 자료보기 구축활용가이드 자료보기
샘플데이터 다운로드 교육활용동영상
저작도구 AI모델
데이터 변경이력
버전 일자 변경내용 비고
1.2 2021.08.02 데이터 추가 개방  
1.1 2021.07.20 데이터 추가 개방  
1.0 2021.06.18 데이터 최초 개방  
구축 목적
  • 기술 과학 분야 (ICT, 전기/전자/기계, 의학) 한-영 말뭉치 150만 문장 구축. 인공지능 번역 학습에 활용되기 위한 데이터셋
활용 분야
  • ICT 기업의 기술문서 번역 지원, 수출 기업의 제품 현지화 업무 지원
주요 키워드
  • 말뭉치, 한-영말뭉치, 기계번역 데이터셋
소개
  • 특허정보원, 한국학술정보 등의 분야별 원천 데이터를 확보한 후 정제된 텍스트 추출하여 전문 번역가가 번역하고, ICT 전문가, 통번역대학원 교수진의 전문 감수를 통해 기술과학 150만개 한-영말뭉치 구축
     

구축 내용 및 제공 데이터량
  • 특허정보원, 한국학술정보등의 분야별 원천 데이터를 확보한 후 기술과학(ICT, 전기/전가/기계, 의학) 150만개 한-영 말뭉치 구축
구축 내용 및 제공 데이터량
데이터셋 대분야 소분야 목표수량
기술과학 ICT(35만) 통신 195,000
빅데이터 65,000
컴퓨터 90,000
전기(15만) 에너지 53,000
배터리 51,000
설비 46,000
전자(15만) 반도체 52,000
디스플레이 43,000
무선통신 55,000
기계(35만) 재료공학 87,000
열처리 47,000
의공학 101,000
동력기관 115,000
의학(50만) 가정의학 125,000
병리학 130,000
간호학 60,000
내과학 140,000
외과학 45,000
구축 내용 및 제공 데이터량
데이터셋 대분야 소분야 목표수량
사회과학 법률(50만) 법률연구 250,000
세법 80,000
민법 40,000
형법 60,000
판례 70,000
교육(40만) 초중고등교육 200,000
에듀테크 18,000
평생교육 55,000
대학교육 58,000
교육공학 69,000
경제(30만) 경제/경영 190,000
금융 68,000
조세/재정 42,000
문화(9만) 출판 10,000
공연 74,000
공예 6,000
관광(10만) 관광학 60,000
여행 20,000
호텔관광 20,000
예술(11만) 음악 45,000
미술 30,000
무용 35,000
대표도면

필요성
  • 기계번역 서비스와 전문 번역인력을 연계할 수 있도록 응용 서비스를 제공하여 번역가 영역과 기술 영역간의 벨류 체인 형성 및 가치 극대화
  • 기술적으로 중요한 위치를 차지하는 기술문서, 학술논문, 법률 문서, 관광 안내 홍보물 등을 빠르게 접근할 수 있는 번역 서비스를 제공함으로써 국내 지식 산업 발전에 기여
  • 전문 분야별 한영, 영한 말뭉치를 구축함으로써 기계학습을 위한 방대한 데이터 구축 및 인공지능 기반의
  • 전문 분야 기계번역 성능 향상 전문 분야별 기계 번역 결과를 학습 목적으로도 활용함으로써 일반 번역가의 역량 강화에 기여
데이터 구조
  • 데이터 구성
    수행기관 (참여)
    Key Description Type
    sn 데이터 번호 String
    file_name 정제된 원본 문서명 String
    data_set 기술과학/사회과학 구분 String
    domain 데이터 대분야 String
    subdomain 데이터 소분야 String
    source 원문 출처 String
    ko 한국어 문장 String
    mt 기계번역 문장 String
    en 영어 문장 String
    source_language 원문 언어 코드 String
    target_language 번역문 언어 코드 String
    license 라이선스 String
    style 문체 String

     

  • 어노테이션 포맷
    수행기관 (참여)
    No 항목 타입 필수여부
    한글명 영문명
    1 데이터 data JsonArray Y
    1-1 데이터 번호 sn String Y
    1-2 정제된 원본 문서명 file_name String Y
    1-3 기술과학/사회과학 구분 data_set String Y
    1-4 데이터 대분야 domain String Y
    1-5 데이터 소분야 subdomain String Y
    1-6 원문 출처 source String Y
    1-7 한국어 문장 ko String Y
    1-8 기계번역 문장 mt String Y
    1-9 영어 문장 en String Y
    1-10 원문 언어 코드 source_language String Y
    1-11 번역문 언어 코드 target_language String Y
    1-12 라이선스 license String Y
    1-13 문체 style String Y
데이터셋 구축 담당자
수행기관(주관) : 트위그팜
데이터셋 구축 담당자
책임자명 전화번호 대표이메일 담당업무
백선호 02-1833-5926 ceo@twigfarm.net · 데이터 구축, 정제 및 운영 총괄
· 응용 서비스 개발
수행기관(참여)
수행기관 (참여)
기관명 담당업무 기관명 담당업무
렉스코드 · 원천 데이터 정제
· 번역 및 기술 감수
· 말뭉치 데이터 구축
네이버 · 말뭉치 데이터 품질 검증
TTA · ICT 분야 기술 감수
· 저작도구 및 서비스 품질 검증
에프앤제이 · 원천 데이터 정제
· 장애우 인력 교육