전문분야 말뭉치

전문분야 말뭉치

데이터셋명 전문분야 말뭉치
데이터 분야 음성/자연어 데이터 유형 텍스트
구축기관 포티투마루 데이터 관련 문의처 담당자명 정규상(나라지식정보)
가공기관 이지메타, 나라지식정보, 단아코퍼레이션 전화번호 02-3141-7644
검수기관 이지메타, 나라지식정보, 단아코퍼레이션, 유클리드소프트, 연세대학교 산학협력단 이메일 nara@narainformation.com
구축 데이터량 150만 건 구축년도 2020년
버전 1.0 최종수정일자 2021.06.18
소개 상대적으로 성능 확보가 어려운 전문 분야에 대한 자연어 처리(Natural Language Processing) 학습용 말뭉치 데이터 구축
주요 키워드 전문 분야, 구조화 데이터, 정보 추출, 전문 용어, 말뭉치
저작권 및 이용정책 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기]
데이터설명서 자료보기 구축활용가이드 자료보기
샘플데이터 다운로드 교육활용동영상 영상보기
저작도구 다운로드 AI모델 업데이트 중
데이터 변경이력
버전 일자 변경내용 비고
1.0 2021.06.18 데이터 최초 개방  
구축 목적
  • 디지털 데이터의 확산과 기술의 발전으로 각 기술과 분야별 전문용어가 폭발적 증가로 상대적으로 성능 확보가 어려운 전문분야에 대한 자연어 처리(Natural Language Processing)용 말뭉치 데이터 구축
활용 분야
  • 전문분야 데이터셋을 활용한 기술 및 연관 연구 검색, 통역/번역과 특허, 의료, 행정 서비스, 법률, 조례, 금융업 등의 산업 분야 활용
주요 키워드
  • 한국어 텍스트, 말뭉치, 전문분야, 개체명, 개체인식
소개
  • 본 과제에서 구축하는 전문문서는 학술 논문, 법령, 판례(판결문), 특허 자료 등으로 한정하며, 말뭉치 원본 데이터는 어느 정도 구조화된 체계를 갖춘 비정형 텍스트라고 할 수 있음
  • 예를 들어, 특허의 경우 발명 명칭, 요약, 청구항 등과 논문의 경우 제목, 초록, 본문 등의 구분이 가능하며, 해당 구분 내에서의 비정형 텍스트를 말뭉치 대상으로 삼음
  • AI를 활용한 기술 및 연관 연구 검색과 통역ㆍ번역 연구에의 활용을 위해 전문용어의 별도 식별 및 번역ㆍ통역 AI 학습을 위한 병렬 말뭉치로의 확대가 가능한 말뭉치 구조의 적용
  • 전문 데이터의 분야와 문서 구분(특허, 논문, 보고서 등)에 따른 용어 구현 특성이 반영되어 분야별 학습이 가능한 말뭉치의 구축
     

구축 내용 및 제공 데이터량
  • 말뭉치 학습용 데이터 셋은 아래의 기준으로 150만 건을 생성
    - 학술(논문) 자료 : 초록의 문장 단위를 기준으로 함
    - 법령 : 조문 기준
    - 판결문 : 문장 단위이며 문장이 지나치게 길 경우 5~100개 어휘로 이루어진 문장을 한 개의 말뭉치로 생성하며 전문용어의 추출 병행
    - 특허자료 : 요약문(초록) 문장단위, 청구항

     

    구축 내용 및 제공 데이터량
      문서건수 말뭉치건수 개체명건수 문서당 평균 개체명 말뭉치당 평균 개체명
    법령 6,356 217,592 3,358,788 528 15
    판례 6,396 445,308 2,208,034 345 5
    특허 71,796 780,580 9,442,396 132 12
    논문 19,217 131,179 766,545 40 6

     

  • 전문 문서 단위 말뭉치 150만 건 태깅
    전문 문서 단위 말뭉치 150만 건 태깅
    종류 수량 내역
    특허 자료 830,000 특허 데이터를 구매하여 이를 말뭉치 원본 데이터로 활용
    의안 자료 70,000 의안정보시스템을 크롤링하여 말뭉치 원본 데이터로 활용
    법령, 자치법규, 행정규칙 300,000 법령 및 법령 제・개정문, 행정규칙 및 제개정문, 자치법규를 api를 사용하거나 크롤링하여 말뭉치 원본 데이터로 활용
    논문 초록 300,000 논문 초록을 크롤링하여 말뭉치 원본 데이터로 활용
    합계 1,500,000
대표도면

필요성
  • 국내 AI 요약기술 개발과 관련된 다수의 연구들에서는 해당 텍스트의 제목을 본문의 요약문으로 가정하거나 뉴스 기사의 제목 혹은 첫 문장을 전체 기사의 요약문으로 가정하여 AI 요약기술을 위한 학습 데이터로 활용 중
  • 이러한 조작적 정의는 본문 전체의 핵심 내용이나 의무 전달을 온전히 포함하지 못하는 한계점을 내포
  • 선진국에서는 AI 요약기술 개발을 위한 다양한 문서요약 텍스트 데이터를 공개하고 있음
  • 이에 한국어를 이해하고 지식을 추출하여 새로운 가치를 창출할 수 있는 문서요약 AI 기술개발을 위하여 검증된 학습용 데이터를 구축하고자 함
데이터 구조
  • 데이터 구성
     

 

  • 어노테이션 포맷
    어노테이션 포맷 표
    구분 요소명 예시 유형


    한글 영문명
    메타
    데이터
    문서종류 doc_type 학술, 특허, 법령, 판례 string Y
    문서ID doc_id ART002057337 string Y
    자료 제목 title 재산분할 string Y
    일자 date 2018. 6. 22. string Y
    등록번호 reg_no 법령공포일, 특허등록일, 논문게재연도,
    판례사건번호
    string Y
    발행자 issued_by 기계공학회(논문), 대법원(판례) string N
    저자 author 최정일; 황선영 string N
    IPC코드 ipc B25J string N
    본문 문장속성 attr 특허: 요약, 청구항
    법령: 2 (제2조)
    string N
    청구항번호 claim_no 1, 2, 3, ... int N
    문장번호 sentno 1, 2, 3, ... int Y
    말뭉치 본문 text 본 논문은 디지털 신호처리용 VLSI의
    자동설계를 위한 SOCAS-DSP 시스템의
    설계와 개발 결과에 대하여 기술한다
    string Y
    개체명 번호 id 1, 2, 3, ... int Y
    개체명 entity 자동회피방법 string Y
    개체명 속성 type TM, QT (TTA개체명 태그 세트 및 태깅
    말뭉치 표준 적용)
    string Y
    개체명 시작 begin 0, 1, 2, ... int Y
    개체명 종료 end 3, 10, ... int Y
    개체명
    분류
    인물 PERSON(PS) 인명 string 1개







    지역 LOCATION(LC) 지역, 국가, 도시, 수도, 바다 등 string
    기관 단체 ORGANIZATION(OG) 경제, 교육, 군사 등의 기관 string
    인공물 ARTIFACTS(AF) 문화재, 건축물, 도로, 작품명 등 string
    날짜 DATE(DT) 날짜 기간, 절기, 달(월), 계절 등 string
    시간 TIME(TI) 시간, 기간, 시각, 분, 초 등 string
    제도 CIVILIZATION(CV) 민족, 종족, 제도, 언어, 직업 등 string
    동물 ANIMAL(AM) 포유류, 조류, 파충류, 양서류 등 string
    식물 PLANT(PT) 과일, 꽃, 나무, 풀 등 string
    수량 QUANTITY(QT) 무게, 길이, 넓이, 개수, 온 string
    학문 분야 STUDY_FIELD(FD) 철학, 의학, 예술, 사회과학 학파 string
    이론 THEORY(TR) 철학 이론/사상, 예술 이론/양식 string
    사건 EVENT(EV) 전쟁, 혁명, 스포츠 행사, 축제 string
    물질 MATERIAL(MT) 금속, 암석, 화학물, 원소 string
    용어 TERM(TM) 색, 방향, 질병, 이메일주소 string
데이터셋 구축 담당자
수행기관(주관) : 포티투마루
수행기관(주관)
책임자 전화번호 대표이메일 담당업무
김동환 02-6952-9201 bd@42maru.ai · 사업 총괄 관리
수행기관(참여)
수행기관(참여)
기관명 책임자명 전화번호 대표이메일 담당업무
나라지식정보 박분선 이사 02-3141-7644 nara@narainformation.com · 데이터 정제
· 전문분야 말뭉치 라벨링(크라우드소싱 활용)
· 결과물 검수 및 검증
단아코퍼레이션 박지혜 차장 070-4201-8500 dana.pjh24@gmail.com · 데이터 정제
· 전문분야 말뭉치 라벨링(크라우드소싱 활용)
· 결과물 검수 및 검증
이지메타 서민석 소장 02-584-3489 ezmeta@naver.com · 원문데이터 확보 및 제공
· 데이터 정제
· 전문분야 말뭉치 라벨링(크라우드소싱 활용)
· 온라인 작업도구(어노테이션 도구) 개발 및 운용
유클리드소프트 - - - ·  AI 요약모델 및 활용 서비스 개발
· 결과물 검수 및 검증
연세대학교
산학협력단
- - - · 품질검수 품질평가 서비스