논문자료 요약

논문자료 요약

데이터셋명 논문자료 요약
데이터 분야 음성/자연어 데이터 유형 텍스트
구축기관 바이브컴퍼니 데이터 관련 문의처 담당자명 정규상(나라지식정보)
가공기관 나라지식정보, 단아코퍼레이션 전화번호 02-3141-7644
검수기관 나라지식정보, 경북대학교 산학협력단, 연세대학교 산학협력단 이메일 qsang.j@gmail.com
구축 데이터량 35만 구축년도 2020년
버전 1.0 최종수정일자 2021.06.18
소개 요약문을 자동으로 생성하는 자료 요약 AI 기술 개발을 위한 논문 요약, 특허 명세서 요약 텍스트 데이터
주요 키워드 텍스트 요약, 논문 전체 요약, 논문 섹션별 요약, 메타 데이터, AI 챗봇
저작권 및 이용정책 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기]
데이터설명서 자료보기 구축활용가이드 자료보기
샘플데이터 다운로드 교육활용동영상 영상보기
저작도구 다운로드 AI모델 다운로드
데이터 변경이력
버전 일자 변경내용 비고
1.0 2021.06.18 데이터 최초 개방  
구축 목적
  • 다양한 주제의 한국어 학술논문 및 특허명세서에서 전체 요약문과 섹션별요약문을 도출해낼 수 있도록 인공지능을 훈련하기 위한 데이터셋
활용 분야
  • 논문 요약, 특허문서 요약 등 핵심내용을 신속하고 정확하게 파악할 수 있는 AI 요약기술 개발
주요 키워드
  • 논문요약, 특허요약, 생성요약, 한국형 문서요약 데이터셋
소개
  • 논문자료 요약 데이터는 OA논문과 특허명세서를 대상으로 구축함
    - 학술논문은 저작권 문제가 원천적으로 해결된 Open Access 한국어 학술 논문을 수집하여 논문의 전체(초록)와 섹션(논문 원문 중 섹션 일부 Paragraph)에 해당하는 요약문을 작성, 활용서비스 데이터 제공
    - 특허명세서의 전체 요약과 섹션(본문 중 섹션 일부 Paragraph)에 해당하는 요약문을 작성, 활용서비스 데이터 제공
구축 내용 및 제공 데이터량
  • 학술논문 18만 건에서 전체(생성) 요약 18만 건, 섹션별 (생성)요약 18만 건, 특허명세서 전체 (생성)요약 17만 건, 섹션별 (생성) 요약 17만 건 등 총 70만 건의 요약문 도출
  • (논문)인공지능 생성요약 알고리즘의 편향 방지를 위해 다양한 분야의 데이터를 구축대상으로 하여 구축하도록 하고, 각 데이터의 주제 분류, 논문저자, 날짜 등의 정보를 통해 골고루 구축되도록 구성함
  • (특허)인공지능 생성요약(Abstractive Summarization) 모델 구축을 위한 데이터셋 구축 작업
  • 특허명세서의 전체 요약문 및 섹션 요약문을 작성
  • 각 데이터의 출원번호, 출원인, 등록번호 등의 정보를 통해 골고루 구축되도록 구성함
  • 특허명세서 전체 원문 텍스트를 대상으로 요약문(300자 이내)을 작성하고 섹션요약은 특허명세서의 주요 섹션(발명의 방법, 발명의 원리 등)에 대한 섹션 요약을 실시
  • 생성 요약문의 길이는 요약대상 원문의 10~30% 이내로 요약하고 원천 데이터의 내용을 압축적으로 표현되도록 구축
구축 내용 및 제공 데이터량 표
데이터 종류 가공 수량 비고
학술논문-전체요약 180,000건 한국학술지인용색인(KRI)에서 OA 논문 수집
학술논문-섹션요약 180,000건
특허명세서-전체요약 170,000건 특허정보원 키플리스에서 벌크데이터 구매
특허명세서-섹션요약 170,000건
대표도면

논문요약 대표도면-1

논문요약 대표도면-2

필요성
  • 국내 AI 요약기술 개발과 관련된 다수의 연구들에서는 해당 텍스트의 제목을 본문의 요약문으로 가정하거나 학술논문, 특허 등의 제목 혹은 첫 문장 등을 요약문으로 가정하여 AI 요약기술을 위한 학습 데이터로 활용 중
  • 이러한 조작적 정의는 본문 전체의 핵심 내용이나 의무 전달을 온전히 포함하지 못하는 한계점을 내포
  • 선진국에서는 AI 요약기술 개발을 위한 다양한 문서요약 텍스트 데이터를 공개하고 있음
  • 이에 한국어를 이해하고 지식을 추출하여 새로운 가치를 창출할 수 있는 문서요약 AI 기술개발을 위하여 검증된 학습용 데이터를 구축하고자 함
데이터 구조
  • 데이터 구성
    - OA 논문
    논문요약-1

    - 특허명세서
    논문요약-2

 

  • 어노테이션 포맷
어노테이션 포맷
구분 요소명 유형 길이 필수여부
한글명 영문명
메타 데이터 아이디 doc_id string   Y
논문/특허명 title string   Y
발행/등록일자 date string   Y
파일명 reg_no string   N
한국연구재단/특허분류정보 ipc(class) string   Y
발행기관 issued_by string   Y
저자 author string   Y
전체요약 및 섹션요약 전체요약 구분 summary_entire string   Y
전체 원문(초록) orginal_text string   Y
전체 요약문 summary_text string   Y
섹션요약 구분 summary_section string   Y
섹션 단락 orginal_text string   Y
섹션 요약문 summary_text string   Y
데이터셋 구축 담당자
수행기관(주관) : 바이브컴퍼니
수행기관(주관)
책임자명 전화번호 대표이메일
이기황 02-565-0531 leekh@vaiv.kr
수행기관(참여)
수행기관(참여)
기관명 담당업무 기관명 담당업무
나라지식정보 · 원문 데이터 확보 및 제공
· 데이터 정제
· 생성 요약문 작성(크라우드소싱 활용)
· 온라인 작업 도구 제공(이지메타)
단아코퍼레이션 · 원문 데이터 확보 및 제공
· 데이터 정제
· 생성 요약문 작성(크라우드소싱 활용)
· 결과물 검수 및 검증
포티투마루 · AI 요약모델 및 활용 서비스 개발 연세대학교
산학협력단
· 품질검수 품질평가 서비스
경북대학교
산학협력단
· 품질검수 품질평가 서비스