문서요약 텍스트 AI 데이터셋
기본탭
구축목적
- 다양한 주제의 한국어 원문으로부터 추출요약문과 생성요약문을 도출해낼 수 있도록 인공지능을 훈련하기 위한 데이터셋
활용분야
- 뉴스기사 요약, 법률분서 요약, 사업보고서 요약 등 핵심내용을 신속하고 정확하게 파악할 수 있는 AI 요약기술 개발
주요 키워드
- 문서요약, 추출요약, 생성요약, 한국형 문서요약 데이터셋
소개
- 다양한 한국어 원문 데이터로부터 정제된 추출 및 생성 요약문을 도출하고 검증한 한국어 문서요약 AI 데이터셋으로, 기존 영문 문서요약 데이터셋과는 다른 원문 데이터의 다양성을 추구하며, 요약문 재사용에 제한이 없도록 저작권 문제를 완전히 해결한 원천 데이터를 확보
구축 내용 및 제공 데이터량
- 원문데이터 40만 건 (신문기사 30만 건, 기고문 3만 건, 잡지기사 1만 건, 논문 초록 3만 건, 법원 판결문 3만 건)을 활용하여 각각 추출요약 40만 건, 생성요약 40만 건, 총 80만 건의 요약문 도출
- 원문으로부터 변형 없이 그대로 선택된 3개 문장으로 추출요약문 생성
- 원문의 내용을 바탕으로 재작성된 생성요약문 생성
대표도면
필요성
- 국내 AI 요약기술 개발과 관련된 다수의 연구들에서는 해당 텍스트의 제목을 본문의 요약문으로 가정하거나 뉴스 기사의 제목 혹은 첫 문장을 전체 기사의 요약문으로 가정하여 AI 요약기술을 위한 학습 데이터로 활용 중
- 이러한 조작적 정의는 본문 전체의 핵심 내용이나 의무 전달을 온전히 포함하지 못하는 한계점을 내포
- 선진국에서는 AI 요약기술 개발을 위한 다양한 문서요약 텍스트 데이터를 공개하고 있음
- 이에 한국어를 이해하고 지식을 추출하여 새로운 가치를 창출할 수 있는 문서요약 AI 기술개발을 위하여 검증된 학습용 데이터를 구축하고자 함
데이터 구조
- 데이터 구성
- 어노테이션 포맷
No | 항목 | 길이 | 타입 | 필수여부 | ||
---|---|---|---|---|---|---|
한글명 | 영문명 | |||||
1 | 데이터셋 정보 | JsonObject | Y | |||
1-1 | 데이터셋 명 | name | String | Y | ||
1-2 | 데이터셋 전달일자ㅇ | delivery_date | String | Y | ||
2 | 문서 정보 | JsonObject | Y | |||
2-1 | 문서 번호 | id | String | Y | ||
2-2 | 카테고리 | category | String | Y | ||
2-3 | 매체 유형 | media_type | String | Y | ||
2-4 | 매체 구분 | media_sub_type | String | Y | ||
2-5 | 미디어 명 | media_name | String | Y | ||
2-6 | 본문길이 | size | String | Y | ||
2-7 | 본문글자수 | char_count | String | Y | ||
2-8 | 발행일시 | publish_date | String | Y | ||
2-9 | 제목 | title | String | Y | ||
3 | 본문(문단/문장) 정보 | text | Array | Y | ||
3-1 | 문단 | [ | Array | Y | ||
3-2 | 문장 | { | JsonObject | Y | ||
3-3 | 순번 | index | Integer | Y | ||
3-4 | 문장 | sentence | String | Y | ||
3-5 | 불용어 위치 정보 | highlight_indices | String | Y | ||
} | ||||||
] | ||||||
4 | 원문 평가 정보 | JsonObject | Y | |||
4-1 | 가독성 | readable | Integer | Y | ||
4-2 | 정확성 | accurate | Integer | Y | ||
4-3 | 정보성 | informative | Integer | Y | ||
4-4 | 신뢰성 | trustworthy | Integer | Y | ||
5 | 추출요약문 정보 | extractive | Array | Y | ||
6 | 생성요약문 정보 | abstractive | Array | Y |
데이터셋 구축 담당자
수행기관(주관) : 비플라이소프트
책임자명 | 전화번호 | 대표이메일 | 담당업무 |
---|---|---|---|
이경락 | 070-7091-7556 | ragie77@bflysoft.com | · 원문데이터 확보 및 제공 · 데이터구축 총괄 |
수행기관(참여)
기관명 | 담당업무 | 기관명 | 담당업무 |
---|---|---|---|
위고 | · 원문데이터 정제 | 테스트웍스 | · 추출 및 생성 요약문 작성 (크라우드소싱 활용) · 결과물 검수 및 검증 |
(주)에이아이닷엠 | · AI 응용서비스 기획 및 개발 · 응용서비스를 위한 AI 모델 개발 |
논문 인용 정보