뉴스문서 요약 자연어 미들AI

한국어 뉴스 기사 문서에 대한 원문을 가장 잘 나타내는 3 개의 문장을 추출하여 요약하는 과제

데이터 설명

  • • 입출력
    • - Input : 문장별로 나뉜 법률 문서 원문 (예: [문장1, 문장2, ..., 문장K], K: 문서 길이)
    • - Output : 요약문에 포함될 문장 인덱스 3 개
  • • 데이터셋 구성 : zip 기준 총 약 32MB
  • • Train
    • - 28,784개의 법률 문서 아이디 ('id'), 원문('article_original'), 요약 인덱스('extractive')가 담긴 json 파일
  • • Test
    • - 3,347개의 법률 문서 아이디('id'), 원문('article_original')이 담긴 json 파일
  • • AI 허브 참고 데이터 : 문서요약 텍스트 (https://aihub.or.kr/aidata/8054)