법률문서 요약 모델 자연어 미들AI

한국어 법률 문서에 대한 원문을 가장 잘 나타내는 3개의 문장을 추출하여 요약하는 과제

데이터 설명

  • • 입출력
    • - Input : 문장별로 나뉜 법률 문서 원문 (예: [문장1, 문장2, ..., 문장K], K: 문서 길이)
    • - Output : 요약문에 포함될 문장 인덱스 3개
  • • 데이터 구성
    • - zip 기준 총 약 14MB
  • • Train
    • - 24,027개의 법률 문서 아이디 ('id'), 원문('article_original'), 요약 인덱스('extractive')가 담긴 csv 파일
  • • Test
    • - 3,004개의 법률 문서 아이디('id'), 원문('article_original')이 담긴 csv 파일
  • • AI 허브 참고 데이터 : 문서요약 텍스트 (https://aihub.or.kr/aidata/8054)