문서내 정보 검색 모델 자연어 실전AI

뉴스 데이터의 문단과 질문에 따른 답변 세트를 학습, 주어진 테스트셋 문단 내에서의 질문에 대한 답을 검색, 출력하는 과제

데이터 설명

  • • 입출력
    • - Input : 텍스트 원문과 질문 (원문 1개에 대한 질문 개수는 불규칙)
    • - Output : 질문에 대한 답('answer'), 텍스트('text')와 해당 답의 원문 내 위치('answer_start')
  • • 데이터 구성
    • - zip 기준 총 약 39MB
  • • Train
    • - 33,119개의 원문('paragraphs')과 총 170,609개의 질문과 답 쌍('qas')이 담긴 json 파일
  • • Test
    • - 7,098개의 원문과 총 36,448개의 질문이 담긴 json 파일
  • • AI 허브 참고 데이터 : 기계독해 (https://aihub.or.kr/aidata/86)