Loading...

소개

필요성

  • 기존 AI질의응답 서비스의 기반이 되어온 지식베이스(Knowledge Base)가 가진 한계 및 비효율성 등을 극복하기 위해 딥러닝 기반의 정답 추론 기술 대두
  • SQuAD 등 영문 데이터 셋은 다양하게 공개 되었지만 한국어 데이터 셋은 부족한 상황

구축내용

  • 기계독해 개발에 활용될 수 있는 뉴스 본문 기반 학습 데이터셋 45만 건 구축
    ※ 기계독해(Machine Reading Comprehension, MRC) : 제시된 본문 안에서 질의에 대한 정답을 추론하는 딥러닝 기반 기술
  • 데이터의 종류 및 포함 내용
데이터 종류 포함 내용 제공 방식
표준 데이터셋 질문과 답 (25만 건) 파일 다운로드
정답 없는 데이터셋 본문에서 답을 찾을 수 없는 질문 (10만 건) 파일 다운로드
설명 가능 데이터 셋 질문과 답과 그 답을 선택한 단서 (10만 건) 파일 다운로드

<기계 독해 분야 구축 내용 설명 이미지 예시>

구축 내용 설명

  • 표준 데이터셋
    • 제목(title)
    • 본문의 카테고리(source)
    • 본문(context)
    • 질문 번호(id)
    • 육하원칙(classtype)
    • 질문(question)
    • 정답의 시작위치(answer_start)
    • 정답(text)

  • 정답 없는 데이터셋
    • 제목(title)
    • 본문의 카테고리(source)
    • 본문(context)
    • 질문 번호(id)
    • 육하원칙(classtype)
    • 질문(question)

  • 설명 가능 데이터셋
    • 제목(title)
    • 본문의 카테고리(source)
    • 본문(context)
    • 질문 번호(id)
    • 육하원칙(classtype)
    • 질문(question)
    • 정답의 시작위치(answer_start)
    • 정답(text)
    • 단서의 시작위치(clue_start)
    • 단서(clue)
  • 예시
  • {"data": [{"source": 6,
    "paragraphs": [{"qas": [{"question": "쎈 마이웨이 관련 기자간담회 누가 했어", "id": "m4_278529-1", "answers":[{"answer_start": 0, "text": "박영선" }], "clue":[{"clue_start": 4, "clue_text": "PD" }], "classtype": "work_who" }], "context": "박영선 PD는 18일 오후 서울 양천구 목동 SBS에서 모비딕의 토크 콘텐츠 쎈 마이웨이 관련 기자간담회를 열고 출연진에 신뢰를 드러냈다."}], "title": “1"}

    ※ 한 본문에 대해 qas(질문 - 답)가 여러 개일 수 있음
    ※ 질문 번호(id) 생성규칙: [제작자]-[질문번호]_[고유질문일 경우 (1), 유사질문일 경우(2)]

    ※ 본문 카테고리(source)의 기입형태 및 설명
    기입형태 해당 본문 카테고리
    1 정치
    2 경제
    3 사회
    4 생활
    5 IT/과학
    6 연예
    7 스포츠
    8 문화
    9 미용/건강
    ※ 육하원칙(classtype)의 기입 형태 및 설명
    기입형태 해당 본문 카테고리
    work_where 어디서
    work_who 누가
    work_what 무엇을
    work_how 어떻게
    work_why
    work_when 언제

활용 예

  • 지식 베이스 QA엔진에서 답하지 못한 질문에 답하는 QA 엔진 개발
  • 문서를 읽지 않아도 특정 질문에 대한 답을 알 수 있게 해주는 서비스 개발

데이터셋 다운로드

기계독해분야 다운로드