기계독해

필요성
  • 기존 AI질의응답 서비스의 기반이 되어온 지식베이스(Knowledge Base)가 가진 한계 및 비효율성 등을 극복하기 위해 딥러닝 기반의 정답 추론 기술 대두
  • SQuAD 등 영문 데이터 셋은 다양하게 공개 되었지만 한국어 데이터 셋은 부족한 상황
구축내용
  • 기계독해 개발에 활용될 수 있는 뉴스 본문 기반 학습 데이터셋 45만 건 구축
    ※ 기계독해(Machine Reading Comprehension, MRC) : 제시된 본문 안에서 질의에 대한 정답을 추론하는 딥러닝 기반 기술
  • 데이터의 종류 및 포함 내용 
특허 데이터 구축내용 표 (데이터 종류, 포함 내용, 제공방식)
데이터 종류 포함 내용 제공 방식
표준 데이터셋 질문과 답(25만 건) 파일
정답 없는 데이터셋 본문에서 답을 찾을 수 없는 질문(10만 건) 파일
설명 가능 데이터셋 질문과 답과 그 답을 선택한 단서(10만 건) 파일
image
<기계 독해 분야 구축 내용 설명 이미지 예시>

 

데이터 구조
  • 표준 데이터셋
    제목(title)
    본문의 카테고리(source)
    본문(context)
    질문 번호(id)
    육하원칙(classtype)
    질문(question)
    정답의 시작위치(answer_start)
    정답(text)
  • 정답 없는 데이터셋
    제목(title)
    본문의 카테고리(source)
    본문(context)
    질문 번호(id)
    육하원칙(classtype)
    질문(question)
  • 설명 가능 데이터셋
    제목(title)
    본문의 카테고리(source)
    본문(context)
    질문 번호(id)
    육하원칙(classtype)
    질문(question)
    정답의 시작위치(answer_start)
    정답(text)
    단서의 시작위치(clue_start)
    단서(clue)
  • 예시

{"data": [{
	"source": 6,
	"paragraphs": [{
		"qas": [{
			"question": "쎈 마이웨이 관련 기자간담회 누가 했어",
			"id": "m4_278529-1",
			"answers":[{
			"answer_start": 0,
			"text": "박영선"
		}],
		"clue":[{
			"clue_start": 4,
			"clue_text": "PD"
		}],
		"classtype": "work_who"
		}],
		"context": "박영선 PD는 18일 오후 서울 양천구 목동 SBS에서 모비딕의 토크 콘텐츠 쎈 마이웨이 관련 기자간담회를 열고 출연진에 신뢰를 드러냈다."
	}],
	"title": “1"
}

※한 본문에 대해 qas(질문 - 답)가 여러 개일 수 있음

※질문 번호(id) 생성규칙: [제작자]-[질문번호]_[고유질문일 경우 (1), 유사질문일 경우(2)]

 

 

  • 본문 카테고리(source)의 기입형태 및 설명
기입형태 해당 본문 카테고리
1 정치
2 경제
3 사회
4 생활
5 IT/과학
6 연예
7 스포츠
8 문화
9 미용/건강

 

 

  • 육하원칙(classtype)의 기입 형태 및 설명
기입형태 해당 본문 카테고리
work_where 어디서
work_who 누가
work_what 무엇을
work_how 어떻게
work_why
work_when 언제
활용예시
  • 지식 베이스 QA엔진에서 답하지 못한 질문에 답하는 QA 엔진 개발
  • 문서를 읽지 않아도 특정 질문에 대한 답을 알 수 있게 해주는 서비스 개발
데이터 구축 담당자
수행기관(주관) : ㈜마인즈랩