기계독해 소개
기본탭
데이터셋명 | 기계독해 | |||
---|---|---|---|---|
데이터 분야 | 음성/자연어 | 데이터 유형 | 텍스트 | |
구축기관 | 마인즈랩 | 데이터 관련 문의처 | 담당자명 | 안준환(마인즈랩) |
가공기관 | 전화번호 | 031-625-4349 | ||
검수기관 | 이메일 | pworks@mindslab.ai | ||
구축 데이터량 | 45만 | 구축년도 | 2018년 | |
버전 | 1.0 | 최종수정일자 | 2019.05.15 | |
소개 | 기계독해 개발에 활용될 수 있는 뉴스 본문 기반 학습 데이터셋 45만 건을 구축한 지식베이스 제공 | |||
주요 키워드 | 뉴스 본문 데이터셋, 정답 없는 데이터셋, 설명 가능 데이터셋, 표준 데이터셋, 질문, 단서, 답, 기계독해 | |||
저작권 및 이용정책 | 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기] | |||
데이터설명서 | 자료보기 | 구축활용가이드 | ||
샘플데이터 | 교육활용동영상 | |||
저작도구 | AI모델 |
데이터 변경이력
버전 | 일자 | 변경내용 | 비고 |
---|---|---|---|
1.0 | 2019.05.15 | 데이터 최초 개방 |
필요성
- 기존 AI질의응답 서비스의 기반이 되어온 지식베이스(Knowledge Base)가 가진 한계 및 비효율성 등을 극복하기 위해 딥러닝 기반의 정답 추론 기술 대두
- SQuAD 등 영문 데이터 셋은 다양하게 공개 되었지만 한국어 데이터 셋은 부족한 상황
구축내용
- 기계독해 개발에 활용될 수 있는 뉴스 본문 기반 학습 데이터셋 45만 건 구축
※ 기계독해(Machine Reading Comprehension, MRC) : 제시된 본문 안에서 질의에 대한 정답을 추론하는 딥러닝 기반 기술 - 데이터의 종류 및 포함 내용
데이터 종류 | 포함 내용 | 제공 방식 |
---|---|---|
표준 데이터셋 | 질문과 답(25만 건) | 파일 |
정답 없는 데이터셋 | 본문에서 답을 찾을 수 없는 질문(10만 건) | 파일 |
설명 가능 데이터셋 | 질문과 답과 그 답을 선택한 단서(10만 건) | 파일 |

데이터 구조
-
표준 데이터셋제목(title)
본문의 카테고리(source)
본문(context)
질문 번호(id)
육하원칙(classtype)
질문(question)
정답의 시작위치(answer_start)
정답(text)
-
정답 없는 데이터셋제목(title)
본문의 카테고리(source)
본문(context)
질문 번호(id)
육하원칙(classtype)
질문(question)
-
설명 가능 데이터셋제목(title)
본문의 카테고리(source)
본문(context)
질문 번호(id)
육하원칙(classtype)
질문(question)
정답의 시작위치(answer_start)
정답(text)
단서의 시작위치(clue_start)
단서(clue)
- 예시
{"data": [{
"source": 6,
"paragraphs": [{
"qas": [{
"question": "쎈 마이웨이 관련 기자간담회 누가 했어",
"id": "m4_278529-1",
"answers":[{
"answer_start": 0,
"text": "박영선"
}],
"clue":[{
"clue_start": 4,
"clue_text": "PD"
}],
"classtype": "work_who"
}],
"context": "박영선 PD는 18일 오후 서울 양천구 목동 SBS에서 모비딕의 토크 콘텐츠 쎈 마이웨이 관련 기자간담회를 열고 출연진에 신뢰를 드러냈다."
}],
"title": “1"
}
※한 본문에 대해 qas(질문 - 답)가 여러 개일 수 있음
※질문 번호(id) 생성규칙: [제작자]-[질문번호]_[고유질문일 경우 (1), 유사질문일 경우(2)]
- 본문 카테고리(source)의 기입형태 및 설명
기입형태 | 해당 본문 카테고리 |
---|---|
1 | 정치 |
2 | 경제 |
3 | 사회 |
4 | 생활 |
5 | IT/과학 |
6 | 연예 |
7 | 스포츠 |
8 | 문화 |
9 | 미용/건강 |
- 육하원칙(classtype)의 기입 형태 및 설명
기입형태 | 해당 본문 카테고리 |
---|---|
work_where | 어디서 |
work_who | 누가 |
work_what | 무엇을 |
work_how | 어떻게 |
work_why | 왜 |
work_when | 언제 |
활용예시
- 지식 베이스 QA엔진에서 답하지 못한 질문에 답하는 QA 엔진 개발
- 문서를 읽지 않아도 특정 질문에 대한 답을 알 수 있게 해주는 서비스 개발
데이터 구축 담당자