일반상식 소개
기본탭
데이터셋명 | 일반상식 | |||
---|---|---|---|---|
데이터 분야 | 음성/자연어 | 데이터 유형 | 텍스트 | |
구축기관 | 마인즈랩 | 데이터 관련 문의처 | 담당자명 | 안준환(마인즈랩) |
가공기관 | 전화번호 | 031-625-4349 | ||
검수기관 | 이메일 | pworks@mindslab.ai | ||
구축 데이터량 | 15만 | 구축년도 | 2017년 | |
버전 | 1.0 | 최종수정일자 | 2018.01.02 | |
소개 | 한국어 위키백과 내 주요 문서 15만 개에 포함된 지식을 추출하여 객체(entity), 속성(attribute), 값(value)을 갖는 트리플 형식의 데이터 75만 개를 구축한 지식베이스 제공. | |||
주요 키워드 | 한국어, 위키백과, 일반상식, 지식베이스, WIKI 본문, 질의응답, 챗봇, 지능형 QA 서비스, 위키백과 데이터 | |||
저작권 및 이용정책 | 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기] | |||
데이터설명서 | 구축활용가이드 | |||
샘플데이터 | 교육활용동영상 | |||
저작도구 | AI모델 |
데이터 변경이력
버전 | 일자 | 변경내용 | 비고 |
---|---|---|---|
1.0 | 2018.01.02 | 데이터 최초 개방 |
필요성
- 최근 인공지능 비서, 질문에 답변하는 챗봇 등 사람의 자연어를 이해하고 이에 대한 답변을 제공하는 지능형 QA서비스가 사회 각 분야에 급속히 확산
- 법률분야는 국민 생활영위에 필수적인 분야이지만 높은 전문성으로 일반인이 이해하고, 접근하기 어려워 일반인, 기업인 등 일반 수요자 중심의 법률서비스 제공이 요구
- 최근 대두된 인공지능기술은 기계가 이해할 수 있는(machine readable) 데이터로 법령, 판례, 법률용어, 상담사례 등 다양한 지식자원을 이용함에 따라 법률 상담과 같은 전문영역의 서비스를 일반인이 쉽고, 저렴한 비용으로 제공 받을 수 있는 기회를 제공
구축내용
- 한국어 위키백과내 주요 문서 15만개에 포함된 지식을 추출하여 객체(entity), 속성(attribute), 값(value)을 갖는 트리플 형식의 데이터 75만개를 구축
- 일반상식 지식베이스에 포함된 데이터
데이터 종류 | 포함 내용 | 제공 방식 |
---|---|---|
일반상식 지식베이스 | WIKI 정보를 기반으로 한 entity, attribute, value 형태의 트리플 데이터 | 파일 다운로드 |
WIKI 본문에 대한 질문-답 쌍 |
WIKI 본문내용과 관련한 질문과 질문에 대응되는 WIKI 본문 내의 정답 쌍 | 파일 다운로드 |
무형대용어 복원 태깅 | 동사나 명사 표현 어구에서 일부 문장 성분(주어, 목적어, 관형어 등)이 미리 나타나 유추가 가능하거나 암묵적으로 알고 있기에 문장 내에서 생략된 해당 문장 성분을 찾아 복원한 데이터(WIKI 기반) |
파일 다운로드 |
상호참조 복원 태깅 | 임의의 개체(entity)에 대하여 다른 표현으로 사용되는 단어들을 찾아, 서로 같은 개체로 연결한 형태의 데이터(WIKI 기반) |
파일 다운로드 |
지식베이스 구조
- 일반상식분야 지식베이스는 N-Triples형태의 RDF로 구성되었으며, 일반인이 직관적으로 이해할 수 있고 쉽게 사용 가능하도록 entity-attribute-value값의 트리플 구조를 가짐
-entity : 위키피디아 표제어
-id : entity가 동형일 경우, 이를 구분하기 위한 값
-attribute : 표제어가 가질 수 있는 정보의 속성(평균 5개 내외)
-value : 위키피디아 표제어의 속성에 대응하는 값 - 질문-답 쌍 (Machine Reading Comprehension) 데이터셋은 정보를 담고 있는 문장, 문장내용과 관련있는 질문, 질문에 대한 정답을 각각 포함
- Paragraphs는 가장 상위의 클래스로 질문-답 세트와 질문-답 세트의 근거 단락인 context를 하위 클래스로 가짐
- 질문-답 세트의 클래스인 qas에는 question으로 표현되는 질문과 answers로 정의된 답변이 포함
- Answer_start는 Context에서 정답이 위치하는 글자 수 기준 인덱스를 나타내며 text와 id는 각각 context 내의 정답과 질문-답 세트의 고유 아이디를 의미
- 질문-답변-근거문장의 예시
{"paragraphs":
[{"qas": [{"question": "일반성면의 면적이 얼마야",
"answers": [{"answer_start": 84, "text": "19.41 km²"}], "id": "9_f9_wiki_2703-1"}],
"context": "일반성면은 동부 5개 면의 교통, 문화, 교육, 상업의 중심지로서 일찍부터 상업이 발달한 곳으로 날로 반성 재래시장이 번성하고 있는 고장이다.
면적은 19.41 km²로 진주시 16개 읍면동 중 가장 적은 면이지만 인근에 경남 산림환경연구원이 있어 그곳을 찾는 관광객이 이곳 일반성면을 지나간다.
2012년 1월 1일 기준으로 인구 3,233명 (남 : 1,556명, 여 : 1,677명) 1,413세대로 6개 법정리 19개 자연마을 31개 반으로 구성되어 있다. [1]"}],
"title": "일반성면"}
활용예시
- 일반상식 지식베이스를 챗봇 대화를 위한 추론용 데이터로 활용하여 사람의 질문에 대해 자연스러운 대답을 할 수 있는 QA(Question-Answering) 챗봇의 개발 및 개선에 활용
데이터 구축 담당자