Loading...

소개

필요성

  • 최근 인공지능 비서, 질문에 답변하는 챗봇 등 사람의 자연어를 이해하고 이에 대한 답변을 제공하는 지능형 QA서비스가 사회 각 분야에 급속히 확산
  • 현재 QA시스템을 위해서는 인공지능 엔진 등이 답변을 추론하기 위해 필요한 지식과 정보를 제공하는 지식베이스(knowledgebase)가 필요
  • 인간과 인공지능이 자연스러운 대화를 이어가기 위해 일반인들이 질문할 수 있는 보편적 상식에 대한 시멘틱 데이터베이스의 구축 필요

구축내용

  • 한국어 위키백과내 주요 문서 16만개에 포함된 지식을 추출하여 객체(entity), 속성(attribute), 값(value)을 갖는 트리플 형식의 데이터 75만개를 구축
  • 일반상식 지식베이스에 포함된 데이터
데이터 종류 포함 내용 제공 방식
일반상식 지식베이스 WIKI 정보를 기반으로 한 entity, attribute, value 형태의 트리플 데이터 파일 다운로드
WIKI 본문에 대한 질문-답 쌍 WIKI 본문내용과 관련한 질문과 질문에 대응되는 WIKI 본문 내의 정답 쌍 파일 다운로드
무형대용어 복원 태깅 동사나 명사 표현 어구에서 일부 문장 성분(주어, 목적어, 관형어 등)이 미리 나타나 유추가 가능하거나 암묵적으로 알고 있기에 문장 내에서 생략된 해당 문장 성분을 찾아 복원한 데이터(WIKI 기반) 파일 다운로드
상호참조 복원 태깅 임의의 개체(entity)에 대하여 다른 표현으로 사용되는 단어들을 찾아, 서로 같은 개체로 연결한 형태의 데이터(WIKI 기반) 파일 다운로드

일반상식 지식베이스 구조

  • 일반상식분야 지식베이스는 N-Triples형태의 RDF로 구성되었으며, 일반인이 직관적으로 이해할 수 있고 쉽게 사용 가능하도록 entity-attribute-value값의 트리플 구조를 가짐
    • -entity : 위키피디아 표제어
    • -id : entity가 동형일 경우, 이를 구분하기 위한 값
    • -attribute : 표제어가 가질 수 있는 정보의 속성(평균 5개 내외)
    • -value : 위키피디아 표제어의 속성에 대응하는 값
  • 질문-답 쌍 (Machine Reading Comprehension) 데이터셋은 정보를 담고 있는 문장, 문장내용과 관련있는 질문, 질문에 대한 정답을 각각 포함
  • Paragraphs는 가장 상위의 클래스로 질문-답 세트와 질문-답 세트의 근거 단락인 context를 하위 클래스로 가짐
  • 질문-답 세트의 클래스인 qas에는 question으로 표현되는 질문과 answers로 정의된 답변이 포함
  • Answer_start는 Context에서 정답이 위치하는 글자 수 기준 인덱스를 나타내며 text와 id는 각각 context 내의 정답과 질문-답 세트의 고유 아이디를 의미
  • 질문-답변-근거문장의 예시

{"paragraphs": [{"qas": [{"question": "다테 기미코가 최초로 은퇴 선언을 한게 언제지", "answers":[{"answer_start": 260, "text": "1996년 9월 24일"}], "id": "9_f2_wiki_2822-1"}], "context": "재팬 오픈에서 4회 우승하였으며, 통산 단식 200승 이상을 거두었다. 1994년 생애 최초로 세계 랭킹 10위권에 진입하였다. 1992년에는 WTA로부터 '올해 가장 많은 향상을 보여준 선수상'(Most Improved Player Of The Year)을 수여받았으며, 일본 남자 패션 협회(Japan Men's Fashion Association)는 그녀를 '가장 패셔너블한 선수'(Most Fashionable)로 칭했다. 생애 두 번째 올림픽 참가 직후인 1996년 9월 24일 최초로 은퇴를 선언하였다. 이후 12년만인 2008년 4월에 예상치 못한 복귀 선언을 하고 투어에 되돌아왔다. 2008년 6월 15일 도쿄 아리아케 인터내셔널 여자 오픈에서 복귀 후 첫 우승을 기록했으며, 2009년 9월 27일에는 한국에서 열린 한솔 코리아 오픈 대회에서 우승 하면서 복귀 후 첫 WTA 투어급 대회 우승을 기록했다."}], "title": “다테_기미코"}

일반상식 지식베이스 활용예

  • 일반상식 지식베이스를 챗봇 대화를 위한 추론용 데이터로 활용하여 사람의 질문에 대해 자연스러운 대답을 할 수 있는 QA(Question-Answering) 챗봇의 개발 및 개선에 활용

데이터셋 다운로드

일반상식분야 다운로드