한국어 대화

한국어 대화

데이터셋명 한국어 대화
데이터 분야 음성/자연어 데이터 유형 텍스트
구축기관 한국과학기술정보연구원 데이터 관련 문의처 담당자명 이태환(더아이엠씨)
가공기관 전화번호 053-744-0707
검수기관 이메일 theimc@theimc.co.kr
구축 데이터량 50만 구축년도 2018년
버전 1.3 최종수정일자 2021.10.28
소개 소상공인 및 공공 민원 10개 분야에 대한 50만 건 이상의 대화를 제공하는 자연어 데이터 제공
주요 키워드 도메인 및 카테고리 정보, 의도, 엔티티, 시소러스, 대화 데이터, 챗봇, 인공지능 챗봇, 민원 상담 데이터
저작권 및 이용정책 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기]
데이터설명서 자료보기 구축활용가이드
샘플데이터 업데이트 중 교육활용동영상
저작도구 AI모델
데이터 변경이력
버전 일자 변경내용 비고
1.3 2021.10.28 데이터 비식별화 보완  
1.2 2021.09.27 데이터 비식별화 보완  
1.1 2021.07.30 데이터 품질 보완 후 개방  
1.0 2019.05.15 데이터 최초 개방  
필요성
  • 최근 딥러닝. 자연어처리 등 인공지능 기술의 발전과 더불어, 챗봇은 전 산업 분야에 적용할 수 있는 대표적인 인공지능 서비스로 평가받고 있음
  • 챗봇 서비스는 공공분야와 민간 대기업을 중심으로 활성화되고 있는 추세이나 챗봇 서비스의 핵심인 대화 데이터가 공개되지 않아, 일반인 및 소상공인 등 일반 수요자를 위한 양질의 대화 데이터 제공이 요구됨
  • 소상공인 및 공공민원 분야에 대한 대화 데이터를 구축함으로써, 챗봇 서비스를 위한 진입장벽을 낮추고 다양한 인공지능 서비스와 연계시킬 수 있는 기회 제공
     
구축내용
  • 소상공인 및 공공민원 10개 분야에 대한 50만건 이상의 대화(Dialog) 데이터 구축
  • 도메인 및 카테고리 정보, 의도, 엔티티, 시소러스를 포함하는 지식베이스
데이터 구조
  • 사용자의 입력의 의도를 파악하여 그에 따라 시스템이 응답 또는 행동을 하는 대화 생성/관리로 구현
  • 대화 데이터의 기본 구조는 Q&A(질의/응답)로 구성되며, 화자가 분리된 각각의 질문(Q)에 대하여 메인 의도(Main Intent)와 서브 의도(Sub Intent)로 구분하여 의도 정보 태깅
  • 대화 데이터의 각 문장은 사용자(손님) 질문(Main Question), 메인 질문에 추가적으로 필요한 시스템(점원)의 서브 질문(Sub Question), 서브 질문에 대한 사용자(손님) 응답(User Answer), 시스템(점원) 최종 응답(System Answer)로 구분
  • 각 문장에서 고유명사와 복합명사, 수식표현 등 사용자 의도가 반영된 개체(Entity)를 추출하여 시소러스 및 소상공인, 공공민원 분야에 대한 지식정보 구축
image
<한국어 대화데이터 분야 구조 이미지 예시>

 

활용예시
  • 소상공인 분야 맞춤형 인공지능 데이터 활용 및 챗봇 서비스 구축에 활용
  • 디지털 소외계층도 함께 누릴 수 있는 챗봇 생태계 조성을 위한 기반 데이터로 활용
  • 공공 분야의 민원 상담 데이터를 기반으로 인공지능 민원 상담 시스템의 고도화 및 실시간 민원 접수에 활용
데이터 구축 담당자
수행기관(주관) : 한국과학기술정보연구원