한국어 대화 소개
기본탭
데이터셋명 | 한국어 대화 | |||
---|---|---|---|---|
데이터 분야 | 음성/자연어 | 데이터 유형 | 텍스트 | |
구축기관 | 한국과학기술정보연구원 | 데이터 관련 문의처 | 담당자명 | 이태환(더아이엠씨) |
가공기관 | 전화번호 | 053-744-0707 | ||
검수기관 | 이메일 | theimc@theimc.co.kr | ||
구축 데이터량 | 50만 | 구축년도 | 2018년 | |
버전 | 1.3 | 최종수정일자 | 2021.10.28 | |
소개 | 소상공인 및 공공 민원 10개 분야에 대한 50만 건 이상의 대화를 제공하는 자연어 데이터 제공 | |||
주요 키워드 | 도메인 및 카테고리 정보, 의도, 엔티티, 시소러스, 대화 데이터, 챗봇, 인공지능 챗봇, 민원 상담 데이터 | |||
저작권 및 이용정책 | 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기] | |||
데이터설명서 | 자료보기 | 구축활용가이드 | ||
샘플데이터 | 업데이트 중 | 교육활용동영상 | ||
저작도구 | AI모델 |
데이터 변경이력
버전 | 일자 | 변경내용 | 비고 |
---|---|---|---|
1.3 | 2021.10.28 | 데이터 비식별화 보완 | |
1.2 | 2021.09.27 | 데이터 비식별화 보완 | |
1.1 | 2021.07.30 | 데이터 품질 보완 후 개방 | |
1.0 | 2019.05.15 | 데이터 최초 개방 |
필요성
- 최근 딥러닝. 자연어처리 등 인공지능 기술의 발전과 더불어, 챗봇은 전 산업 분야에 적용할 수 있는 대표적인 인공지능 서비스로 평가받고 있음
- 챗봇 서비스는 공공분야와 민간 대기업을 중심으로 활성화되고 있는 추세이나 챗봇 서비스의 핵심인 대화 데이터가 공개되지 않아, 일반인 및 소상공인 등 일반 수요자를 위한 양질의 대화 데이터 제공이 요구됨
- 소상공인 및 공공민원 분야에 대한 대화 데이터를 구축함으로써, 챗봇 서비스를 위한 진입장벽을 낮추고 다양한 인공지능 서비스와 연계시킬 수 있는 기회 제공
구축내용
- 소상공인 및 공공민원 10개 분야에 대한 50만건 이상의 대화(Dialog) 데이터 구축
- 도메인 및 카테고리 정보, 의도, 엔티티, 시소러스를 포함하는 지식베이스
데이터 구조
- 사용자의 입력의 의도를 파악하여 그에 따라 시스템이 응답 또는 행동을 하는 대화 생성/관리로 구현
- 대화 데이터의 기본 구조는 Q&A(질의/응답)로 구성되며, 화자가 분리된 각각의 질문(Q)에 대하여 메인 의도(Main Intent)와 서브 의도(Sub Intent)로 구분하여 의도 정보 태깅
- 대화 데이터의 각 문장은 사용자(손님) 질문(Main Question), 메인 질문에 추가적으로 필요한 시스템(점원)의 서브 질문(Sub Question), 서브 질문에 대한 사용자(손님) 응답(User Answer), 시스템(점원) 최종 응답(System Answer)로 구분
- 각 문장에서 고유명사와 복합명사, 수식표현 등 사용자 의도가 반영된 개체(Entity)를 추출하여 시소러스 및 소상공인, 공공민원 분야에 대한 지식정보 구축

활용예시
- 소상공인 분야 맞춤형 인공지능 데이터 활용 및 챗봇 서비스 구축에 활용
- 디지털 소외계층도 함께 누릴 수 있는 챗봇 생태계 조성을 위한 기반 데이터로 활용
- 공공 분야의 민원 상담 데이터를 기반으로 인공지능 민원 상담 시스템의 고도화 및 실시간 민원 접수에 활용
데이터 구축 담당자