Loading...

소개

필요성

  • 최근 딥러닝. 자연어처리 등 인공지능 기술의 발전과 더불어, 챗봇은 전 산업 분야에 적용할 수 있는 대표적인 인공지능 서비스로 평가받고 있음
  • 챗봇 서비스는 공공분야와 민간 대기업을 중심으로 활성화되고 있는 추세이나 챗봇 서비스의 핵심인 대화 데이터가 공개되지 않아, 일반인 및 소상공인 등 일반 수요자를 위한 양질의 대화 데이터 제공이 요구됨
  • 소상공인 및 공공민원 분야에 대한 대화 데이터를 구축함으로써, 챗봇 서비스를 위한 진입장벽을 낮추고 다양한 인공지능 서비스와 연계시킬 수 있는 기회 제공

구축내용

  • 소상공인 및 공공민원 10개 분야에 대한 1만건 이상의 대화(Dialog) 데이터 구축
  • 도메인 및 카테고리 정보, 의도, 엔티티, 시소러스를 포함하는 지식베이스
  • 일관된 데이터 구축 프로세스의 적용을 위한 저작도구 개발 및 데이터 활용 검증을 위한 챗봇 프로토타입 개발 및 운영

한국어 대화데이터 구조

  • 사용자의 입력의 의도를 파악하여 그에 따라 시스템이 응답 또는 행동을 하는 대화 생성/관리로 구현
  • 대화 데이터의 기본 구조는 Q&A(질의/응답)로 구성되며, 화자가 분리된 각각의 질문(Q)에 대하여 메인 의도(Main Intent)와 서브 의도(Sub Intent)로 구분하여 의도 정보 태깅
  • 대화 데이터의 각 문장은 사용자(손님) 질문(Main Question), 메인 질문에 추가적으로 필요한 시스템(점원)의 서브 질문(Sub Question), 서브 질문에 대한 사용자(손님) 응답(User Answer), 시스템(점원) 최종 응답(System Answer)로 구분
  • 각 문장에서 고유명사와 복합명사, 수식표현 등 사용자 의도가 반영된 개체(Entity)를 추출하여 시소러스 및 소상공인, 공공민원 분야에 대한 지식정보 구축

<한국어 대화데이터 분야 구조 이미지 예시>

한국어 대화데이터 활용 예

  • 소상공인 분야 맞춤형 인공지능 데이터 활용 및 챗봇 서비스 구축에 활용
  • 디지털 소외계층도 함께 누릴 수 있는 챗봇 생태계 조성을 위한 기반 데이터로 활용
  • 공공 분야의 민원 상담 데이터를 기반으로 인공지능 민원 상담 시스템의 고도화 및 실시간 민원 접수에 활용

데이터셋 다운로드

대화데이터분야 다운로드

샘플데이터 다운로드 페이지