소상공인 고객 주문 질의-응답 텍스트

소상공인 고객 주문 질의-응답 텍스트

데이터셋명 소상공인 고객 주문 질의-응답 텍스트
데이터 분야 음성/자연어 데이터 유형 텍스트
구축기관 롯데정보통신 데이터 관련 문의처 담당자명 전시형(롯데정보통신)
가공기관 에이모 전화번호 02-2028-9010
검수기관 롯데정보통신, 에이모 이메일 sihyoung.jurn@lotte.net
구축 데이터량 500만 구축년도 2020년
버전 1.4 최종수정일자 2021.11.17
소개 무인 상점에서 고객의 질의에 답변 가능한 고객 응대 학습용 AI 텍스트 데이터
주요 키워드 소상공인, 고객, 상점, 주문, 질의응답, 무인상점, 챗봇
저작권 및 이용정책 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기]
데이터설명서 자료보기 구축활용가이드 자료보기
샘플데이터 업데이트 중 교육활용동영상 영상보기
저작도구 다운로드 AI모델 업데이트 중
데이터 변경이력
버전 일자 변경내용 비고
1.4 2021.11.17 데이터 비식별화 보완  
1.3 2021.10.28 데이터 비식별화 보완  
1.2 2021.10.13 데이터 품질 보완 및 추가 개방  
1.1 2021.09.29 데이터 품질 보완  
1.0 2021.06.25 데이터 최초 개방  
구축 목적
  • 무인상점 서비스 운영 시 발생할 수 있는 다양한 상황에서의 고객 질문과 그에 따른 답변으로 구성된 데이터 제공
활용 분야
  • 유통, 음식점 등 다양한 분야의 무인매장, 비대면 업무 등의 환경에서 활용
소개
  • 본 데이터는 소상공인이 활용할 수 있는 주제로 질의-응답을 이루는 문장 500만건으로 이루어져 있으며, 각 문장 별로 발화자, 상점카테고리, Q/A구분, 감성, 인텐트, 개체명 등의 태깅을 부가하여 구성했다.
  • 500만건의 데이터는 인공지능 모델 학습용도로는 한번에 활용하지 못할 만큼 거대한 양으로서, 연구자나 챗봇 기획자는 상점 카테고리, 대화 의도 등으로 데이터를 선별하여 사용해야 적절하다.
  • 이 데이터를 통해 고객이 질문하는 의도를 파악할 수 있으며 개체명 인식을 통해 보다 상세한 후속 액션을 지정하는 자동화가 가능하기 때문에 챗봇 서비스 등에 활요할 수 있다.
구축 내용 및 제공 데이터량
  • 수집 : 소상공인 상점에서 고객 질의-응답 대화를 직접 녹취하여 음성 파일 수집. 콜센터 녹취된 질의-응답 음성 파일 수집
  • 정제 : 음성 데이터를 텍스트로 가공, 개인정보 비식별화 처리
  • 가공 : 크라우드소싱 방식으로 질의-응답 텍스트 데이터 셋 추출 및 감성, 인텐트, 개체명 처리
  • 검증 : 크라우드소싱 방식으로 1차 검수 후 전문 검수자에 의한 2차 전수 검수 수행
구축 내용 및 제공 데이터량
데이터 출처 질의응답데이터 규모
(최종 산출물 기준)
도메인
콜센터 데이터 400만 건 질의응답 백화점, 홈쇼핑, e-commerce 등 유통관려
녹취 데이터 100만 건 질의응답 도.소매업, 숙박.음식업점, 수리, 기타개인서비스업, 보건업 등에 해당하는 약 20종 상점(한국표준산업분류 10차 기준)
대표도면
대표도면
IDX 발화자 발화문
1 c 얼마 이상 시켜야 무료배송이죠?
2 s 40000원 이상 시키시면 무료배송입니다.
대표도면
카테고리 QA번호 QA여부 감성 인텐트
슈퍼 4338 q m 배송_비용_질문
슈퍼 4338 a m 배송_비용_질문
대표도면
가격 수량 크기 장소 조직 사람
           
40000원          
대표도면
시간 날짜 상품명 상담번호 상담내순번
      4338 1
      4338 2
필요성
  • 자연어처리(NLP, Natural Language Processing) 기술이 발전하면서 비용효율적으로 24시간 365일 고객을 응대하는 서비스에 대한 수요가 늘고 있다. 고객을 응대하는 기술은 챗봇 기반 질의응답이나 자동응답 서비스로 구현하는 것이 보편적인 추세이다. 이러한 서비스의 기반기술인 인공지능 모델을 학습하는 용도인 고객 주문 질의응답 데이터를 롯데정보통신 컨소시엄이 구축했으며, 500만 건의 한국어 질문과 대답으로 구성되어 있다.
  • 고객 주문 질의응답 데이터는 직접 인공지능 모델을 학습하는 데에는 물론 카카오 채널과 같이 상점/기업을 대상으로 한 기존 챗봇 서비스에도 활용 가능하다. 한국에서 인기가 높은 카카오톡 기반 챗봇 서비스(카카오 I 오픈빌더)와 더불어 네이버 CLOVA 챗봇, IBM의 Watson Assitant와 같은 서비스에서 고객 의도를 잘 파악하도록 인공지능을 훈련하는 데에 쓸 수 있다.
데이터 구조
데이터 구조
항목 설명 타입 필수구분
IDX 질의응답 데이터 파일 내 고유 순서 번호 Num. Y
발화자 발화자 정보 (c: 고객 s: 점원) string Y
발화문 대화 텍스트 정보 string Y
카테고리 발화가 일어나는 상점 정보 string Y
QA번호 질의응답셋을 구분하는 정보 Num. Y
QA여부 질의문(q)인지 응답문(a)인지 표시 string Y
감성 텍스트별 감성 정보 (m: 중립, n: 부정, p: 긍정) string Y
인텐트 질의문 기준 발화문에 내재한 의도 string Y
개체명 NER(개체명인식)을 위한 개체 정보 string N
상담번호 대화 상황 구분 정보 Num. Y
상담내순번 상담 내 발화 순서 표시 Num. Y
데이터셋 구축 담당자
수행기관(주관) : 롯데정보통신
수행기관(주관)
책임자 전화번호 대표이메일 담당업무
전시형 02-2028-9010 sihyoung.jurn@lotte.net · 데이터 구축 사업 총괄
수행기관(참여)
수행기관(참여)
기관명 담당업무 기관명 담당업무
에이모 · 저작도구 개발, 데이터 가공 및 검수 케이원정보통신 · 질의응답 데이터 수집(녹취)
엘젠아이씨티 · 데이터 정제, AI 모델 개발