민원(콜센터) 질의-응답

민원(콜센터) 질의-응답

데이터셋명 민원(콜센터) 질의-응답
데이터 분야 음성/자연어 데이터 유형 텍스트, 오디오
구축기관 포티투마루 데이터 관련 문의처 담당자명 지민호(KT알파(구. KT하이텔))
가공기관 피플앤드테크놀러지, 어빌리티시스템즈 전화번호 02-3289-2602
검수기관 피플앤드테크놀러지, 어빌리티시스템즈, 케이티하이텔 이메일 mino.ji@kt.com
구축 데이터량 440시간 (음성) 구축년도 2020년
버전 1.0 최종수정일자 2021.06.25
소개 콜센터(민원) 업무의 효율호를 위해 AI 기술을 활용한 ICC(Intelligent Contact Center) 관련 기술 개발에 활용할 수 있는 상담 내역 질의응답 학습데이터셋 구축
주요 키워드 ICC(Intelligent Contact Center), 질의응답, 음성데이터, 정형데이터, 비정형데이터, 텍스트데이터, 상담내용 요약, 상담카테고리 자동분류, 고객정보 자동 Blur 처리, AI 상담
저작권 및 이용정책 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기]
데이터설명서 자료보기 구축활용가이드 자료보기
샘플데이터 업데이트 중 교육활용동영상 영상보기
저작도구 다운로드 AI모델 다운로드
※ 본 데이터에 포함된 이름, 주소, 전화번호, 상황 등은 모두 창작된 것으로 실제와 어떠한 관련이 없음을 알려드립니다.
데이터 변경이력
버전 일자 변경내용 비고
1.0 2021.06.25 데이터 최초 개방  
구축 목적
  • 상담 업무 효율화
    - 상담원들이 단순 상담 외에 전문 상담에 집중하여 원활하게 업무가 진행될 수 있도록 상담사의 업무를 보조할 수 있는 서비스 구축을 위함.
활용 분야
  • 고객 상담 콜봇 서비스 구축
    - 기존 상담사의 단순 업무를 보조하는 협력 콜봇 모델 구축
    - 간단한 질문에 답하고 주문까지 완료할 수 있는 홈쇼핑 상담모델
    - 고객이 여러 가지 질문에 바로 대응할 수 있는 상담모델 구축
소개
  • 민간기업, 공공기관으로 카테고리를 나누어 데이터 선정
    1. 민간기업
    - K쇼핑 (대화쌍 55만쌍, 음성데이터 분량 220시간 이상)
    - 금융보험 (대화쌍 20만쌍, 음성데이터 분량 80시간 이상)
    2. 공공기관
    - 질병관리본부 (대화쌍 25만쌍, 음성데이터 분량 100시간 이상)
    - 다산콜센터 (대화쌍 10만쌍, 음성데이터 분량 40시간 이상)
  • 원천데이터 확보
    1. 민간기업
    - K쇼핑 : KTH 내부 Daisy 엔진 DB에서 텍스트로 전사된 형태로 다운로드
    - 금융/보험 : 개인정보 및 저작권 정책 확인 후 직접 금융/보험 상품 가입 및 문의
    2. 공공기관
    - 질병관리본부 : 기존 상담 내역 데이터를 수집하여 텍스트로 전사된 형탤 다운로드
    - 다산콜센터 : 서울정보소통광장의 원문정보 – 결재문서에서 서울시 120 다산콜센터 상담 음성 녹취 파일 청구
구축 내용 및 제공 데이터량
  • 민원[콜센터] 질의응답 데이터 110만쌍, 음성데이터 440시간 이상의 데이터 구축 
  • 음성데이터를 기준으로 문장 단위로 전사된 텍스트 데이터 (약 22,000건)
    구축 내용 표
    도메인 카테고리 대화쌍 건수
    K쇼핑 AS 8,674건
    결제 133,638건
    교환 62,938건
    반품 41,542건
    배송 65,134건
    업무처리 126,125건
    주문 113,047건
    합계 551,103건
    질병관리본부 건강/질병 90,277건
    기타문의 13,194건
    약품/식품 18,726건
    요양기관 현황 10,097건
    증상/징후 50,634건
    진료비 정보 3,976건
    온라인 신고 64,127건
    합계 251,031건
    금융/보험 사고 및 보상 문의 52,527건
    상품 가입 및 해지 54,536건
    이체, 출금, 대출서비스 48,476건
    잔고 및 거래내역 46,477건
    합계 202,016건
    다산콜센터 대중교통 안내 24,354건
    생활하수도 관련 문의 25,383건
    일반행정 문의 31,468건
    코로나19 관련 상담 20,296건
    합계 101,501건
대표도면
대표도면 이미지

 

필요성
  • 기존 콜센터의 운영목적이 단순히 고객문의나 안내를 위함이었다면 최근에는 음성과 데이터망을 통합하여 이를 다양한 채널에서 고객들에게 서비스를 제공하게 됨.
  • 이에 따라 컨택센터는 앞으로 ICC 지능형 컨택센터 형태로 진화할 것으로 예상됨. 
  • 빅데이터를 활용한 고객 맞춤 상담 음성인식 솔루션 기반의 고객서비스, 클라우드 기반의 솔루션 등 지능형 콜센터로서의 역할이 더욱더 중요해짐.
  • 이처럼 빠르게 변화하는 콜센터 분야에서의 인공지능 기술의 도입은 필수적인 부분이 되어가고 있으며 원활한 기술 발전 및 지원을 위해 다양한 분야의 민원상담 데이터를 구축하고자 함.
데이터 구조
  • 데이터 포맷
    - 상담사와 고객간의 질문-답변 세트로 구성
    - 상담사 질문, 답변, 고객 질문, 답변으로 구분 후 개체명, 용어사전, 지식베이스 추출

     

    데이터 포맷

     

  • 어노테이션 포맷
    어노테이션 표
    항목 설명 예시 필수여부
    도메인 대분류 주문, 결제, 배송 등 필수
    카테고리 중분류 주문확인, 주문처리,
    단순 배송문의 등
    필수
    대화셋 일련번호 데이터건 별 식별번호 데이터건 별
    1,2,3,...
    필수
    화자 상담사와 고객을 분리하는 번호 0 : 상담사,
    1:고객
    필수
    문장번호 질의, 응답 한 문장 당 부여된 번호 문장별 1,2,3... 필수
    의도정보 main 고객의도 방송상품
    주문요청
    조건별 필수
    (고객 질문일
    경우 필수)
    sub 상담사의도 고객주소등록 조건별 필수
    상담사 질문
    일 경우 필수
    QA 질의-응답 구분 Q: 질의,
    A: 응답
    필수
    원본 main Q 고객 질문 네 방송 보고
    있는데 주문
    하려구요
    필수
    sub Q 상담사 질문 고객님 상세
    주소 알려주시겠어요?
    필수
    User Answer 고객 응답 네, 전화번호는
    ooo oooo
    oooo
    필수
    System Answer 상담사 응답 네 등록해드리겠습니다. 필수
    개체명 문장 중 명사 단어
    들을 ','로 분리
    주문, 삼성카드,
    현금 영수증
    선택 Y
    용어사전 개체명의 유사 및
    동의어
    성함/성명/이름,
    신청/주문
    선택 Y
    지식베이스 개체명이 해당 문장에서 쓰이는 의미를 기술 엘에이 갈비/상품명,
    삼성카드/카드명
    선택
수행기관(주관) :  포티투마루
수행기관(주관)
책임자 전화번호 대표이메일 담당업무
김동환 02-6952-9201

bd@42maru.ai

· 데이터 구축 총괄
수행기관(참여)
수행기관(참여)
기관명 담당업무
어빌리티시스템즈 · 질병관리본부, 다산 콜센터, 금융/보험 원문 데이터 확보 및 제공
피플앤드테크놀러지 · 쇼핑 원문 데이터 확보 및 제공
· 데이터 구축 저작도구 제작