고객 응대 음성

고객 응대 음성

데이터셋명 고객 응대 음성
데이터 분야 음성/자연어 데이터 유형 텍스트, 오디오
구축기관 티맥스소프트 데이터 관련 문의처 담당자명 이강희(티맥스소프트)
가공기관 아이스크림에듀,한국에듀테크산업협회 전화번호 031-8018-1814
검수기관 나무기술 이메일 kanghee_lee@tmax.co.kr
구축 데이터량 432만 구축년도 2020년
버전 1.1 최종수정일자 2021.09.09
소개 다양한 매장과 공간의 키오스크 등에서 주문, 검색, 조작 및 고객 응대 하는 한국어 음성 데이터
주요 키워드 음성 주문, 음성 검색, 음성 조작, 한국어 음성언어처리 기술, 구매 도메인, 예약 도메인, 생활 도메인, 음성 품질, 명료도, 대화 주제, 저작권
저작권 및 이용정책 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기]
데이터설명서 자료보기 구축활용가이드 자료보기
샘플데이터 업데이트 중 교육활용동영상 영상보기
저작도구 다운로드 AI모델 다운로드
※ 본 데이터에 포함된 이름, 주소, 전화번호, 상황 등은 모두 창작된 것으로 실제와 어떠한 관련이 없음을 알려드립니다.
데이터 변경이력
버전 일자 변경내용 비고
1.1 2021.09.09 데이터 품질 보완 및 추가 개방  
1.0 2021.06.30 데이터 최초 개방  
구축 목적
  • 한국인의 음성을 문자로 바꾸어 주고, 문맥을 이해하는 한국어 음성 언어처리 기술 개발을 위한 AI 학습용 한국어 음성 DB를 구축 다양한 매장과 공간의 키오스크, VoiceChatbot 등 기존에 터치UI로 제공되는 사이니지 등에서 나아가 음성언어로 주문, 검색, 조작할 수 있는 기술/서비스 개발에 활용할 수 있는 DB 구축
활용 분야
  • 연구분야: 음성인식, 음성언어처리, 자연어처리, 한국어 음성언어연구, 신호처리 등
  • 산업분야: Voice Chatbot, AI 키오스크, AI 사이니지 등
소개
 소개이미지 1 소개이미지 2 0

 

  • 가상 시나리오를 기반으로 수집한 범용성 높은 도메인의 한국어 고객 응대 음성으로부터 음성의 내용을 전사하고 검증한 한국어 고객응대 음성 AI 데이터셋으로, 음성인식 키오스크 개발 등에 활용 가능함.
  • 음성의 재사용에 제한이 없도록 저작권 문제를 완전히 해결한 원천 데이터를 확보함.
구축 내용 및 제공 데이터량
  • 다양한 도메인에서 주문, 예약, 환불, 정보조회 등의 음성인식으로 서비스에 활용될 수 있는 음성인식 학습용 3,000 시간의 남녀 1:1 비율의 고객 응대 음성 데이터셋
    데이터의 종류 수집시간 제공방식
    구매 도메인 1,000시간 wav 음원파일
    txt 전사파일
    json 메타파일
    예약 도메인 1,000시간
    생활 도메인 1000시간
    총 구축량 3,000시간  
대표도면
 대표데이터도면
필요성
  • 수년 전부터, 터치 UI 기반의 키오스크 기기가 카페, 식당, 극장, 쇼핑몰 등 거의 모든 분야에서 사용되어져 왔음 하지만, 최근의 코로나19의 팬데믹 상황에서는 터치 기반의 기기는 코로나 바이러스의 전염의 가능성으로 더욱 더 비접속식의 서비스 기기의 필요성이 대두되고 있음 본 과제의 목적은 이러한 시대적인 상황에서 스타트업, 기존의 중소기업 등 큰 비용 투자를 통해 음성인식 모델 데이터 구축이 어려운 업체들에게 다양한 도메인을 위한 음성인식 학습용 데이터셋을 제공하여 빠르게 응용 서비스를 구현할 수 있도록 함 많은 업체들이 다양한 분야에서 AI 키오스크, AI 사이니지, 음성챗봇을 위한 음성인식 모델을 생성할 수 있도록 다양한 도메인을 위한 데이터셋을 구축
데이터 구조
데이터 구조 표
ID 항목 타입
키 명 키 설명
  dataSet 데이터셋 Dict
1 version 데이터셋 버전 String
3 date 녹취된 날짜 String
4 typeInfo 음원 데이터 상세
정보
Dict
  4-1 category 음원 카테고리 정보 String
  4-2 subcategory 음원 서브카테고리 String
  4-3 place 음원 녹취 장소 String
  4-4 speakers 화자 목록 List
    4-3-1 id 화자 아이디 String
4-3-1 age 나이대:
20대, 30대,
50대(추정)
null(알수없음) 등
    4-3-2 gender 화자 성별:
남, 여
String
4-3-2 residence 거주지역:
서울, 대전, 부산,
광주, null(알수없음)
  4-5 inputType 입력형식:
방송, 유선, 모바일
인터넷 등
String
5 dialogs 전사 데이터 목록:
묶음 기준으로
나누어진 발화
단위로 생성
List
  5-1 speaker 화자 아이디:
speakers에 등록된
id
String
  5-2 audioPath 발화 단위 RAW
데이터경로
String
  5-3 textPath 발화 단위 TEXT
데이터 경로
String
데이터셋 구축 담당자
수행기관(주관) : 티맥스소프트
수행기관(주관)
책임자 전화번호 대표이메일 담당업무
임성민 031-8018-1821 seongmin_lim@tmax.co.kr · 데이터 구축 총괄
· 데이터 수집
· 데이터 정제
· 데이터 가공
· AI모델 개발
· 응용 서비스 개발
수행기관(참여)
수행기관(참여)
기관명 담당업무 기관명 담당업무
㈜아이스크림에듀 · 데이터 수집
· 데이터 정제
· 데이터 가공
(사)한국에듀테크산업협회 · 데이터 수집
· 데이터 정제
· 데이터 가공
나무기술(주) · 품질검증