상담 음성

상담 음성

데이터셋명 상담 음성
데이터 분야 음성/자연어 데이터 유형 텍스트, 오디오
구축기관 티맥스소프트 데이터 관련 문의처 담당자명 이강희(티맥스소프트)
가공기관 아이스크림에듀,한국에듀테크산업협회 전화번호 031-8018-1814
검수기관 나무기술 이메일 kanghee_lee@tmax.co.kr
구축 데이터량 432만 구축년도 2020년
버전 1.1 최종수정일자 2021.09.09
소개 웹 기반 등 다양한 방식으로 상담센터에 연락하여 상담하는 내용을 녹음한 음성 데이터
주요 키워드 AI 상담사, AI 콜센터, 한국어 음성언어처리 기술, 교육 도메인, 금융 도메인, 통신판매 도메인, 음성 품질, 명료도, 대화 주제, 저작권
저작권 및 이용정책 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다 [데이터 이용정책 상세보기]
데이터설명서 자료보기 구축활용가이드 자료보기
샘플데이터 업데이트 중 교육활용동영상 영상보기
저작도구 다운로드 AI모델 다운로드
※ 본 데이터에 포함된 이름, 주소, 전화번호, 상황 등은 모두 창작된 것으로 실제와 어떠한 관련이 없음을 알려드립니다.
데이터 변경이력
버전 일자 변경내용 비고
1.1 2021.09.09 데이터 품질 보완 및 추가 개방  
1.0 2021.06.30 데이터 최초 개방  
구축 목적
  • 한국인의 음성을 문자로 바꾸어 주고, 문맥을 이해하는 한국어 음성 언어처리 기술 개발을 위한 AI 학습용 한국어 음성 DB를 구축 AI상담센터를 위한 음성상담, 음성인식기술 및 언어이해, 언어생성연구 및 서비스 개발에 활용
활용 분야
  • 연구분야: 음성인식, 음성언어처리, 자연어처리, 한국어 음성언어연구, 신호처리 등
  • 산업분야: AI 상담센터
소개
 소개이미지 1 소개이미지 2

 

  • 구축 도메인 별 관련 콜센터 협약을 통해 실제 데이터 기반으로 작성된 가상 시나리오를 기반으로 한 한국어 상담 음성으로부터 음성의 내용을 전사하고 검증한 한국어 상담 음성 AI 데이터셋으로, 다양한 음성의 재사용에 제한이 없도록 저작권 문제를 완전히 해결한 원천 데이터를 확보
구축 내용 및 제공 데이터량
  • 교육, 금융, 통신판매 등의 도메인에서 AI 상담센터용 음성인식 학습데이터로 활용 가능한 3,000시간의 가상 시나리오 기반한 크라우드 소싱 녹취 데이터
    데이터의 종류 수집시간 제공방식
    교육 도메인 1,000시간 wav 음원파일
    txt 전사파일
    json 메타파일
    금융 도메인 1,000시간
    통신판매 도메인 1000시간
    총 구축량 3,000시간  
대표도면
 데이터대표도면
필요성
  • 투자를 받지 못한 스타트업 기업은 다양한 고객 대응 서비스를 위한 콜센터 제공 비용을 부담스러워하며, 본 업무 외에 자신의 휴대폰으로 주문, 상담, 환불, 배송조회 등의 콜센터 업무까지 직접 수행 또는, 콜센터 운용을 하고 있으나 서비스의 특성상 야간에서 고객 문의에 대응해야 하고 다양한 대 고객 서비스가 필요한 경우, 일반 콜센터의 업무 시간이 18시로 제한되어 있어서 적극적인 대 고객 서비스를 제공하지 못해 매출 신장의 한계와 소비자의 불만이 쌓여감. 이러한 문제점을 해결하기 위해서는 낮이든, 밤이든, 24시간, 365일 대 고객 서비스를 제공할 수 있는 AI 상담센터의 필요성이 대두되며, 이러한 AI 콜센터 구축을 위한 데이터셋을 제공하는 것이 본 과제의 목적 다양한 업체들을 위한 AI 상담센터를 위한 음성인식 학습데이터를 구축하기 위해서는 다양한 서비스 도메인으로 구성한 데이터셋 구성이 필요
데이터 구조
데이터 구조 표
ID 항목 타입
키 명 키 설명
  dataSet 데이터셋 Dict
1 version 데이터셋 버전 String
3 date 녹취된 날짜 String
4 typeInfo 음원 데이터 상세
정보
Dict
  4-1 category 음원 카테고리 정보 String
  4-2 subcategory 음원 서브카테고리 String
  4-3 place 음원 녹취 장소 String
  4-4 speakers 화자 목록 List
    4-3-1 id 화자 아이디 String
4-3-1 age 나이대:
20대, 30대,
50대(추정)
null(알수없음) 등
    4-3-2 gender 화자 성별:
남, 여
String
4-3-2 residence 거주지역:
서울, 대전, 부산,
광주, null(알수없음)
  4-5 inputType 입력형식:
방송, 유선, 모바일
인터넷 등
String
5 dialogs 전사 데이터 목록:
묶음 기준으로
나누어진 발화
단위로 생성
List
  5-1 speaker 화자 아이디:
speakers에 등록된
id
String
  5-2 audioPath 발화 단위 RAW
데이터경로
String
  5-3 textPath 발화 단위 TEXT
데이터 경로
String
데이터셋 구축 담당자
수행기관(주관) : 티맥스소프트
수행기관(주관)
책임자 전화번호 대표이메일 담당업무
임성민 031-8018-1821 seongmin_lim@tmax.co.kr · 데이터 구축 총괄
· 데이터 수집
· 데이터 정제
· 데이터 가공
· AI모델 개발
· 응용 서비스 개발
수행기관(참여)
수행기관(참여)
기관명 담당업무 기관명 담당업무
㈜아이스크림에듀 · 데이터 수집
· 데이터 정제
· 데이터 가공
(사)한국에듀테크산업협회 · 데이터 수집
· 데이터 정제
· 데이터 가공
나무기술(주) · 품질검증