KETI 지능정보 플래그십 R&D

한국어 대화 데이터셋

외부 데이터는 해당 기관의 이용정책과 다운로드 절차를 따라야 하며 AI 허브와 관련이 없음을 알려 드립니다. [저작권 및 이용정책 상세보기]

필요성
  • 딥러닝 기반의 한국어 대화 모델의 개발을 위한 한국어 및 상황에 맞는 맞춤 데이터를 구하기 어려움
  • 도메인 특화된 모델을 위해서는 상황에 특화된 데이터가 요구됨
  • 응급 상황 및 오피스 task 지원을 위한 인공지능 대화 모델 개발에 활용하기 위한 도메인 특화 데이터 필요
구축 내용
image

 

  • 주제에 맞는 동영상 (해외 포함)을 참조하여 한국어 및 황에 적절하도록 각색하여 구축
  • 응급상황 데이터: 748개의 멀티턴 대화셋, 단발성으로 4,975 문장 존재, 대화셋 당 3 ~ 12개의 대화 턴으로 구성
  • 오피스 데이터: 10,202개의 멀티턴 대화셋, 대화쌍으로 46,414 셋이 존재, 대화셋 당 1~31개의 대화 턴으로 구성
데이터 구조
  • 응급상황 데이터: 텍스트 파일, 데이터의 각 행이 ‘대화턴번호\t발화’로 구성되어 있음, 대화셋 당 화자는 두 명이며 turn 당 화자가 번갈아 가며 바뀜
  • 오피스 데이터: Json 파일, 'domain', 'user_utterance', 'system_utterance' 의 정보로 구성됨

데이터 구축 담당자 표 (담당기관, 책임자명, 전화번호, 대표이메일)
담당기관 책임자명 전화번호 대표이메일
KETI 인공지능연구센터 신사임 · sishin@keti.re.kr
다운로드 폴더 구성정보

데이터 다운로드는 PC에서만 가능합니다.