한국어 대화 데이터셋
외부 데이터는 해당 기관의 이용정책과 다운로드 절차를 따라야 하며 AI 허브와 관련이 없음을 알려 드립니다. [저작권 및 이용정책 상세보기]
필요성
- 딥러닝 기반의 한국어 대화 모델의 개발을 위한 한국어 및 상황에 맞는 맞춤 데이터를 구하기 어려움
- 도메인 특화된 모델을 위해서는 상황에 특화된 데이터가 요구됨
- 응급 상황 및 오피스 task 지원을 위한 인공지능 대화 모델 개발에 활용하기 위한 도메인 특화 데이터 필요
구축 내용

- 주제에 맞는 동영상 (해외 포함)을 참조하여 한국어 및 황에 적절하도록 각색하여 구축
- 응급상황 데이터: 748개의 멀티턴 대화셋, 단발성으로 4,975 문장 존재, 대화셋 당 3 ~ 12개의 대화 턴으로 구성
- 오피스 데이터: 10,202개의 멀티턴 대화셋, 대화쌍으로 46,414 셋이 존재, 대화셋 당 1~31개의 대화 턴으로 구성
데이터 구조
- 응급상황 데이터: 텍스트 파일, 데이터의 각 행이 ‘대화턴번호\t발화’로 구성되어 있음, 대화셋 당 화자는 두 명이며 turn 당 화자가 번갈아 가며 바뀜
- 오피스 데이터: Json 파일, 'domain', 'user_utterance', 'system_utterance' 의 정보로 구성됨