한국어 감정 정보가 포함된 연속적 대화 데이터셋
외부 데이터는 해당 기관의 이용정책과 다운로드 절차를 따라야 하며 AI 허브와 관련이 없음을 알려 드립니다. [저작권 및 이용정책 상세보기]
구축량
- 연속적 10,000개 대화 (단발성 55,627문장)
필요성
- 딥러닝 기반의 챗봇 대화생성을 위해서는 일상적인 대화문이 필요하고, 단문/단답형이 아니라 멀티턴/긴 문장으로 다양한 상황에 대해 작성된 대화문이 필요하나, 한국어 기반으로는 이런 공개된 대화 데이터의 수집이 어려움
- 영어권에서는 dailydialog와 같은 데이터셋이 존재하여, 한국어 대화 생성 연구를 위해서는 이와 유사한 한국어 버전의 데이터셋 수요가 예상됨
구축 내용
- 웹 크롤링 등의 방법으로 대화를 수집하고, 적정 길이와 turn 수 및 주제를 가진 대화를 선정하였으며 감정 레이블링 수행
- 챗봇이 말하기 부적절한 용어(지나치게 전문적인 용어, 비속어 등)을 가능한 범위에서 필터링 하였음
- 연속적 10,000개 대화 세트, 단발성으로는 55,627 문장 존재: 1개 대화당 두 사람이 합쳐서 5.6개 정도의 발화를 주고받음
데이터 구조
- 엑셀 파일
- A열 : 발화 시작 구분자
- B열 : 발화 본문
- C열 : 해당 문장의 감정 정보 (행복/중립/슬픔/공포/혐오/분노/놀람) - 각 대화문의 시작은 파란색 음영 및 A열의 S 표시로 구분되어 있음
- 모든 대화문은 두 사람의 대화 내용이며 행이 바뀌면 발화자가 바뀜