KETI 지능정보 플래그십 R&D

한국어 감정 정보가 포함된 연속적 대화 데이터셋

외부 데이터는 해당 기관의 이용정책과 다운로드 절차를 따라야 하며 AI 허브와 관련이 없음을 알려 드립니다. [저작권 및 이용정책 상세보기]

구축량
  • 연속적  10,000개 대화 (단발성 55,627문장)

 

필요성
  • 딥러닝 기반의 챗봇 대화생성을 위해서는 일상적인 대화문이 필요하고, 단문/단답형이 아니라 멀티턴/긴 문장으로 다양한 상황에 대해 작성된 대화문이 필요하나, 한국어 기반으로는 이런 공개된 대화 데이터의 수집이 어려움
  • 영어권에서는 dailydialog와 같은 데이터셋이 존재하여, 한국어 대화 생성 연구를 위해서는 이와 유사한 한국어 버전의 데이터셋 수요가 예상됨
구축 내용
  • 웹 크롤링 등의 방법으로 대화를 수집하고, 적정 길이와 turn 수 및 주제를 가진 대화를 선정하였으며 감정 레이블링 수행
  • 챗봇이 말하기 부적절한 용어(지나치게 전문적인 용어, 비속어 등)을 가능한 범위에서 필터링 하였음
  • 연속적 10,000개 대화 세트, 단발성으로는 55,627 문장 존재: 1개 대화당 두 사람이 합쳐서 5.6개 정도의 발화를 주고받음
데이터 구조
  • 엑셀 파일
    - A열 : 발화 시작 구분자
    - B열 : 발화 본문
    - C열 : 해당 문장의 감정 정보 (행복/중립/슬픔/공포/혐오/분노/놀람)
  • 각 대화문의 시작은 파란색 음영 및 A열의 S 표시로 구분되어 있음
  • 모든 대화문은 두 사람의 대화 내용이며 행이 바뀌면 발화자가 바뀜

데이터 구축 담당자 표 (담당기관, 책임자명, 전화번호, 대표이메일)
담당기관 책임자명 전화번호 대표이메일
㈜ 아크릴 이세화 · green@iacryl.com
다운로드 폴더 구성정보

데이터 다운로드는 PC에서만 가능합니다.