한국어 감정 정보가 포함된 단발성 대화 데이터셋
외부 데이터는 해당 기관의 이용정책과 다운로드 절차를 따라야 하며 AI 허브와 관련이 없음을 알려 드립니다. [저작권 및 이용정책 상세보기]
구축량
- 2차년도 이후부터 연차별 확장 공개
필요성
- 텍스트 감정 인식 연구는 가장 많은 데이터가 공개되어 있으며 모든 감정 인식 서비스의 기반이 되는 분야임
- 하지만 한국어 텍스트 데이터는 여전히 긍정/부정의 레이블링 수준을 크게 벗어나지 못하고 있어, 다분류 감정에 대한 텍스트 데이터셋을 필요로 하고 있음
구축 내용
- SNS 글 및 온라인 댓글에 대한 웹 크롤링을 실시하여 문장을 선정함
- 문장 단위 작업을 수행할 수 있도록 문장 분리 작업을 거침
- 7개 감정(기쁨, 슬픔, 놀람, 분노, 공포, 혐오, 중립) 레이블링 수행
- 총 데이터 개수: 38,594 문장
- 글자 수 분포 : 23.7±13.6자
데이터 구조
- 엑셀 파일
- 텍스트 본문 / 감정 정보 순으로 기술