KETI 지능정보 플래그십 R&D

한국어 감정 정보가 포함된 단발성 대화 데이터셋

외부 데이터는 해당 기관의 이용정책과 다운로드 절차를 따라야 하며 AI 허브와 관련이 없음을 알려 드립니다. [저작권 및 이용정책 상세보기]

구축량
  • 2차년도  이후부터 연차별 확장 공개
필요성
  • 텍스트 감정 인식 연구는 가장 많은 데이터가 공개되어 있으며 모든 감정 인식 서비스의 기반이 되는 분야임
  • 하지만 한국어 텍스트 데이터는 여전히 긍정/부정의 레이블링 수준을 크게 벗어나지 못하고 있어, 다분류 감정에 대한 텍스트 데이터셋을 필요로 하고 있음
구축 내용
  • SNS 글 및 온라인 댓글에 대한 웹 크롤링을 실시하여 문장을 선정함
  • 문장 단위 작업을 수행할 수 있도록 문장 분리 작업을 거침
  • 7개 감정(기쁨, 슬픔, 놀람, 분노, 공포, 혐오, 중립) 레이블링 수행
  • 총 데이터 개수: 38,594 문장
  • 글자 수 분포 : 23.7±13.6자
데이터 구조
  • 엑셀 파일
    - 텍스트 본문 / 감정 정보 순으로 기술

데이터 구축 담당자 표 (담당기관, 책임자명, 전화번호, 대표이메일)
담당기관 책임자명 전화번호 대표이메일
㈜ 아크릴 이세화 · green@iacryl.com
다운로드 폴더 구성정보

데이터 다운로드는 PC에서만 가능합니다.