AI데이터 구축 일자리 참여 바로가기

감성대화 말뭉치

우울증 예방 및 완화를 위한 AI 기반 감성 챗봇용 코퍼스 데이터셋

구축목적
  • 감정 인식을 위한 데이터는 크롤링이 불가능하기 때문에 직접 제작해야 하는 희소성 있는 데이터임. 60가지의 세부 감정에 대한 자연어 처리 말뭉치를 확보함으로써 다양한 AI 산업에 활용이 가능함
활용분야
  • 인공지능 학습용 감성대화 코퍼스 데이터 구축을 통해 감성대화 엔진을 개발, 감성 챗봇 또는 음성비서 서비스 출시
  • 청소년, 청장년층, 노년층 등 세대별 감성대화 코퍼스를 분리 구축, 감성대화 서비스에서도 세대별로 특화된 대화 서비스를 제공
주요 키워드
  • 코퍼스(Corpus), 인공지능(Artificial Intelligence), 감성대화(Emotional dialogue), 감성 챗봇(Emotional chatbot), 우울증 예방(Preventing Depression)
소개
  • 우을증 관련 언어 의미 구조화 및 대화 응답 시나리오 동반한 감성 텍스트 언어 수집
  • 크라우드 소싱 수행으로 일반인 1,500명 대상으로한, 음성 10,000 문장 및 코퍼스 27만 문장 구축

img

 

구축 내용 및 제공 데이터량
  • 음성 약 10,000 문장
  • 코퍼스 27만 문장
특허 데이터 구축내용 표 (구축년도,데이터종류,포함내용,제공방식)
구분 내용
데이터 구축 범위 감성 텍스트 언어 수집
-우울증 관련 언어 의미 구조화 및 대화 응답 시나리오 동반 수집
데이터구축 규모 음성 약 10,000 발화, 코퍼스 27만 문장 수집/태깅
- 일반인 1,500명 대상의 인터뷰 및 크라우드 소싱 수행
- 우울증 환자 대상 WOZ 대화 수집
데이터구축 일정 총 5개월 소요 예정
- 데이터 설계 및 인프라 구축 1개월, 데이터 수집/태깅 3개월, 데이터 품질 검수 1개월
대표도면

img
< 코퍼스 수집 방법 >
img
< 코퍼스 구축방법 >

 

필요성
  • 한국인 정신건강을 위한 감성대화 서비스 필요
    - 한국인은 정신건강 문제를 많이 안고 있으나, 전문가와 상담하는 건수는 매우 10명 중 1명도 되지 않음. 음성비서를 활용한 감성대화 서비스가 필요
    - 이에 따라 세대별로 감성대화 텍스트를 구축하여 딥러닝을 통해 감성대화 엔진을 개발 세대별 서비스를 제공함. 궁극적으로 한국인의 우울감을 낮추고, 자살률을 떨어뜨리는 데 기여할 것임
    - 세대별 감성대화 서비스를 통해, 우울증 예방과 자살 방지, 심리적 안정과 행복 증진이 목적
  • 노년층 감성대화 서비스 가능성 높음
    - 실제로 노년층이 감성대화를 사용하는 비중이 높음
    - AI 기반의 우울증 및 노인 돌봄 서비스가 지속적으로 나오고 있음
데이터 구조
  • 1. 데이터 정제

img

img

 

  • 2. 코퍼스 규칙

img

 

  • 3. 코퍼스 데이터
    - 자의 페르소나 및 감정 상태에 따른 상황 제시
    - 사용자 발화 코퍼스에 대한 시스템 응답 코퍼스 대응 수집
    - 대화형 구어체 코퍼스 수집 및 정제

img

 

데이터셋 구축 담당자
수행기관(주관) : (주)미디어젠

 

 
책임자명 전화번호 대표이메일 담당업무
송민규 02-6429-7104 minks@MediaZen.co.kr · 프로젝트 총괄 관리
· 데이터 품질 관리
논문 인용 정보