감성 대화 말뭉치

감성 대화 말뭉치

데이터셋명 감성 대화 말뭉치
데이터 분야 음성/자연어 데이터 유형 텍스트, 오디오
구축기관 미디어젠 데이터 관련 문의처 담당자명 송민규(미디어젠)
가공기관 미디어젠 전화번호 02-6429-7104
검수기관 미디어젠 이메일 minks@mediazen.co.kr
구축 데이터량 15,700문장 (음성), 27만문장 (코퍼스) 구축년도 2020년
버전 1.0 최종수정일자 2021.06.18
소개 크라우드 소싱 수행으로 일반인 1,500명을 대상으로 하여 음성 15,700문장 및 코퍼스 27만 문장 구축 및 세대별 감성 대화 텍스트 구축을 통해 감성 대화 엔진을 개발하여 세대별 감성 대화 서비스 제공
주요 키워드 코퍼스(Corpus), 감성대화(Emotional dialogue), 감성 챗봇(Emotional chatbot), 우울증 예방(Preventing Depression)
저작권 및 이용정책 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기]
데이터설명서 자료보기 구축활용가이드 자료보기
샘플데이터 업데이트 중 교육활용동영상 영상보기
저작도구 다운로드 AI모델 다운로드
데이터 변경이력
데이터 변경이력
버전 일자 변경내용 비고
1.0 2021.06.18 데이터 최초 개방  
구축목적
  • 감정 인식을 위한 데이터는 크롤링이 불가능하기 때문에 직접 제작해야 하는 희소성 있는 데이터임. 60가지의 세부 감정에 대한 자연어 처리 말뭉치를 확보함으로써 다양한 AI 산업에 활용이 가능함
활용분야
  • 인공지능 학습용 감성대화 코퍼스 데이터 구축을 통해 감성대화 엔진을 개발, 감성 챗봇 또는 음성비서 서비스 출시
  • 청소년, 청장년층, 노년층 등 세대별 감성대화 코퍼스를 분리 구축, 감성대화 서비스에서도 세대별로 특화된 대화 서비스를 제공
소개
  • 우울증 관련 언어 의미 구조화 및 대화 응답 시나리오 동반한 감성 텍스트 언어 수집
  • 크라우드 소싱 수행으로 일반인 1,500명 대상으로한, 음성 15,700 문장 및 코퍼스 27만 문장 구축

감성 대화 말뭉치 소개 이미지

 

구축 내용 및 제공 데이터량
  • 음성 약 15,700 문장
  • 코퍼스 27만 문장
특허 데이터 구축내용 표 (구축년도,데이터종류,포함내용,제공방식)
구분 내용
데이터 구축 범위 감성 텍스트 언어 수집
-우울증 관련 언어 의미 구조화 및 대화 응답 시나리오 동반 수집
데이터구축 규모 음성 약 15,700 발화, 코퍼스 27만 문장 수집/태깅
- 일반인 1,500명 대상의 인터뷰 및 크라우드 소싱 수행
- 우울증 환자 대상 WOZ 대화 수집
데이터구축 일정 총 5개월 소요 예정
- 데이터 설계 및 인프라 구축 1개월, 데이터 수집/태깅 3개월, 데이터 품질 검수 1개월
대표도면
  • 코퍼스 데이터 수집 방법
  • 데이터 수집 방법
    코퍼스 데이터 수집 방법 표
    항목 내용
    데이터
    수집
    방법
    Quality methods · 질적 방법은 관찰, 인터뷰, 사례 연구, 서면 문서 분석 등의 절차가 포함되고 일반적으로 이벤트와 프로세스에 대한 흐름도 및 서술 설명을 생성
    Qunantity methods · 양적 방법은 검사와 평가 척도 및 생리학적 측정에 의존하고 수치 결과를 산출
    질문법 · 표본의 모든 개인에 대해 동일한 질문을 하는 방법
    인터뷰 · 면접원의 구두 질문과 연구 참가자의 구두 응답으로 구성
    설문 조사 · 표본에서 의도한 모집단에게 결과를 일반화하기 위해 질문, 인터뷰를 사용하여 샘플의 참가자 특성, 경험 및 의견에 대한 데이터 수
  • Qualitative (데이터 수집 품질 구분)
    데이터 수집 품질 구분 표
    방법 내용
    Observation · 연구원은 주제를 연구하여 사람들이 자신이 하는 말을 하는지 여부를 이해하고 주제에 대한 암묵적 지식에 접근할 수 있도록 하기 위해 충분히 가까이 접근
    Interview · 질문을 하거나 듣고 답변을 개인이나 그룹으로 구조화, 반 구조화 또는 비정형 형식으로 심층적인 방식으로 듣고 녹음하는 작업이 포함
    Focus 그룹 토론 · 모두가 대화의 기회를 가지고 의견의 다양성을 제공할 수 있을 정도로 충분히 작은 그룹과 집중적이고 상호작용하는 세션
    다른 방법들 · 신속한 평가 절차, 무료 목록, 말뚝 정력, 순위, 생활사 등
필요성
  • 한국인 정신건강을 위한 감성대화 서비스 필요
    - 한국인은 정신건강 문제를 많이 안고 있으나, 전문가와 상담하는 건수는 매우 10명 중 1명도 되지 않음. 음성비서를 활용한 감성대화 서비스가 필요
    - 이에 따라 세대별로 감성대화 텍스트를 구축하여 딥러닝을 통해 감성대화 엔진을 개발 세대별 서비스를 제공함. 궁극적으로 한국인의 우울감을 낮추고, 자살률을 떨어뜨리는 데 기여할 것임
    - 세대별 감성대화 서비스를 통해, 우울증 예방과 자살 방지, 심리적 안정과 행복 증진이 목적
  • 노년층 감성대화 서비스 가능성 높음
    - 실제로 노년층이 감성대화를 사용하는 비중이 높음
    - AI 기반의 우울증 및 노인 돌봄 서비스가 지속적으로 나오고 있음
데이터 구조
  • 데이터 정제

감성 대화 말뭉치 데이터 정제 예시-1

감성 대화 말뭉치 데이터 정제 예시-2

 

  • 코퍼스 규칙

감성 대화 말뭉치 코퍼스 규칙

 

  • 코퍼스 데이터
    - 자의 페르소나 및 감정 상태에 따른 상황 제시
    - 사용자 발화 코퍼스에 대한 시스템 응답 코퍼스 대응 수집
    - 대화형 구어체 코퍼스 수집 및 정제

감성 대화 말뭉치 코퍼스 데이터 예시

 

데이터셋 구축 담당자
수행기관(주관) : 미디어젠
수행기관(주관) 표
책임자명 전화번호 대표이메일 담당업무
송민규 02-6429-7104 minks@mediazen.co.kr · 프로젝트 총괄 관리
· 데이터 품질 관리