Loading...

소개

데이터 명

멀티 모달 영상 AI 데이터

Video on multi-modal

’19년 구축 목표

100시간 분량의 멀티 모달 영상 데이터셋 구축

  • AI 8종 임무유형을 고려한 의미정보 부착

        - 감정, 성별, 연령대, 발화 스크립트, 개체 및 관계 정보, 상황 설명 정보, 발화별 대화 의도 및 대화 전략 정보

* AI 8종 임무유형: 감정분석, 개체인식, 인물인식, 관계분석, 영상기반 질의응답, 대화처리, 음성인식, 영상 상황·의도 분석

1차 공개 구축량

25시간 분량의 멀티 모달 영상 데이터셋 구축

  • 약 1200개 영상 클립
  • AI 8종 임무유형을 고려한 의미정보 부착

대표 도면

필요성

  • 현재 공개된 멀티 모달 영상 데이터는 인공지능 학습 데이터로 사용하기에는 규모가 크지 않아 대규모의 학습 데이터의 제작이 필요함
  • 기존 데이터는 저작권 및 초상권 문제, 연구개발 목적으로의 사용 제약 등 데이터 활용에 제한이 있음
  • 국내 서비스에 적용하기 위해서는 국내 상황에 맞는 인물(감정), 개체, 대화내용(맥락), 상황정보 등 의미정보가 포함된 대규모의 데이터가 필요함

구축내용

  • 100시간 분량의 멀티 모달 영상 데이터셋 구축
  • AI 8종 임무유형을 고려한 감정, 성별, 연령대, 발화 스크립트, 개체 및 관계 정보, 상황 설명 정보, 발화별 대화 의도 및 대화 전략 정보 의미정보 부착
  • 감정분석, 개체인식, 인물인식, 관계분석, 영상기반 질의응답, 대화처리, 음성인식, 영상 상황·의도 분석 등 AI 서비스 개발이 가능하도록 데이터 구축

데이터 구조

  • 데이터 구조는 감정, 성별, 연령대, 발화 스크립트, 개체 및 관계 정보, 상황 설명 정보, 발화별 대화 의도 및 대화 전략 정보를 포함하며 각 구조 정보는 아래 그림 및 표와 같이 구성

<데이터 구조도>

 

항목 설명
결과물의 형태 1~3분 내외의 대화를 포함하는 영상 파일과 영상을 설명하는 메타파일
인물 감정

기쁨, 슬픔, 분노, 놀람, 공포, 경멸, 혐오, 중립(총 8종) 표기

arousal(감정의 강도): 1(약함)~10(강함)의 값을 가지며 중간값은 5

valence(감정의 긍부정도): 1(부정)~10(긍정)의 값을 가지며 중간값은 5

인물 별 성별 영상에 나오는 인물 별 성별 2종(남, 여) 표기
인물 별 연령대 10대 이하, 10대, 20대, 30대, 40대, 50대, 60대 이상 (총 7종) 표기
발화 스크립트 인물 별 발화 스크립트 표기
개체 정보 개체 위치, 개체 분류
관계 정보 약 20종의 개체 관계(위치/행동 관계)
상황 설명 정보 대화 전체의 주제에 대한 설명
발화 의도 진술/주장, 질문, 명령/요청, 약속, 표출, 응대/답변, 인사/부르기/환기, 기타 등 8종 내외의 발화 의도 표기
대화 전략 분류 정보 CMU RAPT 데이터셋의 7가지 대화전략 카테고리 기반 정보 표기: 자기대화(SD), 질문대화(QESD), 공감대화(RSD), 칭찬대화(PR), 비윤리적대화(VSN), 완곡대화(IN), 비언어적대화(BC)

<데이터 항목 및 설명>

 

<데이터 구조>

지식베이스 활용예

  • 감정분석, 개체인식, 인물인식, 관계분석, 영상기반 질의응답, 대화처리, 음성인식, 영상 상황·의도 분석 등 AI 연구분야 및 서비스 개발에 활용 가능
연구분야 개요
감정분석 이미지, 음성, 텍스트, 멀티 모달 감정 등을 활용한 감정분석 모델 연구 가능
개체인식 개체 이름, 경계 상자 영역 크기와 위치, 카테고리 등을 활용한 개체 인식 모델 연구 가능
인물인식 성별, 연령 등을 활용한 인물 인식 모델 연구 가능
관계분석 각 개체의 카테고리, 개체 간 관계(능동/수동) 등을 활용한 관계분석 모델 연구 가능
영상 기반 질의응답 데이터 메타 정보, 질문과 답변 유형 등을 활용한 영상 기반 질의응답 모델 연구 가능
대화처리 단어 품사 정보, 대상 연령 그룹, 대화 의도, 대화 카테고리 등을 활용한 대화처리 모델 연구 가능
음성인식 화자와 청자의 메타 정보, 발화 의도 등을 활용한 음성인식 모델 연구 가능
영상 상황·의도 분석 데이터 메타 정보, 동작 유형 카테고리, 상황 정보 등을 활용한 영상 상황·의도 분석 모델 연구 가능
  • 외부인 침입 감지(개체인식, 인물인식)- 사용자가 외출 시 시스템에 등록되지 않은 인물이 감지될 경우, 외부인 침입으로 간주하여 사용자에게 알리고 경찰에 신고- 침입자의 영상, 음성 정보를 분석하여 성별, 나이, 체형, 발걸음 등을 분석하여 수사에 도움
  • 스케줄 분석(대화처리, 음성인식)- 사용자가 업무 혹은 여행 스케줄을 구두로 시스템에 전달하면 시스템은 음성을 분석하여 스케줄 등록, 스케줄 장소의 날씨와 교통편, 유의사항 등을 사용자에게 제공
  • 대화를 통한 감정 분석(대화처리, 음성인식, 감정분석)- 사용자와 일상 대화를 통해 얻어지는 영상과 음성을 분석하여 현재 사용자의 감정 상태를 파악- 감정 상태에 알맞은 음악, 여행, 요리, TV프로그램 등을 추천
  • 영상 상황 분석 후 정보 전달(관계분석, 영상 상황·의도 분석, 음성인식, 대화처리)- 사용자는 TV 프로그램을 시청하다가 영상 내의 특정 제품에 대해 질문- 시스템은 사용자의 질문 분석 후 영상에서 제품을 인식하여 관련정보를 사용자에게 제공

데이터셋 다운로드

다운로드

데이터 구축 담당자

주관기관

책임자명

전화번호

대표이메일

(주)아크릴

오성식

02-557-4958

support@iacryl.com

샘플데이터 다운로드 페이지