Loading...

소개

필요성

  • 현재 한국어 공개 데이터는 데이터 규모가 크지 않고 저작권 문제가 없는 옛날 문어체로 구성된 되어서, 인공지능이 최신 언어 현상을 학습할 수 있는 데이터로는 부적합
  • 영상처리용 데이터는 외국 공개 데이터를 활용하여 서비스 개발은 가능하지만, 국내 환경을 반영하지 못한 데이터를 통해 구축된 인공지능 기술은 편향성과 차별성을 보임
  • 감정, 사용자 의도 등 다양한 관점의 고차원 복합 지능 분석 연구를 위해서는 멀티모달 융합 정보 부착 데이터가 반드시 필요함
  • 영상/음성/텍스트 정보가 함께 있는 멀티모달 원시 데이터에 다양한 정보를 구축하는 융합 구축 방법론의 도출이 필요함

구축내용

  • 21시간 10분 분량의 데이터셋 구축
    - 구축 데이터 총 러닝 타임 : 21시간 10분 36초
    - 동영상클립
     최소 러닝타임 : 1분 49초
     최대 러닝타임 : 3분 47초
    - 총 클립수 : 1,943건
    - 총 이미지 수 : 158,383장
    - 대화 정보 : 10,961 pair
  • 16종의 의미 정보 부착 완료
    - 인물 : 75명
    - 행동정보 : 106종
    - 연령대 : 7종
    - 성별 : 5종
    - 감정 : 8종
    - 객체 : 324종
  • 10년 결과물 공개 라이선스 확보(연구 개발용으로 제한)

<멀티 모달 분야 데이터(동영상 + 이미지 + 메타정보) 예시>

데이터 구조

  • 동영상 콘텐츠 파일을 분할 :
    • - Annotation 목적에 맞는 길이의 비디오 클립단위로 분할 되어야함.
  • 동영상 클립의 단위 및 크기는 :
    • - 비디오 클립은 대화의 의미를 포함하는 범위의 길이
    • - 비디오 클립은 KETI_MULTIMODAL_00000000001.(확장자) 형식으로 표현됨
  • 동영상에 포함된 사람들의 감정 표시:
    • - 사람의 감정 7가지로 구분하고, 감정 값은 0 ~ 100사이의 값으로 표현됨
    • - 연속적인 표현방식을 고려함(ex: 기쁨(70), 슬픔(5), 불안(5), .....)
  • 데이터 특징
    • - 대화 부분을 포함
    • - 대화 의미를 이해하기 위한 데이터 범위를 포함해야함
  • 영상 내 객체 및 인물 및 객체에 대한 정보의 정의 및 구조화
    • - 인물 별 감정 8종의 수치 1~10 사이 (기쁨, 슬픔, 분노, 놀람, 공포, 경멸, 혐오, 중립) 75명의 인물 정보 구축
    • - 인물 별 성별: 2종 (남, 여) → 콘텐츠 상에 나타나는 복합적인 성별을 고려하여 5종의 성별 정보 구축
    • - 인물 별 연령대: 7종 (10대 이하, 10대, 20대, 30대, 40대, 50대, 60대 이상)
    • - 인물 별 발화 스크립트: 동영상의 인물 별 발화 내용
    • - 상황 설명 정보: 클립 당 5문장 이하 (한국어)
    • - 객체 정보: 324종의 객체 정보 및 구간 정보 구축
    • - 행동 정보: 106종의 행동 정보 구축
종류 항목 세부
대화 화자영상의 역할 이름으로 표기
대화내용화자가 말하는 내용
구간묘사해당 구간엫서 일어나는 상황에 대한 묘사 5개
시각 등장인물 이름 영상의 역할 이름으로 표기
인물 얼굴 추적 등장인물의 얼굴 좌표
인물 전체 추적등장인물의 전체 (얼굴 + 몸통) 좌표
행동UCF101 행동 항목 중 자주 출현하는 106개 항목
감정총 8개 항목
성별영상에서 보여지는 성별 총 5개 항목
연령대영상에서 언급되는 연령대 총 7개 항목
인물 묘사등장인물에 대한 국문 묘사 1개
관련 객체 명등장인물과 관련이 있는 객체, ImageNet 200개 항목/td>
관련 객체 좌표관련 객체의 자표
일반 객체 명등장인물과 관련이 없는 객체, ImageNet 200개 항목
일반 객체 좌표객체의 자표 값
이미지 묘사샷 구간 당 5개

<멀티모달 분야 인공지능 데이터셋 부착 메타데이터 구조 이미지 예시>

활용 예

  • (다양한 인공지능 연구 활용화) 현재 국내 인공지능 공개 데이터의 한계를 극복하여 인공지능 연구 환경을 지원하고, 한국어 및 국내 인공지능 전문가의 지속적인 확대를 위해 정부 차원의 중장기적 인공지능 공개 데이터 확대와 공개 데이터의 질적 개선에 활용
    • - 영상 기반 객체 인지
      - 영상 기반 이미지 설명 자동 생성 기술
      - 스토리텔링
      - 대화 모델
      - 성별 분류
      - 나이 인식
      - 감정 인식

    •  

데이터셋 다운로드

멀티 모달분야 다운로드