AI데이터 구축 일자리 참여

멀티모달

필요성
  • 영상처리용 데이터는 외국 공개 데이터를 활용하여 서비스 개발은 가능하지만, 국내 환경을 반영하지 못한 데이터를 통해 구축된 인공지능 기술은 편향성과 차별성을 보임
  • 감정, 사용자 의도 등 다양한 관점의 고차원 복합 지능 분석 연구를 위해서는 멀티모달 융합 정보 부착 데이터가 반드시 필요함
  • 영상/음성/텍스트 정보가 함께 있는 멀티모달 원시 데이터에 다양한 정보를 구축하는 융합 구축 방법론의 도출이 필요함
구축내용
  • 21시간 10분 분량의 데이터셋 구축
    - 구축 데이터 총 러닝 타임 : 21시간 10분 36초
    - 동영상클립
      최소 러닝타임 : 1분 49초
      최대 러닝타임 : 3분 47초
    - 총 클립수 : 1,943건
    - 총 이미지 수 : 158,383장
    - 대화 정보 : 10,961 pair
  • 16종의 의미 정보 부착 완료
    종류 항목 세부
    대화 화자 영상의 역할 이름으로 표기 (75명)
    대화내용 화자가 말하는 내용
    구간묘사 해당 구간에서 일어나는 상황에 대한 묘사 5개
    시각 등장인물 이름 영상의 역할 이름으로 표기
    인물 얼굴 추적 등장인물의 얼굴 좌표 (자동*)
    인물 전체 추적 등장인물의 전체(얼굴 + 몸통)좌표 (자동*)
    행동 UCF101 행동 항목 중 자주 출현하는 106개 항목
    감정 총 8개 항목
    성별 영상에서 보여지는 성별 총 5개 항목
    (남자, 여자, 여장남자, 남장여자, 모름)
    연령대 영상에서 언급되는 연령대 총 7개 항목
    인물 묘사 등장인물에 대한 국문 묘사 1개
    관련 객체 명 등장인물과 관련이 있는 객체, ImageNet 200개 항목
    관련 객체 좌표 관련 객체의 좌표
    일반 객체 명 등장인물과 관련이 없는 객체,ImageNet 200개 항목 (총 324종)
    일반 객체 좌표 객체의 좌표 값
    이미지 묘사 샷 구간 당 5개
  • 10년 결과물 공개 라이선스 확보(연구 개발용으로 제한)
image
<멀티 모달 분야 데이터(동영상 + 이미지 + 메타정보) 예시>

 

데이터 구조
  • 동영상 콘텐츠 파일을 분할 :
    - Annotation 목적에 맞는 길이의 비디오 클립단위로 분할 되어야함.
  • 동영상 클립의 단위 및 크기는 :
    - 비디오 클립은 대화의 의미를 포함하는 범위의 길이
    - 비디오 클립은 KETI_MULTIMODAL_00000000001.(확장자) 형식으로 표현됨
  • 동영상에 포함된 사람들의 감정 표시:
    - 사람의 감정 7가지로 구분하고, 감정 값은 0 ~ 100사이의 값으로 표현됨
    - 연속적인 표현방식을 고려함(ex: 기쁨(70), 슬픔(5), 불안(5), .....)
  • 데이터 특징
    - 대화 부분을 포함
    - 대화 의미를 이해하기 위한 데이터 범위를 포함해야함
  • 영상 내 객체 및 인물 및 객체에 대한 정보의 정의 및 구조화
    - 인물 별 감정 8종의 수치 1~10 사이 (기쁨, 슬픔, 분노, 놀람, 공포, 경멸, 혐오, 중립) 75명의 인물 정보 구축
    - 인물 별 성별: 2종 (남, 여) → 콘텐츠 상에 나타나는 복합적인 성별을 고려하여 5종의 성별 정보 구축
    - 인물 별 연령대: 7종 (10대 이하, 10대, 20대, 30대, 40대, 50대, 60대 이상)
    - 인물 별 발화 스크립트: 동영상의 인물 별 발화 내용
    - 상황 설명 정보: 클립 당 5문장 이하 (한국어)
    - 객체 정보: 324종의 객체 정보 및 구간 정보 구축
    - 행동 정보: 106종의 행동 정보 구축
상식 데이터 구축내용 표 (구축년도,데이터종류,포함내용,제공방식)
종류 항목 세부
대화 화자 영상의 역할 이름으로 표기
대화내용 화자가 말하는 내용
구간묘사 해당 구간에서 일어나는 상황에 대한 묘사 5개
시각 등장인물 이름 영상의 역할 이름으로 표기
인물 얼굴 추적 등장인물의 얼굴 좌표
인물 전체 추적 등장인물의 전체(얼굴 + 몸통)좌표
행동 UCF101 행동 항목 중 자주 출현하는 106개 항목
감정 총 8개 항목
성별 영상에서 보여지는 성별 총 5개 항목
연령대 영상에서 언급되는 연령대 총 7개 항목
인물 묘사 등장인물에 대한 국문 묘사 1개
관련 객체 명 등장인물과 관련이 있는 객체, ImageNet 200개 항목
관련 객체 좌표 관련 객체의 좌표
일반 객체 명 등장인물과 관련이 없는 객체,ImageNet 200개 항목
일반 객체 좌표 객체의 좌표 값
이미지 묘사 샷 구간 당 5개
image
<멀티모달 분야 인공지능 데이터셋 부착 메타데이터 구조 이미지 예시>

 

활용예시
  • (다양한 인공지능 연구 활용화) 현재 국내 인공지능 공개 데이터의 한계를 극복하여 인공지능 연구 환경을 지원하고, 한국어 및 국내 인공지능 전문가의 지속적인 확대를 위해 정부 차원의 중장기적 인공지능 공개 데이터 확대와 공개 데이터의 질적 개선에 활용
    - 영상 기반 객체 인지
    - 영상 기반 이미지 설명 자동 생성 기술
    - 스토리텔링
    - 대화 모델
    - 성별 분류
    - 나이 인식
    - 감정 인식
     
데이터 구축 담당자
수행기관(주관) : 전자부품연구원