비디오 요약 영상

비디오 요약 영상

데이터셋명 비디오 요약 영상
데이터 분야 비전 데이터 유형 비디오
구축기관 한국과학기술원 데이터 관련 문의처 담당자명 박주용
가공기관 (주)메트릭스리서치, (주)소리자바, (주)데이터헌트 전화번호 042-350-2924
검수기관 (주)메트릭스리서치, (주)소리자바, (주)데이터헌트 이메일 juyongp@kaist.ac.kr
구축 데이터량 4천 건(1000시간) 구축년도 2020년
버전 1.0 최종수정일자 2021.06.18
소개 동영상 자동 요약 서비스 기술 개발을 위한 영상 데이터
주요 키워드 영상 요약, 하이라이트 영상
저작권 및 이용정책 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기]
데이터설명서 자료보기 구축활용가이드 자료보기
샘플데이터 다운로드 교육활용동영상 영상보기
저작도구 다운로드 AI모델 다운로드
데이터 변경이력
버전 일자 변경내용 비고
1.0 2021.06.18 데이터 최초 개방  
구축 목적
  • 다양한 카테고리에 해당하는 영상을 활용한 동영상 요약 데이터셋 구축으로 학습모델을 개발, 공개하여 다양한 응용서비스 제안
활용 분야
  • 영상자료 이상 탐지 효율화, 콘텐츠 생산, 소비, 유통 활성화
소개
  • 2~60분 길이의 유튜브 및 방송사 영상을 수집하고 주요 장면의 위치를 레이블링하여 학습용 데이터셋 구축. 이를 영상 파일, 링크, 메타데이터와 함께 정리하여 동영상 요약을 위한 공공 데이터를 구축해 제공. 또한, 이를 바탕으로 영상 요약 학습 인공지능 모델을 개발하고 자동화된 AI 동영상 요약 시스템을 제시.
구축 내용 및 제공 데이터량
  • 원천 데이터 4000 건 (2 ~ 60분 동영상, 1000시간 이상, 15개 카테고리)을 활용
  • 데이터 수집 시, 유튜버 및 방송사 콘텐츠 적극 활용
  • 10인의 어노테이터가 투입되어, 해당 영상을 가장 잘 설명할 수 있는 장면을 1차 및 2차에 걸쳐 선택.
카테고리(종) 비디오 개수(개) 분포(%)
스타일링/뷰티 241 6.01
일상 372 9.27
뉴스/정치 239 8.05
반려동물/동물 381 5.96
인물/블로그 240 9.50
스포츠 323 5.98
음식 332 8.28
비영이/사회활동 133 3.31
영화/애니메이션 194 4.83
엔터테인먼트 222 5.53
음악 378 9.42
여행 368 9.17
자동차 220 5.48
코미디 139 3.46
게임 227 5.66
평균 267.26 6.66
대표도면
비디오 요약 영상 데이터 대표도면

 

필요성
  • 동영상 요약 서비스는 인공지능 기술을 통해 개발되고 있지만 데이터 구축에 드는 비용이 매우 크고 지도학습(Supervised Learning)의 경우 영상에 대한 이해도, 관련 배경지식이 통제되지 않은 레이블(Label) 데이터를 사용해 학습에 어려움이 있음.

  • 본 과제에서 구축할 영상요약 AI 데이터는 영화, 자동차, 음악, 동물 등 다양한 카테고리에 해당하는 영상을 폭넓게 포함하고 있어 특정 도메인에 편향될 가능성이 적은 양질의 영상 요약 데이터로 활용될 것임.

데이터 구조
  • 데이터 구성
    - 영상요약 학습용 데이터는 정의된 15개 Category, 3개의 구간 총 4,000개의 동영상으로 구성된다. 2~5분 이하 1,000개, 5~20분 이하 2,000개, 20~60분 이하 1,000개로 과업지시사항에 따라 최소 1,000시간을 충족해야 한다.
    - 영상정보의 세부내역은 2~5분(10개), 5~20분(30개), 20~60분(60개)개가 각각 mp4 파일 형태로 생성되며, 약 10만 건의 라벨링을 수행한다.
    - JSON 파일과 영상 데이터는 1:N 관계로, 하나의 JSON 파일 안에 모든 영상 데이터에 해당하는 메타데이터가 포함되어 있음

     

  • 어노테이션 포맷
    No 항목 영문명 비고
    1 파일명 name Key 값
    2 카테고리 category  
    3 영상 길이 length  
    4 화질 quality  
    5 라이선스 license  
    6 광고 시작구간 ad_start  
    7 광고 종료구간 ad_end  
    8 3초단위 구간 three_secs  
    9 원천데이터 경로 path  
    10 어노테이션 정보 annotator_id highlight: 하이라이트 구간 목록
    represent: 대표 구간 목록
데이터셋 구축 담당자
수행기관(주관) : 한국과학기술원
수행기관(주관) 표
책임자명 전화번호 대표이메일 담당업무
박주용 042-350-2924 juyongp@kaist.ac.kr · 컨소시엄 운영 및 사업기획
· API 서버 및 웹 서비스 개발
· 음악 하이라이트 영상 추출 기술 개발

 

수행기관(참여)
수행기관(참여) 표
기관명 담당업무 기관명 담당업무
메트릭스 리서치 · 크라우드소싱 시스템 개발/운용
· 크라우드워커 모집 및 리워드
· 데이터 수집, 정제 및 가공
· 저작도구 개발 및 운용
소리자바 · 요약영상 동영상 수집
액션파워 · 요약영상 인공지능 모델 구축 및 학습. 데이터    

 

※ 이 데이터에 포함된 인물의 얼굴 등에 대해서는 개인정보 및 초상권의 이용 동의를 받아 제공합니다.