AI-Hub

#컴퓨터 비전 #문화

동영상 콘텐츠 하이라이트 편집 및 설명(요약) 데이터

분야영상이미지
유형 비디오

구축년도 : 2021 갱신년월 : 2022-09 조회수 : 7,834 다운로드 : 195 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

데이터 토론 문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2022-09-15	데이터 품질 개선
1.0	2022-07-28	데이터 최초 개방

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2022-10-13	신규 샘플데이터 개방
2022-07-28	콘텐츠 최초 등록

소개

뉴스, 유튜브 콘텐츠 등 영상을 수집하고 주요 장면의 위치를 레이블링 및 카테고리 항목에 대해 태깅하여 동영상 요약 학습용 데이터셋을 구축. 해당 데이터를 통해 인공지능 영상 요약 모델을 개발하고 자동화된 영상 편집 시스템을 제시.

구축목적

인공지능 동영상 자동 요약 기술 개발에 필요한 뉴스 및 유튜브 콘텐츠의 하이라이트 구간 및 라벨링 데이터셋을 구축하기 위함.

메타데이터 구조표
데이터 영역	영상이미지	데이터 유형	비디오
데이터 형식	mp4, json	데이터 출처	방송사, 유튜브
라벨링 유형	내용 키워드(동영상 하이라이트) / 세그멘테이션(하이라이트 구간)	라벨링 형식	JSON
데이터 활용 서비스	동영상 자동 요약 서비스	데이터 구축년도/ 데이터 구축량	2021년/원천데이터 6,001시간 / 가공데이터 18,123시간

세부과제	산출물	성과 기준		결과	달성률(%)
동영상 하이라이트 편집 및 설명(요약) (데이터 41)	데이터셋	총 원천데이터 수량	6,000시간 이상	6,001시간 (KBS: 1,001시간 / 유튜브: 5,000시간)	100

		총 가공데이터 수량	별도로 없음	18,123시간 (KBS: 3,121시간 / 유튜브: 15,001시간)	-

동영상 콘텐츠 하이라이트 편집 및 설명(요약)-데이터 통계 표-1

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드

[동영상 요약 및 설명 모델 개요]
- 데이터 전처리
  - 동영상 원본에서 특징 벡터를 추출하여 인공지능 모델이 학습할 수 있는 형태로 가공
  - 영상 1초당 1개의 프레임을 추출하여 벡터로 변환, 벡터의 차원은 (3, 244, 244)
  - Vision Transformer와 ResNet 등 CNN 기반 알고리즘을 비교하여 통한 학습용 알고리즘 평가 진행
  - Vision Transformer가 ResNet(CNN)구조의 단점인 귀납편향(inductive bias)이 없기 때문에, 컨텐츠의 범위가 아주 넓은 비디오 도메인에서 그 특징을 잘 살릴 수 것으로 예상하였고, 실험 결과도 동일하게 Vision Transformer로 알고리즘 선정
    
    [Vision Transformer 구조]
- 동영상 요약 모델 생성
  - 고차원의 벡터를 정답 형식에 맞도록 차원을 줄이고, 정규화되지 않은 벡터값을 확률로 변환하기 위해 Feed-forward neural network를 사용 후 클래스를 예측 진행
    
    [Feed-forward neural network 구조]
  - Feed-forward neural network: 단위 간의 연결이주기를 형성하지 않는 인공 신경망 (artificial neural network)으로 재귀 신경 네트워크(RNN)과는 다르게 정보는 입력 노드에서 숨겨진 노드 (있는 경우)를 통해 한 방향으로만 이동하며 출력 노드. 네트워크에 순환이나 루프가 없음
  - FFN의 출력 차원은 1이며, sigmoid 활성함수로 입력 프레임이 요약본에 포함될 확률을 출력, 본 과제에서는 해당 확률이 0.7 이상일 경우, 주요 장면이라도 간주하여 정량평가 진행
  - 정밀도와 재현율을 이용해 산출한 F1-score로 모델 성능 평가
- 동영상 설명 모델 생성
  - 고차원의 벡터를 정답 형식에 맞도록 차원을 줄이고, 정규화되지 않은 벡터값을 확률로 변환하기 위해 Feed-forward neural network를 사용 후 클래스를 예측 진행
  - 각 설명 카테고리 (인물관계, 장소 등) 마다 한 개의 FFN이 존재, 각 FFN의 출력 차원은 해당 카테고리의 가능한 정답 개수
  - FFN을 통과한 특징 벡터는 각 카테고리마다 가능한 모든 정답에 대한 확률을 계산하고, 그 중 가장 높은 확률의 정답을 선택
  - 각 카테고리 (인물관계, 장소 등)마다 주어진 보기 중 한 개씩의 정답을 예측
  - 정밀도와 재현율을 이용해 산출한 F1-score로 모델 성능 평가

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	Video Summarization	Generation	Video Transformer	F1-Score	0.3 점	0.65 점
2	Video Captioning	Generation	Video Transformer	F1-Score(micro)	0.3 점	0.51 점

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드
- 라벨링 카테고리 상세
  - 장소 (21종)
  - 인물관계 (12종)
  - 행동 (65종)
  - 감정 (7종)

데이터셋 구축 담당자

수행기관(주관) : 한국과학기술원

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
박주용	042-350-2924	juyongp@kaist.ac.kr	· 데이터 구축 총괄 및 설계

수행기관(참여)

수행기관(참여)
기관명	담당업무
메트릭스리서치	· 데이터 수집 및 정제
소리자바	· 데이터 수집 및 정제
KBS	· 데이터 수집 및 정제
데이터메이커	· 데이터 가공 및 검수
액션파워	· 데이터 학습모델 개발
미소정보기술	· 데이터 학습모델 개발
인터마인즈	· 데이터 검수 및 품질검증

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
박주용	042-350-2924	juyongp@kaist.ac.kr

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의