영상이해(맥락)기술을 위한 방송 영상

영상이해(맥락)기술을 위한 방송 영상

데이터셋명 영상이해(맥락)기술을 위한 방송 영상
데이터 분야 비전 데이터 유형 비디오
구축기관 줌인터넷 데이터 관련 문의처 담당자명 이수윤(줌인터넷)
가공기관 줌인터넷, 채널봄, 인피닉, 솔트룩스, 알디프로젝트, 마인즈랩, 지플러스 전화번호 02-583-4640
검수기관 채널봄, 인피닉, 솔트룩스 이메일 tndbs83@zuminternet.com
구축 데이터량 86.4만 구축년도 2020년
버전 1.1 최종수정일자 2021.09.15
소개 방송콘텐츠 내 장면 또는 맥락 (context)을 이해하고 해당 메타 데이터를 추출해주는 장면 또는 맥락 인식 AI 기술 개발을 위한 영상 데이터
주요 키워드 객체인식, 맥락인식, 방송영상, 방송미디어 영상 데이터셋, 동영상 광고
저작권 및 이용정책 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기]
데이터설명서 자료보기 구축활용가이드 자료보기
샘플데이터 다운로드 교육활용동영상 영상보기
저작도구 다운로드 AI모델 다운로드
데이터 변경이력
버전 일자 변경내용 비고
1.1 2021.09.15 데이터 추가 개방  
1.0 2021.06.30 데이터 최초 개방  
구축 목적
  • 저작권, 지재권, 초상권, 특허권 등 적법성이 확보된 원본 데이터 및 가공 데이터의 구축·제공을 통해 지능형 영상 인식 AI의 학습 개발에 활용하기 위한 데이터셋 구축
활용 분야
  • 방송사 영상을 대상으로 구축하여, 실제 방송에서 획득할 수 있는 다양한 산업에서 활용 가능
    1. - 지적재산권, 초상권 등 법적 문제를 해결된 데이터로, 다양한 동영상 학습데이터 확보가 필요한 연구 및 검색서비스, 광고 서비스
    2. - 상황, 장면, 맥락(context)의 메타데이터가 기반 데이터가 되는 OTT 플랫폼, 영상제작사, 콘텐츠 투자사 등
소개
  • 방송사 및 개인으로부터 수집한 영상에 라벨링된 데이터셋으로, 다양한 장르의 영상에 라벨링된 객체, 상황, 인물등의 라벨링 정보를 담고 있으며 학습 데이터로 활용 가능하도록 지적재산권, 초상권 등 법적 문제를 해결한 원천 데이터를 활용함
  • 영상이해(맥락) 기술을 위한 방송 영상 콘텐츠 데이터는 KDX(MBN), YTN, EBS의 다양한 방송사 영상을 대상으로 맥락, 객체 정보를 라벨링함영상이해(맥락) 기술을 위한 방송 영상 콘텐츠 데이터 예시소개이미지

 

구축 내용 및 제공 데이터량
  • .AIHub-container .text-list li table span:before{ display:none; }
  • 91번은 약 750시간 가량의 동영상을 대상으로 라벨링된 데이터로 구성
    세부과제명 데이터 형태 목표 수량 구축량
    91번 객체 18만개 이상 약 150만개
    맥락 만8천개 이상 약 16만개
     
대표도면

31 91.영상이해(맥락) 기술을 위한 방송 영상 콘텐츠 데이터 예시이미지 0

image 74
필요성
  • AI 학습 데이터는 4차 산업 혁명 시대의 중요한 생산 요소로 미국/ 유럽 등 AI 선도국에서는 정부와 민간이 협업하여 대규모의 데이터를 구축하고 있는 것에 반해, 한국은 비교적 경쟁력이 뒤쳐져 있어 이에 대한 대응 방안의 필요성이 대두되고 있음
  • 다만 국내 중소, 벤처 기업들은 오랜 시간과 많은 비용이 발생하는 AI 학습용 원천 데이터의 확보 부담으로 제품 서비스 개발에 어려움을 겪고 있음
  • 이에 저작권, 지재권, 초상권 등의 적법석이 확보된 원본 데이터 및 가공 데이터의 구축과 제공을 통해 중소/벤처기업 및 스타트업과 다양한 기관, 연구소 등에서 자유롭게 연구개발이 가능한 토대를 마련하고자 함
데이터구조
  • 객체
    depth 항목 description 예시

    1

    info

    데이터셋 정보

    -

    1.1.

    version

    버전 정보

    1.0.0

    1.2.

    name

    데이터셋 이름

    #100 객체 데이터셋

    1.3.

    description

    데이터셋 설명

    프레임 단위의 객체 태깅

    1.4.

    created_at

    생성 날짜

    43885

    2

    annotation

    라벨링 정보

    -

    2.1

    frames

    이미지 정보

    -

    2.1.1.

    filepath

    이미지 경로

    /EBS/program-0000/video-0000/0000000048.png"

    2.1.2.

    object

    객체 라벨링 정보

    -

    2.1.2.1.

    category_id

    객체명 id

    0

    2.1.2.2.

    bbox

    바운딩박스

    (X-min, Y-min, width, heigh)

    564, 182, 659, 898

    3

    categories

    객체명 정보

    -

    3.1.

    id

    객체명 번호

    0

    3.2.

    name

    객체명 한글

    아이

     
  • 맥락
    depth 항목 description 예시

    1

    info

    데이터셋 정보

    -

    1.1.

    version

    버전 정보

    1.0.0

    1.2.

    name

    데이터셋 이름

    #100 맥락 데이터셋

    1.3.

    description

    데이터셋 설명

    클립 단위의 맥락 태깅

    1.4.

    created_at

    생성 날짜

    2020-002-24

    2

    annotation

    라벨링 정보

    -

    2.1.

    clips

    맥락 단위의 영상 클립 정보

    -

    2.1.1.

    filepath

    맥락 단위의 영상 클립 경로

    filepath": "/KDX/program-0003/video-0036/clip-0431.mp4

    2.1.2.

    category_id

    맥락명 id

    29

    2.1.3.

    length_sec

    맥락 단위의 영상 클립 길이

    5

    2.2.

    frames

    이미지 정보

    -

    2.2.1.

    filepath

    이미지 경로

    /KDX/program-0003/video-0036/0000003412.png

    2.2.2.

    object

    객체 라벨링 정보

    -

    2.2.2.1.

    category_id

    객체명 id

    45

    2.2.2.2.

    bbox

    바운딩박스

    (X-min, Y-min, width, heigh)

    592, 181, 207, 182

    3

    context_categories

    맥락 카테고리 정보

    -

    3.1.

    id

    맥락명 번호

    29

    3.2.

    L1

    맥락명 한글 (대분류)

    관리활동

    3.3.

    L2

    맥락명 한글 (중분류)

    건강

    3.4.

    L3

    맥락명 한글 (소분류)

    족욕

     
수행기관(주관) : 줌인터넷
수행기관(주관)
책임자 연락처(대표전화) 대표 이메일 담당업무
이수윤 02-583-4640 tndbs83@zuminternet.com · PM
수행기관(참여)
수행기관(참여)
기관명 담당업무 기관명 담당업무
피플레이 · 콘텐츠 업무 솔트룩스 · 데이터구조화
· 저작도구
· 데이터 라벨링 (크라우드 소싱 활용)
· 품질관리
마인즈랩 · 데이터 구조화 및 전처리 인피닉 · 데이터구조화
· 저작도구