BETA K-콘텐츠 클린본 데이터
- 분야영상이미지·멀티모달
- 유형 비디오 , 이미지
- 생성 방식LLM
※ 26년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2026-06-10 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2026-06-05 산출물 최종 공개 소개
드라마, 예능, 뉴스 등 방송 콘텐츠에서 얼굴, 번호판, 로고 등 개인식별 및 상업적 요소가 포함된 장면을 선별하여 객체 단위로 Segmentation 마스크, 다국어(한글/영어) 설명 캡션, 객체 메타정보를 포함한 비식별처리 학습용 데이터셋 구축
구축목적
방송 콘텐츠 내 얼굴, 로고 등 민감 요소를 비식별 처리하여 다양한 산업 환경에서 재활용 가능한 학습용 데이터 제공 콘텐츠 편집, 검열, 저작권 보호 등 산업 수요 대응
-
메타데이터 구조표 데이터 영역 영상이미지·멀티모달 데이터 유형 비디오 , 이미지 데이터 형식 mp4 데이터 출처 미디어영상 라벨링 유형 세그멘테이션(이미지) 라벨링 형식 mp4, .json, jpg 데이터 활용 서비스 자막제거 서비스 데이터 구축년도/
데이터 구축량2025년/원천데이터 15,000건, 라벨링데이터 75,000장 -
○ 데이터 구축 규모
○ 데이터 구축 규모 1 분류(1단계) 분류(2단계) 분류(3단계) 형식 수량 단위 클린본
데이터교양 클린본영상 .mp4 1,930 개 마스크 영상 .mp4 1,930 개 라벨링 파일 .json 1,930 개 썸네일 이미지 .jpg 3,860 개 예능 클린본영상 .mp4 13,070 개 마스크 영상 .mp4 13,070 개 라벨링 파일 .json 13,070 개 썸네일 이미지 .jpg 26,140 개 합계 75,000 ○ 데이터 구축 규모 2 구분 원천 데이터 라벨링 데이터 분류
(1단계)분류
(2단계)분류
(3단계)형식 수량 단위 라벨링유형 형식 수량 파일
비율클린본
데이터교양 온에어 .mp4 1,930 개 영상, 이미지,
라벨링파일.mp4
.json
.jpg9,650 1:05 예능 온에어 .mp4 13,070 개 영상, 이미지,
라벨링파일.mp4
.json
.jpg65,350 1:05 합계 15,000 75000 ○ 데이터 분포
※ 라벨링 데이터중 라벨링파일(.json)에 분류되어있는 데이터○ 데이터 분포 CG 자막 유형별 분포 CFG 자막 효과 유형별 분포 구분 수량 비율 구분 수량 비율 정보전달형 617 4.11% 나타나기 5,567 37.11% 흥미유발형
(시선 집중)872 5.81% 슬라이드 1,727 11.51% 흥미유발형
(연출자 의도)7,893 52.62% 페이드 3,938 26.25% 흥미유발형
(출영자 대사 인용)5,621 37.47% 기타 3,771 25.14% 합계 15,000 100.00% 합계 15,000 100.00% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드(1) 비식별화 객체 세그멘테이션 모델 : Mask2Former
• Mask2Former : Masked-attention Mask Transformer for Universal Image Segmentation
• 예측된 세그먼트를 중심으로 localize된 feature에 attention을 제한하는 Transformer 디코더에서 masked attention을 사용. 그룹화 위한 특정 semantic에 따라 객체 또는 영역됨. 이미지의 모든 위치에 attend하는 표준 Transformer 디코더에 사용되는 cross-attention과 비교할 때, masked attention은 더 빠른 수렴과 향상된 성능으로 이어짐.
• 모델이 작은 객체/영역을 분할하는 데 도움이 되는 멀티스케일 고해상도 feature를 사용함.
• Self-attention과 cross-attention 순서 전환, query feature 학습 가능화, dropout 제거 등의 최적화 개선을 제안한다. 이 모든 것이 추가 컴퓨팅 없이 성능을 향상시킴.
• 무작위로 샘플링된 소수의 포인트에 대한 마스크 loss를 계산하여 성능에 영향을 주지 않고 학습 메모리를 3배 절약함. 이러한 개선 사항은 모델 성능을 향상 및 학습을 훨씬 쉽게 만들어 컴퓨팅이 제한된 사용자가 범용 아키텍처에 더 쉽게 접근 가능하게 함.
< Mask2Former 모델의 구조 >
(2) 비식별화 객체 인페인팅 모델 : BrushNet
• Brushnet은 Diffusion 기반 Inpainting 모델로 Plug and play 방식의 Dual Branch 구조를 제안
• Diffusion 모델 전체를 재학습할 필요 없이 사전 학습된 모델에 모듈을 통합하여 유연하게 사용가능함,
• 마스크된 이미지 특징 처리와 노이즈 제거 과정을 분리함으로써, 각 bruch가 자신의 과정에 집중할 수 있도록 지정함
< Mask2Former 모델의 구조 >
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드○ 데이터 구성
- 예능 / 교양 카테고리의 방송영상 데이터
- FHD(1920x1080)이상 품질의 영상
- 3초 이상의 영상
- 자막 IN/OUT점이 포함된 영상○ 유형별 구성
○ 유형별 구성 콘텐츠 유형 프로그램 목록 수량 비율 예능 마이턴, 섬총각 영웅, 강심장VS등 13,070건 87.13% 교양 TV동물농장, SBS스페셜, 내 방 안내서 등 1,930건 12.87% ○ 데이터 형식
○ 데이터 형식 구분 세부 내용 영상 해상도 FHD급 이상(1920×1080이상) 프레임레이트 29.97 fps이상 색 심도 8-bit이상 노이즈율 2%이하 파일 포맷 MP4 (H.264) ○ 데이터 포맷
○ 데이터 포맷 속성명 설명 필수 여부 예시 program_title 방송 프로그램 제목 필수 생방송 투데이 ep_id 방송 회차 고유ID 필수 EP1234 ep_date 해당 회차 방송일자 필수 2024-03-15 location 촬영 장소 선택 서울 종로구 data_type 원시 데이터 유형 필수 video license 제공 프로그램 범위(자동 확인) 필수 SBS file_name 데이터 파일명 필수 sbs_20240315_001.jpg timecode 영상 내 추출된 장면 타임코드 필수 00:12:45~00:12:55 ○ 어노테이션 포맷
○ 어노테이션 포맷 구분 속성명 타입 필수 설명 범위‧형식 비고 및 예시 1 info string Y 원시데이터 정보 1-1 video_source string Y 원본 영상 출처 자유 문자열 SBS 1-2 license string Y 데이터 라이선스 자유 문자열 CC BY-ND 1-3 provider_org string Y 제공 기관 자유 문자열 SBS 1-4 category string Y 방송 장르 구분 예능|교양 예능 1-5 copyright string Y 저작권자 및 이용 제한 조건 자유 문자열 "오지큐 컨소시엄. AI 학습 목적 외에 저작권자의 동의 없이 상업적 목적으로 이용할 수 없습니다." 2 clip string Y 원천데이터 정보 2-1 file_name string Y 원천데이터 파일명 자유 문자열 EN_P001_Ep001_C001.mp4 2-2 content_type string Y 콘텐츠 유형 "variety", "educational" variety 2-3 timeline string Y 표시 구간(초) [start(ss.mmm)]-[end(ss.mmm)] 60.000-63.000 2-4 clip_frame_rate number Y FPS(초당 프레임 수) 실수(float) 29.97 2-5 clip_frame number Y 총 프레임 수 정수(integer) 90 2-6 clip_size array[2] Y 영상클립의 해상도
(세로 및 가로 크기)[height, width] [1080, 1920] 2-7 thumbnail_frame_idx number Y 썸네일 프레임 정보 정수(integer) 96 3 object string Y 객체 정보 3-1 clip_frame number Y 클립 프레임 0 192 3-2 object_info string Y 객체 정보 3-2-1 object_type string Y 요소 유형 “logo” | “subtitle” subtitle 3-2-2 bbox array[4] 경계 상자 [[x1, y1, x2, y2],
[x1, y1, x2, y2]][[320, 180, 470, 380], [100, 50, 150, 200]] 3-2-3 polygon array[2]> Y 분할 다각형 [[[x1,y1], [x2,y2],…],…] [[[320, 180], [470, 180], [470, 380], [320, 380]], [[100, 50], [150, 50], [150, 200], [100, 200]]] 3 subtitle_info string Y 자막 정보 4-1 indoor_outdoor string Y 촬영 환경 실내(스튜디오) |실외(야외) 실내(스튜디오) 4-2 subtitle_effect array Y 자막 효과 나타나기|슬라이드|페이드|기타
*object_type이“subtitle”이 아닐경우none나타나기 4-3 subtitle_type string Y 자막 유형 정보전달형,흥미 유발형(출연자 대사 인용),흥미 유발형(연출자 의도),흥미 유발형(시선 집중)
*object_type이“subtitle”이 아닐 경우none흥미 유발형
(출연자 대사 인용) -
데이터셋 구축 담당자
수행기관(주관) : 오지큐 주식회사
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 정주영 02-6101-1230 young@ogqcorp.com 전체 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 에이치씨아이플러스(주) 데이터 구축 주식회사 티사이언티픽 데이터 검수 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 방승온 02-6101-1230 andy_bang@ogqcorp.com 정주영 02-6101-1230 young@ogqcorp.com AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 방승온 02-6101-1230 andy_bang@ogqcorp.com 정주영 02-6101-1230 young@ogqcorp.com 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 방승온 02-6101-1230 andy_bang@ogqcorp.com 정주영 02-6101-1230 young@ogqcorp.com
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의