AI-Hub

BETA 영상 교육자료 기반 문제 생성 데이터

분야교육
유형 텍스트 , 비디오
생성 방식LMM

구축년도 : 2024 갱신년월 : 2025-04 조회수 : 175 다운로드 : 3 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.0	2025-04-16	데이터 개방	Beta Version

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2025-04-16	산출물 전체 공개

소개

본 데이터셋은 학습자의 학습 패턴을 분석하고, 개별 학습자의 특성에 맞춘 문제 데이터를 생성하기 위해 교육 영상과 텍스트를 활용하여 구축된 데이터

구축목적

∎ 교육 효과 평가와 맞춤형 학습 계획 수립을 지원
∎ AI 디지털 교과서와 맞춤형 교수학습 플랫폼을 위한 고품질 학습 데이터를 제공하는 목적

메타데이터 구조표
데이터 영역	교육	데이터 유형	텍스트 , 비디오
데이터 형식	mp4, json	데이터 출처	저작권 해결 완료된 디피니션 교육 콘텐츠 수집
라벨링 유형	문제-정답 쌍(Q&A 데이터)	라벨링 형식	json
데이터 활용 서비스	교육 영상 스크립트로 문제 생성	데이터 구축년도/ 데이터 구축량	2024년/원천데이터 (영상) 3,900건 원천데이터 (스크립트 텍스트) 3,900건 라벨링데이터 (문제-정답 텍스트) 12,078건

- 데이터 구축 규모

데이터 구축 규모
구축 데이터	담당기관	수량
① 영상	트위그팜	3,900건
➁ 스크립트		3,900건
➂ 문제-정답 텍스트		12,078건

- 데이터 분포

데이터 분포
1레벨	2레벨	3레벨	4레벨	제출 수량
1. 원천데이터	국어	초등	1~2학년	200
			3~4학년	200
			5~6학년	250
		중등	1~3학년	251
	수학	초등	1~2학년	200
			3~4학년	300
			5~6학년	300
		중등	1~3학년	299
	사회	초등	3~4학년	250
		초등	5~6학년	350
		중등	1~3학년	350
	과학	초등	3~4학년	250
		초등	5~6학년	350
		중등	1~3학년	350
2. 라벨링데이터	국어	초등	1~2학년	619
			3~4학년	618
			5~6학년	773
		중등	1~3학년	772
	수학	초등	1~2학년	643
			3~4학년	929
			5~6학년	931
		중등	1~3학년	939
	사회	초등	3~4학년	765
		초등	5~6학년	1079
		중등	1~3학년	1080
	과학	초등	3~4학년	772
		초등	5~6학년	1081
		중등	1~3학년	1077

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드

AI 모델 상세 설명서 다운로드

AI 모델 상세 설명서 다운로드 AI 모델 다운로드

AI모델-유효성 검증 모델 학습 및 검증 조건
유효성 검증 모델 학습 및 검증 조건
개발 언어	Python 3.11.8
프레임워크	CUDA 12.2, Pytorch 2.4.1
학습 알고리즘	whisper-large
학습 조건	batch_size = 4
	optimizer = AdamW
	max_step = 4000
	initial ir = 1e-5
	weight_decay = 0
파일 형식	원본 데이터: mp4
파일 형식	전처리 후 데이터: json
전체 구축 데이터 대비 모델에 적용되는 비율	3,900 / 3,900 (100%)
모델 학습 과정별 데이터 분류 및 비율 정보	학습용 데이터셋: 3119 검증용 데이터셋: 392 평가용 데이터셋: 389 총 3,900건

AI모델 유효성 검증 모델 학습 및 검증 조건
유효성 검증 모델 학습 및 검증 조건
개발 언어	Python 3.11.8
프레임워크	CUDA 12.2, Pytorch 2.4.1
학습 알고리즘	kobart
학습 조건	batch_size = 8
	optimizer = AdamW
	num_train_epochs = 5
	initial ir = 3e-5
	weight_decay = 0
파일 형식	원본 데이터: csv
파일 형식	전처리 후 데이터: json
전체 구축 데이터 대비 모델에 적용되는 비율	12,000 / 12,000 (100%)
모델 학습 과정별 데이터 분류 및 비율 정보	학습용 데이터셋: 9662 검증용 데이터셋: 1207 평가용 데이터셋: 1209 총 12,078건

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

- 데이터 구성

데이터 구성
1레벨	2레벨	3레벨	4레벨
1. 원천데이터	국어	초등	1~2학년
			3~4학년
			5~6학년
		중등	1~3학년
	수학	초등	1~2학년
			3~4학년
			5~6학년
		중등	1~3학년
	사회	초등	3~4학년
		초등	5~6학년
		중등	1~3학년
	과학	초등	3~4학년
		초등	5~6학년
		중등	1~3학년
2. 라벨링데이터	국어	초등	1~2학년
			3~4학년
			5~6학년
		중등	1~3학년
	수학	초등	1~2학년
			3~4학년
			5~6학년
		중등	1~3학년
	사회	초등	3~4학년
		초등	5~6학년
		중등	1~3학년
	과학	초등	3~4학년
		초등	5~6학년
		중등	1~3학년

- 어노테이션 포맷

어노테이션 포맷
구분		속성명		타입	필수여부	설명	범위	비고
1		id		string	Y	구분식별자
2		video		object	Y	동영상 정보
	2-1	file_name		string	Y	동영상 파일 이름
	2-2	video_length		string	Y	동영상 길이 정보		0:00:00
	2-3	resolution		string	Y	해상도
	2-4	framerate		string	Y	초당 프레임 정보
	2-5	speaker_num		string	Y	발화자 수	최소값 1
	2-6	location_info		string	Y	강의 환경 정보
	2-7	school_level		string	Y	학교급 정보
	2-8	domain		string	Y	교과 과목 정보
	2-9	grade		string	Y	학년군 정보
	2-10	unit		string	Y	교과 단원 정보
	2-11	topic		string	Y	강의 주제
	2-12	keywords		array	Y	핵심 키워드
3		script		object	Y	스크립트 정보
	3-1	audio_script		array	Y	동영상 자막 스크립트
		3-1-1	subtitle	string	Y	자막
		3-1-2	start_time	string	Y	자막이 시작하는 시작 시간		00:00.0
		3-1-3	end_time	string	Y	자막이 끝나는 종료 시간		00:00.0
	3-2	source_script		string	Y	문제 생성을 위한 전체 스크립트
4		question_answer		array	Y	문제 생성 정보
	4-1	question_script		string	Y	문제 생성에 사용된 스크립트
	4-2	image_description		string	N	영상 이미지에 대한 설명
	4-3	audio_start_time		string	Y	audio_script 시작 시간
	4-4	audio_end_time		string	Y	audio_script 종료 시간
	4-5	question		string	Y	구축된 문제
	4-6	answer_1		string	Y	구축된 답변 #1
	4-7	answer_2		string	Y	구축된 답변 #2
	4-8	answer_3		string	N	구축된 답변 #3
	4-9	answer_4		string	N	구축된 답변 #4
	4-10	answer_5		string	N	구축된 답변 #5
	4-11	answer		array	Y	문제 정답
	4-12	fib_info		string	Y	틀린 답변 찾기 여부	true, false
	4-13	answer_level		number	Y	answer 개수에 따른 난이도 표시	1~4
	4-14	question_level		string	Y	문제 수준에 따른 난이도 표시	상, 중, 하

데이터셋 구축 담당자

수행기관(주관) : 트위그팜

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
백선호	02-1833-5926	ceo@twigfarm.net	총괄 담당자

수행기관(참여)

수행기관(참여)
기관명	담당업무
디피니션	데이터 수집 및 가공, 유효성 검증

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
백선호	02-1833-5926	ceo@twigfarm.net
엄향미	070-7603-3003	jhyangmi_eom@daekyo.co.kr

AI모델 관련 문의처

AI모델 관련 문의처
담당자명	전화번호	이메일
백선호	02-1833-5926	ceo@twigfarm.net
박주일	02-1833-5926	jooil.park@twigfarm.net

저작도구 관련 문의처

저작도구 관련 문의처
담당자명	전화번호	이메일
백선호	02-1833-5926	ceo@twigfarm.net
박주일	02-1833-5926	jooil.park@twigfarm.net

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의