AI-Hub

#교육 # 교과 #자연어

BETA 교과 단계별 교과 데이터

분야교육
유형 텍스트 , 이미지
생성 방식LMM

구축년도 : 2024 갱신년월 : 2025-04 조회수 : 244 다운로드 : 20 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.0	2025-04-16	데이터 개방	Beta Version

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2025-04-16	산출물 전체 공개

소개

- 교육단계별 교육과정의 교과서, 참고서 등에서 확보한 교과 텍스트 및 이미지 학습을 위한 데이터를 2022 개정 교육과정의 교과별 성취기준과 매핑되는 데이터를 확보하여 교육과정 교과 데이터를 AI 데이터셋으로 구축

구축목적

- 교육단계별 교육과정의 교과서, 참고서 등에서 확보한 텍스트 및 이미지 학습을 위한 데이터 구축
- 학년・과목별 교육과정 학습 로드맵별 교과 내용 추론을 위한 데이터 구축

메타데이터 구조표
데이터 영역	교육	데이터 유형	텍스트 , 이미지
데이터 형식	PNG	데이터 출처	- 데이터 이용 저작권 구매(㈜교학사, ㈜대교) - 데이터 2차 저작
라벨링 유형	바운딩박스(이미지) / 질의응답(텍스트) / 이미지캡션(텍스트)	라벨링 형식	json
데이터 활용 서비스	- 교과데이터 질문 응답 시스템 - 시각적 자료 기반 질문 답변	데이터 구축년도/ 데이터 구축량	2024년/873,237건

□ 데이터 통계
○ 데이터 구축 규모
- 교과서, 참고서 내 포함된 텍스트 데이터 562,489 문장, 이미지 데이터 310,748 장

데이터 통계-데이터 구축 규모
데이터 구분		데이터 수량
15-28. 교과 단계별 교과 데이터	텍스트	562,489
15-28. 교과 단계별 교과 데이터	이미지	310,748

○ 데이터 분포

데이터 분포
항목명	측정지표	내용
과목별 분포	구성비	구분		비율(%)		수량(건)
		국어		19.20%		168,086
		영어		12.80%		111,468
		수학		26.70%		233,383
		사회		11.10%		96,692
		과학		11.00%		95,843
		정보		2.80%		24,873
		사회문화		2.60%		22,848
		기술가정		6.30%		54,786
		도덕		7.50%		65,258
		합계		100.00%		873,237
캡션 중복성	구성비	9.44%
캡션 어절수	수량	22,828,043 어절
학년별 분포	구성비 중첩률	구분	비율(%)		수량(건)		구성비
		구분	비율(%)		수량(건)		중첩률
		초등학교 3학년	7.90%		69,296		93.59%
		초등학교 4학년	9.20%		80,593
		초등학교 5학년	9.50%		83,179
		초등학교 6학년	9.50%		82,565
		중학교(공통)	1.40%		11,789
		중학교 1학년	15.00%		130,908
		중학교 2학년	15.00%		131,335
		중학교 3학년	12.90%		113,013
		고등학교 1학년	19.10%		166,754
		고등학교 2학년	0.50%		3,805
		합계	100.00%		873,237
전체 문장수	최소 수량	562,489 문장
전체 이미지수	최소 수량	310,748 장

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드

AI 모델 상세 설명서 다운로드

AI 모델 상세 설명서 다운로드 AI 모델 다운로드

□ 모델 학습
○ RAG(Retrieval-Augmented Generation)는 OpenAI와 Facebook AI Research에서 개발된 모델로, ‘정보 검색과 텍스트 생성’ 두 가지 단계를 결합한 모델

질문 입력	→	문서 집합 (Top-k)
↓
Retriever (검색기)
↓
관련 문서 검색 결과
↓
Generator (생성기)
↓
답변 출력

○ 질의응답(Q&A) 서비스, 문서 요약, 대화 시스템 등 다양한 자연어 처리 응용 분야에서 사용되며, 주어진 질문에 대해 먼저 관련 정보를 검색한 후, 이를 바탕으로 답변을 생성함
○ 검색된 문서 및 데이터를 바탕으로 답변을 생성하기 때문에, 단순한 생성 모델보다 더 정확하고 신뢰할 수 있는 답변을 제공하기 때문에 정확한 정보 전달이 중요한 교과 데이터의 질의응답 task에 적합함

모델 작동 과정
모델 작동 과정
1. 질문 입력	사용자가 질문을 입력합니다.
2. 문서 검색	Retriever가 질문을 받아 대규모 텍스트 데이터베이스에서 관련 문서를 검색합니다.
3. 정보 통합	검색된 문서들을 기반으로, Generator가 질문에 대한 답변을 생성합니다.
4. 답변 출력	생성된 답변을 사용자에게 제공합니다.

□ 서비스 활용 시나리오
가) 교과데이터 질문 응답 시스템
○ 맞춤형 학습 지원: 학생들이 수업 내용을 복습하거나 궁금한 점을 해결하는데 사용 가능. 특히 학생들이 자신의 학습 수준에 맞춘 질문을 입력하면, 모델은 해당 내용에 맞는 답변을 생성하여 학생의 개별적인 학습을 지원 가능
나) 온라인 교육 플랫폼
○ 인공지능 학습 도우미: 온라인 교육 플랫폼에서 RAG 모델을 활용하여 학습자들이 실시간으로 질문을 하고 답변을 받을 수 있도록 하여, 대규모 수업에서도 개인화된 학습 경험을 제공할 수 있음
다) 교사 지원 도구
○ 강의 준비 및 보조: 교사는 강의를 준비하거나 학생들의 질문에 대답할 때 RAG 모델을 활용하여 추가적인 자료나 설명을 제공할 수 있음
○ 자동화된 피드백 제공: 학생들의 과제나 테스트에 대한 자동화된 피드백 시스템을 구축할 수 있으며, 이를 통해 교사들의 업무 부담을 경감시키고 학습 효율성을 높일 수 있음

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

□ 데이터 구성

데이터 구성
Key	Description	타입
raw_data_info	원시데이터 정보	object
raw_data_name	윈시데이터 파일명	String
date	획득 일자	String
publisher	출판사	String
publication year	출판연도	String
school	학교급	String
grade	학년	String
semester	학기	String
subject	과목	String
revision year	교육과정 개정연도	String
source_data_info	원천데이터 정보	object
source_data_name	원천데이터 파일명	String
2009 achievement standard	2009 성취기준	Array
2015 achievement standard	2015 성취기준	Array
2022 achievement standard	2022 성취기준	Array
learning_data_info	학습데이터 정보	object
learning_data_name	학습데이터 파일명	String
class_num	객체 연번	number
class_name	객체 이름	String
bounding_box	객체 좌표	Array
text_description	설명문(문장, 이미지 내용 설명문)	String
text_qa	객체와 text_descriptio 내용에 대한 질문	String
text_an	객체와 text_descriptio 내용에 대한 답변	String

□ 어노테이션 포맷

어노테이션 포맷
No		속성명	타입	필수여부	설명	범위
1		raw_data_info	object	-	원시데이터 정보
	1-1	raw_data_name	String	Y	윈시데이터 파일명
	1-2	date	String	Y	획득 일자
	1-3	publisher	String	Y	출판사	“교학사”, “대교”, “2차 저작”
	1-4	publication year	String	Y	출판연도
	1-5	school	String	Y	학교급	“초등학교”, “중학교”, “고등학교”
	1-6	grade	String	Y	학년	“1학년”, “2학년”, “3학년”, “4학년”, “5학년”, “6학년”, “공통”
	1-7	semester	String	Y	학기	“1학기”, “2학기”, “공통”
	1-8	subject	String	Y	과목	“국어”, “영어”, “수학”, “사회”, “과학”, “도덕“, ”기술가정“, ”사회문화“, ”정보“
	1-9	revision year	String	Y	교육과정 개정연도	“2009”, “2015”, “2022”
2		source_data_info	object	-	원천데이터 정보
	2-1	source_data_name	String	Y	원천데이터 파일명
	2-2	2009 achievement standard	Array	N	2009 성취기준
	2-3	2015 achievement standard	Array	N	2015 성취기준
	2-4	2022 achievement standard	Array	Y	2022 성취기준
3		learning_data_info	object	-	학습데이터 정보
	3-1	learning_data_name	String	Y	학습데이터 파일명
	3-2	class_num	number	Y	객체 연번	1~99
	3-3	class_name	String	Y	객체 이름	“텍스트”, “이미지(표), ”이미지(차트)“, ”이미지(다이어그램)“, ”이미지(수식)“, ”이미지(기타)“
	3-4	bounding_box	Array	Y	객체 좌표	[x,y,x,y]
	3-5	text_description	String	Y	설명문(문장, 이미지 내용 설명문)
	3-6	text_qa	String	Y	객체와 text_descriptio 내용에 대한 질문
	3-7	text_an	String	Y	객체와 text_descriptio 내용에 대한 답변

□ 데이터 포맷

데이터 포맷
텍스트 데이터

이미지 데이터(이미지(표))

□ JSON 실제 예시

json 예시 이미지 1

json 예시 이미지 2

json 예시 이미지 3

데이터셋 구축 담당자

수행기관(주관) : ㈜미디어그룹사람과숲

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
심재욱	02-830-8583	simjw@humanf.co.kr	사업실무책임자

수행기관(참여)

수행기관(참여)
기관명	담당업무
디피니션 주식회사	데이터 수집, 정제
주식회사 유니바	AI모델
(사)한국인공지능협회	데이터 품질
한알음정보 주식회사	데이터 가공, 검수

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
심재욱	02-830-8583	simjw@humanf.co.kr

AI모델 관련 문의처

AI모델 관련 문의처
담당자명	전화번호	이메일
남명진	053-615-1263	admin@univa.co.kr
최유진	053-615-1263	dbwls99673@univa.co.kr

저작도구 관련 문의처

저작도구 관련 문의처
담당자명	전화번호	이메일
이진선	053-615-1263	jinseon@univa.co.kr
최유진	053-615-1263	dbwls99673@univa.co.kr

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의