※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다.
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2025-04-16 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2025-04-16 산출물 전체 공개 소개
- 교육단계별 교육과정의 교과서, 참고서 등에서 확보한 교과 텍스트 및 이미지 학습을 위한 데이터를 2022 개정 교육과정의 교과별 성취기준과 매핑되는 데이터를 확보하여 교육과정 교과 데이터를 AI 데이터셋으로 구축
구축목적
- 교육단계별 교육과정의 교과서, 참고서 등에서 확보한 텍스트 및 이미지 학습을 위한 데이터 구축 - 학년・과목별 교육과정 학습 로드맵별 교과 내용 추론을 위한 데이터 구축
-
메타데이터 구조표 데이터 영역 교육 데이터 유형 텍스트 , 이미지 데이터 형식 PNG 데이터 출처 - 데이터 이용 저작권 구매(㈜교학사, ㈜대교) - 데이터 2차 저작 라벨링 유형 바운딩박스(이미지) / 질의응답(텍스트) / 이미지캡션(텍스트) 라벨링 형식 json 데이터 활용 서비스 - 교과데이터 질문 응답 시스템 - 시각적 자료 기반 질문 답변 데이터 구축년도/
데이터 구축량2024년/873,237건 -
□ 데이터 통계
○ 데이터 구축 규모
- 교과서, 참고서 내 포함된 텍스트 데이터 562,489 문장, 이미지 데이터 310,748 장데이터 통계-데이터 구축 규모 데이터 구분 데이터 수량 15-28. 교과 단계별 교과 데이터 텍스트 562,489 이미지 310,748 ○ 데이터 분포
데이터 분포 항목명 측정지표 내용 과목별
분포구성비 구분 비율(%) 수량(건) 국어 19.20% 168,086 영어 12.80% 111,468 수학 26.70% 233,383 사회 11.10% 96,692 과학 11.00% 95,843 정보 2.80% 24,873 사회문화 2.60% 22,848 기술가정 6.30% 54,786 도덕 7.50% 65,258 합계 100.00% 873,237 캡션
중복성구성비 9.44% 캡션
어절수수량 22,828,043 어절 학년별
분포구성비
중첩률구분 비율(%) 수량(건) 구성비 중첩률 초등학교 3학년 7.90% 69,296 93.59% 초등학교 4학년 9.20% 80,593 초등학교 5학년 9.50% 83,179 초등학교 6학년 9.50% 82,565 중학교(공통) 1.40% 11,789 중학교 1학년 15.00% 130,908 중학교 2학년 15.00% 131,335 중학교 3학년 12.90% 113,013 고등학교 1학년 19.10% 166,754 고등학교 2학년 0.50% 3,805 합계 100.00% 873,237 전체
문장수최소
수량562,489 문장 전체
이미지수최소
수량310,748 장 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드□ 모델 학습
○ RAG(Retrieval-Augmented Generation)는 OpenAI와 Facebook AI Research에서 개발된 모델로, ‘정보 검색과 텍스트 생성’ 두 가지 단계를 결합한 모델질문 입력 → 문서 집합 (Top-k) ↓ Retriever (검색기) ↓ 관련 문서 검색 결과 ↓ Generator (생성기) ↓ 답변 출력 ○ 질의응답(Q&A) 서비스, 문서 요약, 대화 시스템 등 다양한 자연어 처리 응용 분야에서 사용되며, 주어진 질문에 대해 먼저 관련 정보를 검색한 후, 이를 바탕으로 답변을 생성함
○ 검색된 문서 및 데이터를 바탕으로 답변을 생성하기 때문에, 단순한 생성 모델보다 더 정확하고 신뢰할 수 있는 답변을 제공하기 때문에 정확한 정보 전달이 중요한 교과 데이터의 질의응답 task에 적합함모델 작동 과정 모델 작동 과정 1. 질문 입력 사용자가 질문을 입력합니다. 2. 문서 검색 Retriever가 질문을 받아 대규모 텍스트 데이터베이스에서 관련 문서를 검색합니다. 3. 정보 통합 검색된 문서들을 기반으로, Generator가 질문에 대한 답변을 생성합니다. 4. 답변 출력 생성된 답변을 사용자에게 제공합니다. □ 서비스 활용 시나리오
가) 교과데이터 질문 응답 시스템
○ 맞춤형 학습 지원: 학생들이 수업 내용을 복습하거나 궁금한 점을 해결하는데 사용 가능. 특히 학생들이 자신의 학습 수준에 맞춘 질문을 입력하면, 모델은 해당 내용에 맞는 답변을 생성하여 학생의 개별적인 학습을 지원 가능
나) 온라인 교육 플랫폼
○ 인공지능 학습 도우미: 온라인 교육 플랫폼에서 RAG 모델을 활용하여 학습자들이 실시간으로 질문을 하고 답변을 받을 수 있도록 하여, 대규모 수업에서도 개인화된 학습 경험을 제공할 수 있음
다) 교사 지원 도구
○ 강의 준비 및 보조: 교사는 강의를 준비하거나 학생들의 질문에 대답할 때 RAG 모델을 활용하여 추가적인 자료나 설명을 제공할 수 있음
○ 자동화된 피드백 제공: 학생들의 과제나 테스트에 대한 자동화된 피드백 시스템을 구축할 수 있으며, 이를 통해 교사들의 업무 부담을 경감시키고 학습 효율성을 높일 수 있음 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드□ 데이터 구성
데이터 구성 Key Description 타입 raw_data_info 원시데이터 정보 object raw_data_name 윈시데이터 파일명 String date 획득 일자 String publisher 출판사 String publication year 출판연도 String school 학교급 String grade 학년 String semester 학기 String subject 과목 String revision year 교육과정 개정연도 String source_data_info 원천데이터 정보 object source_data_name 원천데이터 파일명 String 2009 achievement standard 2009 성취기준 Array 2015 achievement standard 2015 성취기준 Array 2022 achievement standard 2022 성취기준 Array learning_data_info 학습데이터 정보 object learning_data_name 학습데이터 파일명 String class_num 객체 연번 number class_name 객체 이름 String bounding_box 객체 좌표 Array text_description 설명문(문장, 이미지 내용 설명문) String text_qa 객체와 text_descriptio 내용에 대한 질문 String text_an 객체와 text_descriptio 내용에 대한 답변 String □ 어노테이션 포맷
어노테이션 포맷 No 속성명 타입 필수여부 설명 범위 1 raw_data_info object - 원시데이터 정보 1-1 raw_data_name String Y 윈시데이터 파일명 1-2 date String Y 획득 일자 1-3 publisher String Y 출판사 “교학사”, “대교”, “2차 저작” 1-4 publication year String Y 출판연도 1-5 school String Y 학교급 “초등학교”, “중학교”, “고등학교” 1-6 grade String Y 학년 “1학년”, “2학년”, “3학년”, “4학년”, “5학년”, “6학년”, “공통” 1-7 semester String Y 학기 “1학기”, “2학기”, “공통” 1-8 subject String Y 과목 “국어”, “영어”, “수학”, “사회”, “과학”, “도덕“, ”기술가정“, ”사회문화“, ”정보“ 1-9 revision year String Y 교육과정 개정연도 “2009”, “2015”, “2022” 2 source_data_info object - 원천데이터 정보 2-1 source_data_name String Y 원천데이터 파일명 2-2 2009 achievement standard Array N 2009 성취기준 2-3 2015 achievement standard Array N 2015 성취기준 2-4 2022 achievement standard Array Y 2022 성취기준 3 learning_data_info object - 학습데이터 정보 3-1 learning_data_name String Y 학습데이터 파일명 3-2 class_num number Y 객체 연번 1~99 3-3 class_name String Y 객체 이름 “텍스트”, “이미지(표), ”이미지(차트)“, ”이미지(다이어그램)“, ”이미지(수식)“, ”이미지(기타)“ 3-4 bounding_box Array Y 객체 좌표 [x,y,x,y] 3-5 text_description String Y 설명문(문장, 이미지 내용 설명문) 3-6 text_qa String Y 객체와 text_descriptio 내용에 대한 질문 3-7 text_an String Y 객체와 text_descriptio 내용에 대한 답변 □ 데이터 포맷
데이터 포맷 텍스트 데이터 이미지 데이터(이미지(표)) □ JSON 실제 예시
-
데이터셋 구축 담당자
수행기관(주관) : ㈜미디어그룹사람과숲
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 심재욱 02-830-8583 simjw@humanf.co.kr 사업실무책임자 수행기관(참여)
수행기관(참여) 기관명 담당업무 디피니션 주식회사 데이터 수집, 정제 주식회사 유니바 AI모델 (사)한국인공지능협회 데이터 품질 한알음정보 주식회사 데이터 가공, 검수 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 심재욱 02-830-8583 simjw@humanf.co.kr AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 남명진 053-615-1263 admin@univa.co.kr 최유진 053-615-1263 dbwls99673@univa.co.kr 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 이진선 053-615-1263 jinseon@univa.co.kr 최유진 053-615-1263 dbwls99673@univa.co.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.
국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.