콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#교육 # 교과 #자연어

BETA 교과 단계별 교과 데이터

교과단계별 교과 데이터 아이콘 이미지
  • 분야교육
  • 유형 텍스트 , 이미지
  • 생성 방식LMM
구축년도 : 2024 갱신년월 : 2025-04 조회수 : 244 다운로드 : 20 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2025-04-16 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2025-04-16 산출물 전체 공개

    소개

    - 교육단계별 교육과정의 교과서, 참고서 등에서 확보한 교과 텍스트 및 이미지 학습을 위한 데이터를 2022 개정 교육과정의 교과별 성취기준과 매핑되는 데이터를 확보하여 교육과정 교과 데이터를 AI 데이터셋으로 구축

    구축목적

    - 교육단계별 교육과정의 교과서, 참고서 등에서 확보한 텍스트 및 이미지 학습을 위한 데이터 구축
    - 학년・과목별 교육과정 학습 로드맵별 교과 내용 추론을 위한 데이터 구축
  • □ 데이터 통계
     ○ 데이터 구축 규모
      - 교과서, 참고서 내 포함된 텍스트 데이터 562,489 문장, 이미지 데이터 310,748 장

    데이터 통계-데이터 구축 규모
    데이터 구분 데이터 수량
    15-28. 교과 단계별 교과 데이터 텍스트 562,489
    이미지 310,748

     

     ○ 데이터 분포

    데이터 분포
    항목명 측정지표 내용
    과목별
    분포
    구성비 구분 비율(%) 수량(건)
    국어 19.20% 168,086
    영어 12.80% 111,468
    수학 26.70% 233,383
    사회 11.10% 96,692
    과학 11.00% 95,843
    정보 2.80% 24,873
    사회문화 2.60% 22,848
    기술가정 6.30% 54,786
    도덕 7.50% 65,258
    합계 100.00% 873,237
    캡션
    중복성
    구성비 9.44%
    캡션
    어절수
    수량 22,828,043 어절
    학년별
    분포
    구성비
    중첩률
    구분 비율(%) 수량(건) 구성비
    중첩률
    초등학교 3학년 7.90% 69,296 93.59%
    초등학교 4학년 9.20% 80,593
    초등학교 5학년 9.50% 83,179
    초등학교 6학년 9.50% 82,565
    중학교(공통) 1.40% 11,789
    중학교 1학년 15.00% 130,908
    중학교 2학년 15.00% 131,335
    중학교 3학년 12.90% 113,013
    고등학교 1학년 19.10% 166,754
    고등학교 2학년 0.50% 3,805
    합계 100.00% 873,237
    전체
    문장수
    최소
    수량
    562,489 문장
    전체
    이미지수
    최소
    수량
    310,748 장
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    □ 모델 학습
     ○ RAG(Retrieval-Augmented Generation)는 OpenAI와 Facebook AI Research에서 개발된 모델로, ‘정보 검색과 텍스트 생성’ 두 가지 단계를 결합한 모델

    질문 입력 문서 집합 (Top-k)
    Retriever (검색기) 
    관련 문서 검색 결과
    Generator (생성기)
    답변 출력

     

     ○  질의응답(Q&A) 서비스, 문서 요약, 대화 시스템 등 다양한 자연어 처리 응용 분야에서 사용되며, 주어진 질문에 대해 먼저 관련 정보를 검색한 후, 이를 바탕으로 답변을 생성함
     ○ 검색된 문서 및 데이터를 바탕으로 답변을 생성하기 때문에, 단순한 생성 모델보다 더 정확하고 신뢰할 수 있는 답변을 제공하기 때문에 정확한 정보 전달이 중요한 교과 데이터의 질의응답 task에 적합함

    모델 작동 과정
    모델 작동 과정
    1. 질문 입력 사용자가 질문을 입력합니다.
    2. 문서 검색 Retriever가 질문을 받아 대규모 텍스트 데이터베이스에서 관련 문서를 검색합니다.
    3. 정보 통합 검색된 문서들을 기반으로, Generator가 질문에 대한 답변을 생성합니다.
    4. 답변 출력 생성된 답변을 사용자에게 제공합니다.

     

    □ 서비스 활용 시나리오
    가) 교과데이터 질문 응답 시스템
     ○ 맞춤형 학습 지원: 학생들이 수업 내용을 복습하거나 궁금한 점을 해결하는데 사용 가능. 특히 학생들이 자신의 학습 수준에 맞춘 질문을 입력하면, 모델은 해당 내용에 맞는 답변을 생성하여 학생의 개별적인 학습을 지원 가능
    나) 온라인 교육 플랫폼
     ○ 인공지능 학습 도우미: 온라인 교육 플랫폼에서 RAG 모델을 활용하여 학습자들이 실시간으로 질문을 하고 답변을 받을 수 있도록 하여, 대규모 수업에서도 개인화된 학습 경험을 제공할 수 있음
    다) 교사 지원 도구
     ○ 강의 준비 및 보조: 교사는 강의를 준비하거나 학생들의 질문에 대답할 때 RAG 모델을 활용하여 추가적인 자료나 설명을 제공할 수 있음
     ○  자동화된 피드백 제공: 학생들의 과제나 테스트에 대한 자동화된 피드백 시스템을 구축할 수 있으며, 이를 통해 교사들의 업무 부담을 경감시키고 학습 효율성을 높일 수 있음

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    □ 데이터 구성

    데이터 구성
    Key Description 타입
    raw_data_info 원시데이터 정보 object
    raw_data_name 윈시데이터 파일명 String
    date 획득 일자 String
    publisher 출판사 String
    publication year 출판연도 String
    school 학교급 String
    grade 학년 String
    semester 학기 String
    subject 과목 String
    revision year 교육과정 개정연도 String
    source_data_info 원천데이터 정보 object
    source_data_name 원천데이터 파일명 String
    2009 achievement standard 2009 성취기준 Array
    2015 achievement standard 2015 성취기준 Array
    2022 achievement standard 2022 성취기준 Array
    learning_data_info 학습데이터 정보 object
    learning_data_name 학습데이터 파일명 String
    class_num 객체 연번 number
    class_name 객체 이름 String
    bounding_box 객체 좌표 Array
    text_description 설명문(문장, 이미지 내용 설명문) String
    text_qa 객체와 text_descriptio 내용에 대한 질문 String
    text_an 객체와 text_descriptio 내용에 대한 답변 String

     

    □ 어노테이션 포맷

    어노테이션 포맷
    No 속성명 타입 필수여부 설명 범위
    1 raw_data_info object - 원시데이터 정보  
      1-1 raw_data_name String Y 윈시데이터 파일명  
    1-2 date String Y 획득 일자  
    1-3 publisher String Y 출판사 “교학사”, “대교”, “2차 저작”
    1-4 publication year String Y 출판연도  
    1-5 school String Y 학교급 “초등학교”, “중학교”, “고등학교”
    1-6 grade String Y 학년 “1학년”, “2학년”, “3학년”, “4학년”, “5학년”, “6학년”, “공통”
    1-7 semester String Y 학기 “1학기”, “2학기”, “공통”
    1-8 subject String Y 과목 “국어”, “영어”, “수학”, “사회”, “과학”, “도덕“, ”기술가정“, ”사회문화“, ”정보“
    1-9 revision year String Y 교육과정 개정연도 “2009”, “2015”, “2022”
    2 source_data_info object - 원천데이터 정보  
      2-1 source_data_name String Y 원천데이터 파일명  
    2-2 2009 achievement standard Array N 2009 성취기준  
    2-3 2015 achievement standard Array N 2015 성취기준  
    2-4 2022 achievement standard Array Y 2022 성취기준  
    3 learning_data_info object - 학습데이터 정보  
      3-1 learning_data_name String Y 학습데이터 파일명  
    3-2 class_num number Y 객체 연번 1~99
    3-3 class_name String Y 객체 이름 “텍스트”, “이미지(표), ”이미지(차트)“, ”이미지(다이어그램)“, ”이미지(수식)“, ”이미지(기타)“
    3-4 bounding_box Array Y 객체 좌표 [x,y,x,y]
    3-5 text_description String Y 설명문(문장, 이미지 내용 설명문)  
    3-6 text_qa String Y 객체와 text_descriptio 내용에 대한 질문  
    3-7 text_an String Y 객체와 text_descriptio 내용에 대한 답변  

     

    □ 데이터 포맷

    데이터 포맷
    텍스트 데이터
    텍스트 데이터 이미지
    이미지 데이터(이미지(표))
    이미지 데이터 예시

     

    □ JSON 실제 예시

    json 예시 이미지 1

    json 예시 이미지 2

    json 예시 이미지 3

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜미디어그룹사람과숲
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    심재욱 02-830-8583 simjw@humanf.co.kr 사업실무책임자
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    디피니션 주식회사 데이터 수집, 정제
    주식회사 유니바 AI모델
    (사)한국인공지능협회 데이터 품질
    한알음정보 주식회사 데이터 가공, 검수
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    심재욱 02-830-8583 simjw@humanf.co.kr
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    남명진 053-615-1263 admin@univa.co.kr
    최유진 053-615-1263 dbwls99673@univa.co.kr
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    이진선 053-615-1263 jinseon@univa.co.kr
    최유진 053-615-1263 dbwls99673@univa.co.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

오프라인 데이터 이용 안내

본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.

K-ICT 빅데이터센터는 데이터 안심구역으로 지정되어
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.

데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 이용신청 탭 이미지

국방데이터 개방 안내

본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.