※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다.
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2025-04-16 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2025-04-16 산출물 전체 공개 소개
- 2022 개정 교육과정의 수학 성취기준과 매핑되는 문제 생성을 위한 교육단계별, 교육과정별 수학 문제, 풀이, 정답 이미지 데이터를 구축하고 인공지능 모델을 개발하여 풀이의 정오답 판단에 대한 유효성을 검증하는 AI 데이터셋으로 구축
구축목적
- 교육단계별 수학 교과 교육과정 문제-풀이과정 학습을 위한 데이터 구축 - 유사 수학 문제 생성을 위한 데이터 구축
-
메타데이터 구조표 데이터 영역 교육 데이터 유형 텍스트 , 이미지 데이터 형식 PNG 데이터 출처 - 데이터 이용 저작권 구매(㈜교학사, ㈜대교) - 데이터 2차 저작 라벨링 유형 바운딩박스(이미지) / 폴리곤(이미지) / 이미지캡션(텍스트) 라벨링 형식 json 데이터 활용 서비스 - 시각적 자료 기반 질문 답변 - 온라인 학습 도우미 데이터 구축년도/
데이터 구축량2024년/20,319건 -
□ 데이터 통계
○ 데이터 구축 규모
- 수학 교과 교육과정의 문제-풀이과정 데이터 20,319건데이터 통계-데이터 구축 규모 데이터 구분 데이터 수량 15-30. 수학 교과 문제-풀이과정 데이터 20,319 세트
(문항, 지문, 정답(오답), 해설)○ 데이터 분포
데이터 분포 항목명 측정지표 내용 난이도별
분포구성비 구분 비율(%) 수량(건) 상 4.01 814 중 32.51 6,606 하 63.48 12,899 합계 100 20,319 캡션
중복성구성비 16.15% 캡션
어절수수량 1,589,046 어절 학년별
분포구성비
중첩률구분 비율(%) 수량(건) 구성비
중첩률초등학교 3학년 10.14 2,060 94.80% 초등학교 4학년 10.25 2,082 초등학교 5학년 11.27 2,290 초등학교 6학년 12.4 2,519 중학교 1학년 16.95 3,444 중학교 2학년 17.56 3,569 중학교 3학년 15.57 3,164 고등학교 1학년 5.86 1,191 합계 100 20,319 문제유형별
분포구성비
중첩률구분 비율(%) 수량(건) 구성비
중첩률객관식 68.29 13,875 96.60% 주관식 31.71 6,444 합계 100 20,319 전체
문제-풀이
과정수최소 수량 20,010건 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1) 시각적 질의 응답
□ 모델 학습
○ Vision encoder와 LLM을 연결해 개발된 LLaVa 모델을 선택함
○ LLaVa는 Microsoft Research에서 연구 및 오픈소스로 공개한 모델로, 이미지를 그리드로 분할하고 독립적으로 인코딩한 후 LLM에 질문을 제공함※ 출처 : Liu, H., Li, C., Wu, Q., & Lee, Y. J. (2024). Visual instruction tuning. Advances in neural information processing systems, 36.
<그림> LLaVa 오픈소스 공개 모델 아키텍쳐○ 문제 데이터에는 문제를 설명하기 위한 이미지 데이터가 포함될 수 있음. 텍스트만 처리가능한 생성형 모델이 아닌 VQA task 수행이 가능한 LLaVa를 활용해 모델을 개발
○ 본 사업에서 구축된 문제 데이터를 학습에 적합하도록 전처리한 후 유니바가 fromscratch로 개발한 LLaVa 모델을 fine-tuning하여 국어 및 수학 교과 domain에 적합한 VQA 모델을 개발
○ 대규모 이미지-질문-답변 데이터셋으로 학습되며, 데이터셋에는 이미지와 관련된 다양한 질문과 각 질문에 대한 답변이 포함되어야 함※ 출처 : Liu, H., Li, C., Wu, Q., & Lee, Y. J. (2024). Visual instruction tuning. Advances in neural information processing systems, 36.
<그림> LLaVa 모델 샘플 응답 예시
□ 서비스 활용 시나리오
가) 시각적 자료 기반 질문 답변 : 교과목 내용 중 시각 자료(그래프, 지도, 도표 등)를 포함하는 문제에 대해 VQA 모델을 활용하여 학생들의 이해를 도울 수 있음
나) 실시간 피드백 제공 : 학생들이 교과목 관련 질문을 할 때 VQA 모델이 즉각적으로 답변을 제공하여 학습의 흐름을 유지하고 학습효과를 높일 수 있음. 학생들은 텍스트와 이미지를 포함한 질문을 할 수 있으며, VQA 모델이 이를 처리하여 실시간 피드백을 제공함
다) 자동화된 채점 시스템 : 대규모 교육 시스템에서 VQA 모델은 교사들의 작업 부담을 줄여줄 수 있음. 교과 과정의 퀴즈나 시험 문제를 자동으로 채점하여 신속하고 정확한 평가를 제공할 수 있음
라) 장애 학생 지원 : 시각적 자료를 이해하는 데 어려움을 겪는 학생들, 특히 시각 장애 학생들에게 텍스트 기반 설명을 제공하는 등 맞춤형 지원을 할 수 있음. 이를 통해 모든 학생들이 평등하게 교육을 받을 수 있는 환경을 조성할 수 있음2) 유사 수학문제 생성
□ 모델 학습
○ Llama2는 Meta에서 개발한 대형 언어 모델(LLM)로, 텍스트 생성, 이해 및 분석에 뛰어난 성능을 보여주는 모델
○ Llama2는 특히 자연어 처리(NLP) 작업에서 강력한 성능을 보이며, 텍스트 기반의 문제 해결을 위한 다양한 작업을 수행할 수 있음. 본 사업에서는 수학 문제 생성을 목표로 Llama2 모델을 활용하여 유사 수학 문제 생성 모델을 개발
○ 학습 과정에서는 Llama2를 수학 교과와 관련된 대규모 텍스트 데이터셋을 활용하여 fine-tuning을 진행. 이를 통해 수학 문제를 생성하는 데 특화된 모델 개발□ 서비스 활용 시나리오
○ 문제 맞춤형 생성: 학생의 학습 수준을 분석한 후, 해당 학생에게 적합한 난이도의 수학 문제를 생성할 수 있음. 예를 들어, 학생이 특정 주제에서 약점을 보이면, 그와 유사한 문제를 더 생성하여 반복 학습을 유도
○ 자동 문제 출제: 수학 학습 애플리케이션에서, 학생이 입력한 답을 기반으로 그 답과 관련된 유사한 수학 문제를 자동으로 생성하여 제공할 수 있음. 이를 통해 학생은 자신의 약점을 보완하고 학습을 강화
○ 주제별 문제 연습: 특정 수학 주제나 개념에 대해 집중적으로 문제를 풀어볼 수 있도록 유사 문제를 제공
○ 학습 자료 제작: 교육 기관이나 학원에서 커리큘럼에 맞는 수학 문제를 자동으로 생성하여 교재를 만들 수 있음. 이를 통해 교사는 학생들의 수준에 맞춘 학습 자료를 더 빠르고 효율적으로 준비 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드□ 데이터 구성
데이터 구성 Key Description 타입 raw_data_info 원시데이터 정보 object raw_data_name 윈시데이터 파일명 String date 획득 일자 String publisher 출판사 String publication year 출판연도 String school 학교급 String grade 학년 String semester 학기 String subject 과목 String revision year 교육과정 개정연도 String source_data_info 원천데이터 정보 object source_data_name 원천데이터 파일명 String 2009 achievement standard 2009 성취기준 Array 2015 achievement standard 2015 성취기준 Array 2022 achievement standard 2022 성취기준 Array level of difficulty 난이도 String types of problems 문제유형 String learning_data_info 학습데이터 정보 object class_num 객체 연번 number class_name 객체 이름 String class_info_list 클래스 정보 Array Type 어노테이션 종류 string Type_value 객체 좌표 Array text_description 설명문(클래스 내용 설명문) String □ 어노테이션 포맷
어노테이션 포맷 No 속성명 타입 필수여부 설명 범위 1 raw_data_info object - 원시데이터 정보 1-1 raw_data_name String Y 윈시데이터 파일명 1-2 date String Y 획득 일자 1-3 publisher String Y 출판사 “교학사”, “대교”, “2차 저작” 1-4 publication year String Y 출판연도 1-5 school String Y 학교급 “초등학교”, “중학교”, “고등학교” 1-6 grade String Y 학년 “1학년”, “2학년”, “3학년”, “4학년”, “5학년”, “6학년” 1-7 semester String Y 학기 “1학기”, “2학기”“공통” 1-8 subject String Y 과목 “수학”, “공통수학1”, “공통수학2”, “기본수학1”, “기본수학2” 1-9 revision year String Y 교육과정 개정연도 “2009”, “2015”, “2022” 2 source_data_info object - 원천데이터 정보 2-1 source_data_name String Y 원천데이터 파일명 2-2 2009 achievement standard Array N 2009 성취기준 2-3 2015 achievement standard Array N 2015 성취기준 2-4 2022 achievement standard Array Y 2022 성취기준 2-5 level of difficulty String Y 난이도 “상”, “중”, “하” 2-6 types of problems String Y 문제유형 “주관식”, “객관식” 3 learning_data_info object - 학습데이터 정보 3-1 class_num number Y 객체 연번 3-2 class_name String Y 객체 이름 “문항(텍스트)”, “문항(이미지)”, “정답(텍스트)”, “정답(이미지)” “오답(텍스트)”, “오답(이미지)”, “해설(텍스트)”, “해설(이미지)“ 3-3 class_info_list Array Y 클래스 정보 3-3-1 Type string Y 어노테이션 종류 "Polygon", "Bounding_Box" 3-3-2 Type_value Array Y 객체 좌표 [x,y,x,y] 3-3-3 text_description String Y 설명문(클래스 내용 설명문) □ 데이터 포맷
데이터 포맷 원천 데이터 □ JSON 실제 예시
{
"raw_data_info": {
"raw_data_name": "d3c97f5b-9efc-4c2e-8643-61bb583917f3",
"date": "2024-08-27",
"publisher": "교학사",
"publication_year": "2019-03-01",
"school": "고등학교",
"grade": "1학년",
"semester": "1학기",
"subject": "수학",
"revision_year": "2015"
},
"source_data_info": {
"source_data_name": "S3_고등_1_006701",
"2009_achievement_standard": [
""
],
"2015_achievement_standard": [
"[10수학01-14] 미지수가 1개인 연립일차부등식을 풀 수 있다."
],
"2022_achievement_standard": [
"[10공수1-02-09] 미지수가 1개인 연립일차부등식을 풀 수 있다."
],
"level_of_difficulty": "하",
"types_of_problems": "객관식"
},
"learning_data_info": [
{
"class_num": 1,
"class_name": "문항(텍스트)",
"class_info_list": [
{
"Type": "Bounding_Box",
"Type_value": [
[
82,
18.91,
729,
150.91
]
],
"text_description": "두 실수 $a, b$ 와 음의 실수 $c$ 에 대하여 $a>b$ 가 성립할 때, 다음 〈보기〉에서 옳은 것만을 있는 대로 고른 것은?"
}
]
},
{
"class_num": 2,
"class_name": "문항(이미지)",
"class_info_list": [
{
"Type": "Bounding_Box",
"Type_value": [
[
82,
176.91,
732,
373.91
]
],
"text_description": "보기\nㄱ. $a+c>b+c$\nㄴ. $a^{2}>b^{2}$\nㄷ. $\\frac{a}{c-1}<\\frac{b}{c-1}$"
}
]
},
{
"class_num": 3,
"class_name": "정답(텍스트)",
"class_info_list": [
{
"Type": "Bounding_Box",
"Type_value": [
[
84,
448.5,
193,
485.5
]
],
"text_description": "④ ㄱ, ㄷ"
}
]
},
{
"class_num": 4,
"class_name": "오답(텍스트)",
"class_info_list": [
{
"Type": "Bounding_Box",
"Type_value": [
[
296,
401.5,
624,
486.5
]
],
"text_description": "② ㄴ\n③ ㄱ, ㄴ\n⑤ ㄱ, ㄴ, ㄷ"
},
{
"Type": "Bounding_Box",
"Type_value": [
[
82,
401.5,
148,
436.5
]
],
"text_description": "① ㄱ"
}
]
},
{
"class_num": 5,
"class_name": "해설(텍스트)",
"class_info_list": [
{
"Type": "Bounding_Box",
"Type_value": [
[
53,
533.5,
439,
713.5
]
],
"text_description": "ㄱ. $a>b$ 이면 $a+c>b+c$ (참)\nㄴ. $a=1, b=-2$ 이면 $a>b$ 이지만 $a^{2}b$ 에서\n\\[\n\\frac{a}{c-1}<\\frac{b}{c-1} \\text { (참) }\n\\]\n따라서 옳은 것은 ㄱ, ㄷ이다."
}
]
}
]
} -
데이터셋 구축 담당자
수행기관(주관) : ㈜미디어그룹사람과숲
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 심재욱 02-830-8583 simjw@humanf.co.kr 사업실무책임자 수행기관(참여)
수행기관(참여) 기관명 담당업무 디피니션 주식회사 데이터 수집, 정제 주식회사 유니바 AI모델 (사)한국인공지능협회 데이터 품질 한알음정보 주식회사 데이터 가공, 검수 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 심재욱 02-830-8583 simjw@humanf.co.kr AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 남명진 053-615-1263 admin@univa.co.kr 최유진 053-615-1263 dbwls99673@univa.co.kr 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 이진선 053-615-1263 jinseon@univa.co.kr 최유진 053-615-1263 dbwls99673@univa.co.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.
국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.