AI-Hub

#수학 # 수준별 맞춤 학습 # 교과지식체계 및 역량 측정 데이터세트 # 학력 격차 해소 # 취약점 진단 알고리즘 # 평가 환경 데이터 레이블링

수학분야 학습자 역량 측정 데이터

분야한국어
유형 텍스트

구축년도 : 2020 갱신년월 : 2021-12 조회수 : 22,107 다운로드 : 1,215 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2021-12-28	데이터 추가 개방
1.0	2021-06-18	데이터 최초 개방

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2022-11-14	데이터 설명 및 어노데이션 포맷 설명 내용 수정

소개

수학 분야 학력 격차 해소 위한 학습자 수학 성취수준 측정 데이터

구축목적

수학 분야 교과지식체계 구축 및 (초1~중3 범위의) 주제별 학습자 역량 측정 및 비교를 위한 데이터세트

메타데이터 구조표
데이터 영역	한국어	데이터 유형	텍스트
데이터 형식		데이터 출처
라벨링 유형		라벨링 형식
데이터 활용 서비스		데이터 구축년도/ 데이터 구축량	2020년/226만

구축 내용 및 제공 데이터량

초등학교 1학년부터 중학교 3학년까지 총 9개 학년 구간에서 22,379명의 학습자가 총 9,461개의 문항 중에서 해당 학년의 수학 문제를 푼 결과로 생성된 총 2,531,250건의 정오답 데이터를 활용해서 아래와 같이 세 가지 유형의 성취수준 데이터세트를 생성

구축 내용 및 제공 데이터량 표
원천 데이터 종류	자료 형태	데이터세트 규모	비고 (범위 등)
학습자의 성취수준 데이터세트 (정오답표)	JSON 포맷의 파일	226만건 이상	초1 ~ 중3 (9개 학년 구간)
문항정보 어노테이션 (IRT 데이터)	JSON 포맷의 파일	2,140건 이상	3개의 어노테이션 (난이도, 변별도, 추측도)
학습자 어노테이션 (IRT 데이터)	JSON 포맷의 파일	100,000건 이상	2개의 어노테이션 (이해력, 진점수)

2015 수학과 교육과정을 기준으로 수학 내용 전문가들이 수학교과의 개념, 주제, 유형 등 수학 지식을 체계적으로 탐색할 수 있도록 구조화 한 데이터세트를 생성

구축 내용 및 제공 데이터량 표2
원천 데이터 종류	자료 형태	데이터세트 규모	비고 (범위 등)
수학 지식체계 데이터세트	json	단위개념 기준 약 3,000개 항목	K-12 전체

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드
AI 모델 상세 설명서 다운로드
AI 모델 다운로드

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	정오답 예측 정확도	Prediction	Deep Knowledge Tracing	ACC	80 %	80 %
2	정오답 예측 정확도	Prediction	Deep Knowledge Tracing	AUC-ROC	0.8 단위없음	0.83 단위없음

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2021.12.28	데이터 추가 개방
1.0	2021.06.18	데이터 최초 개방

구축 목적

수학 분야 교과지식체계 구축 및 (초1~중3 범위의) 주제별 학습자 역량 측정 및 비교를 위한 데이터세트

활용 분야

본 과제를 통해 구축되는 데이터세트를 활용한 AI 응용 시범 서비스 개발을 통해 학력격차 해소 방안 검증 및 전국 확대 서비스와 인공지능 기반 에듀테크 산업 활성화 기반 조성

주요 키워드

수학 분야 수준별 맞춤 학습
수학 분야 교과지식체계 및 역량 측정 데이터세트
수학 분야 학력 격차 해소
수학 분야 취약점 진단 알고리즘
수학 분야 평가 환경 데이터 레이블링

소개

초·중·고등학교 등 교육 분야에서 혁신적인 수준별 맞춤형 수학교육이 실현될 수 있도록 수학 분야 지식체계를 크라우드소싱으로 구축하여 지속적으로 확대 발전될 수 있도록 개방형 생태계 조성
수학 교과에 대한 학습자 역량 측정을 위한 기준 데이터세트 및 취약점을 진단할 수 있는 통계적 및 인공지능 알고리즘을 공개하여 에듀테크 스타트업 및 교육기관에서 최적화할 수 있도록 데이터 생태계 조성
도농 간 교육 기회 격차, 소득수준 간 교육 격차 등 여러 가지 불균형 속에서 심화되고 있는 수학 성취수준 격차를 인공지능 기술로 극복하고 사교육비도 획기적으로 절감

수학분야 학습자 역량 측정 데이터-소개-1

구축 내용 및 제공 데이터량

구축 내용 및 제공 데이터량 표
원천 데이터 종류	자료 형태	데이터세트 규모	비고 (범위 등)
학습자의 성취수준 데이터세트 (정오답표)	JSON 포맷의 파일	226만건 이상	초1 ~ 중3 (9개 학년 구간)
문항정보 어노테이션 (IRT 데이터)	JSON 포맷의 파일	2,140건 이상	3개의 어노테이션 (난이도, 변별도, 추측도)
학습자 어노테이션 (IRT 데이터)	JSON 포맷의 파일	100,000건 이상	2개의 어노테이션 (이해력, 진점수)

구축 내용 및 제공 데이터량 표2
원천 데이터 종류	자료 형태	데이터세트 규모	비고 (범위 등)
수학 지식체계 데이터세트	json	단위개념 기준 약 3,000개 항목	K-12 전체

대표도면

수학분야 학습자 역량 측정 데이터-대표도면-1 수학분야 학습자 역량 측정 데이터-대표도면-2

<수학지식체계 데이터셋 대표도면>

데이터 구조

데이터 구성
1) 학습자 성취수준 데이터세트 (JSON 포맷)

-수학 교과의 작은 개념 단위로 실시된 시험에서 각 시험지 별로 응시한 학습자의 답안지(정오답)를 토대로 각 학생 수준을 이해력과 진점수로 나타내고 시험에 사용된 평가문항에 대해서는 난이도, 변별도, 추측도로 나타낸 데이터세트
- 목적: 학습자의 정오답 예측을 위한 (RNN 기반) AI 모델의 학습과 추론에 활용
- 데이터세트 구분: (1)문항 정오답표, (2) IRT를 활용한 문항 분석 결과(난이도, 변별도, 추측도), (3) IRT를 활용한 응시자 분석 결과(이해력, 진점수)

* (참고) 각 시험별로 기록된 학습자들의 문항 정오답표를 (시험과 학습자 간 종속성을 제거한) 객관화된 데이터세트로 생성하기 위해 IRT 모델을 구현한 자동화된 저작도구를 사용하여 문항 분석 결과(난이도, 변별도, 추측도)와 응시자 분석 결과(이해력, 진점수)를 어노테이션 → 교육 분야에서 인공지능을 활용한 지식 추론(knowledge tracing) 분야에서 객관화되고 검증된 데이터세트 생성 방법

2) 수학 지식체계 데이터세트 (JSON 포맷)

- 학습자의 취약 지식을 추적하기 위해 (교육부 고시 제2015-7) 수학과 교육과정을 근거로 수학교육 내용전문가(크라우드워커)들이 온라인 저작도구를 이용해서 구축한 ‘수학지식체계’ 데이터 세트(내용 분류체계와 학습 태그 약 3000개 이상)
- 목적: 각 문항의 분류체계 메타데이터 값으로 활용하여 취약지식을 발견하는데 활용하고, 향후 응용 서비스에서 문항과 콘텐츠를 추천하는 기준 메타데이터 정보로도 활용
- 예시: “학습자 성취수준 데이터세트”를 이용하여 AI 모델을 학습시키면, 해당 AI 모델이 학생이 어떤 지식태그(Knowledge Tag)를 몇 %의 확률로 아는지 모르는지 추론할 수 있음
* 지식태그에 포함된 어떤 단위개념이 부족한지 즉 “취약점 진단”이라는 AI 모델의 활용 측면에서 사용됨

어노테이션 포맷
1) 학습자 성취수준 데이터세트 (JSON 포맷)

가. 문항 정오답표 학습자가 응시한 시험의 결과로 생성된 정오답을 익명화된 학습자 기본 속성과 함께 기록한 최초의 정제 결과
가-1. 문항 정오답표 (JSON 포맷)

어노테이션 포맷 표
No	속성명	설명	타입	필수여부	비고
1	learnerID	학습자ID (비식별조치 된 ID로 생성)	String	필수
2	learnerProfile	학습자의 기본적인 특성 정보 (성별, 학교급, 학년)	List	필수
3	testID	평가(시험) ID	Integer	필수
4	assessmentItemID	평가문항 ID	Integer	필수
5	answerCode	평가 문항별 정오답 구분	String	필수	정답: 1 오답: 0
6	assessmentType	평가의 유형 (단원평가로 기본값 셋팅)	String	선택
7	note	레이블링 과정에서 특이점이 발생할 경우의 메모	String	선택
8	timeStamp	데이터가 생성/수정 된 시간	Date&Time	필수

<문항 정오답표: 시험지별 학생당 시험지 정오답표 (JSON 포맷)>

나. IRT를 이용한 문항정보 어노테이션 (문항 정오답표를 IRT로 분석한 객관화된 데이터)
나-1. IRT를 이용한 문항정보 레이블링 (JSON 포맷) 학습자들이 응시한 시험에 사용된 각 문항들을 객관화된 상태로 설명하기 위해 세 가지 어노테이션 정보(난이도, 변별도, 추측도)를 자동화된 방식으로 생성한 정제 결과

어노테이션 포맷 표2
No	속성명	설명	타입	필수여부	비고
1	testID	평가(시험) ID	String	필수
2	assessmentItemID	평가 문항 ID	String	필수
3	difficultyLevel	문항 난이도	Float	필수
4	discriminationalLevel	문항 변별도	Float	필수
5	guessLevel	문항 추측도	Float	필수
6	reliabilityLevel	문항 신뢰도	Float	선택
7	note	레이블링 과정에서 특이점이 발생할 경우의 메모	String	선택
8	timeStamp	데이터가 생성/수정된 시간	Date&Time	필수
9	knowledgeTag	개념적 지식 태그 (ID와 NAME으로 구분)	String Pair	필수	분류체계 (수학지식 체계정보)

(참고) 문항 정오답표: 시험지별 학생당 시험지 정오답표 (JSON 포맷)

어노테이션 포맷-문항 정오답표: 시험지별 학생당 시험지 정오답표 (JSON 포맷) 참고 이미지

나-2. IRT를 이용한 학습자 수준 레이블링 데이터 (JSON 포맷)
학습자의 정답율을 토대로 객관화된 성취수준을 설명하기 위해 두 가지 어노테이션 정보(이해력,진점수)를 자동화된 방식으로 생성한 정제 결과

어노테이션 포맷 표3
No	속성명	설명	타입	필수여부
1	leanerID	학습자 ID (비식별조치 된 ID로 생성)	String	필수
2	testID	평가(시험)ID	Integer	필수
3	theta	학습자의 이해력 수준	Float	필수
4	realScore	학습자의 진점수	Float	필수
5	note	레이블링 과정에서 특이점이 발생할 경우의 메모	String	선택
6	timeStamp	데이터가 생성/수정된 시간	Date&Time	필수

(참고) IRT를 이용한 문항정보: 시험지의 각 문항별 IRT 3모수 값 및 문항별 분류체계 (JSON 포맷)

어노테이션 포맷-IRT를 이용한 문항정보: 시험지의 각 문항별 IRT 3모수 값 및 문항별 분류체계 (JSON 포맷) 참고 이미지

2) 수학 지식체계 데이터세트 (JSON 포맷, 약 3000여개)
‘수학과 교육과정’을 토대로 수학 교과에서 가르치는 지식의 개념과 위계구조 등 구조화된 지식 트리를 구성하기 위한 속성들을 어노테이션한 생성 및 정제 결과

(참고) IRT를 이용한 학습자 수준 정보: 이해도와 진점수 (JSON 포맷)

어노테이션 포맷-IRT를 이용한 학습자 수준 정보: 이해도와 진점수 (JSON 포맷) 참고 이미지

(참고) IRT를 이용한 학습자 수준 정보: 이해도와 진점수 (JSON 포맷)

수학 지식체계 데이터에 대한 어노테이션 구조 예시

데이터셋 구축 담당자

수행기관(주관) : 아이스크림에듀

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
조용상	02-3440-4736	zzosang@i-screamedu.co.kr	· 성취수준 데이터 확보 및 제공 · 데이터 구축 총괄

수행기관(참여)

수행기관(참여)
기관명	담당업무
(주)티맥스비아이	· 인공지능 데이터 구축 및 추론 엔진 기술 개발 · 지식 스페이스 설계 및 구축 기술
지능정보산업협회	· 지능정보 관련 기업 및 공공기관 네트워크 · 데이터세트와 AI 모델 보급·확산
(사)한국에듀테크산업협회	· 에듀테크 관련기업 및 공공기관 네트워크 · 데이터 세트와 AI 모델 보급·확산

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
박대협(아이스크림에듀)	02-3440-4736	dhp@i-screamedu.co.kr

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

파일 목록

전체 다운로드 AI 허브 Shell 다운로드 AI 허브 오픈 API 이용안내

연관 데이터

소상공인 고객 주문 질의-응답 텍스트

방송콘텐츠 한국어-유럽어 번역 말뭉치

극한 소음 환경 소리 데이터

한국인의 주제적응형 영어말하기 평가데이터

베트남어 말뭉치 데이터

어린이 음성 맥락 인식률 향상을 위한 방송 음성 및 자연어 처리 학습용 데이터

법률/규정 (판결서, 약관 등) 텍스트 분석 데이터

인도네시아어 말뭉치 데이터

수학분야 학습자 역량 측정 데이터

데이터 개요

데이터 변경이력

데이터 히스토리

소개

구축목적

메타데이터 구조표

데이터 통계

교육활용 동영상

저작도구

저작도구 설명서 및 저작도구 다운로드

활용 AI 모델 및 코드

AI 모델 상세 설명서 다운로드

데이터 성능 지표

데이터 성능 점수

데이터 성능 지표

어노테이션 포맷 및 데이터 구조

설명서 및 활용가이드 다운로드

구축 업체

데이터셋 구축 담당자

수행기관(주관) : 아이스크림에듀

수행기관(참여)

데이터 관련 문의처

안심존 소개

안심존 이용절차

안심존사용신청서 및 첨부서류목록

안심존 이용문의

파일 목록

연관 데이터