수학분야 학습자 역량 측정

수학분야 학습자 역량 측정

데이터셋명 수학분야 학습자 역량 측정 데이터
데이터 분야 교육 데이터 유형 텍스트
구축기관 ㈜아이스크림에듀 데이터 관련 문의처 담당자명 조용상
가공기관 (주)아이스크림에듀 전화번호 1544-0910
검수기관 (주)아이스크림에듀 이메일 zzosang@i-screamedu.co.kr
구축 데이터량 226만 구축년도 2020년
버전 1.0 최종수정일자 2021.06.18
소개 수학 분야 학력 격차 해소 위한 학습자 수학 성취수준 측정 데이터
주요 키워드 수학 분야 수준별 맞춤 학습, 수학 분야 교과지식체계 및 역량 측정 데이터세트, 수학 분야 학력 격차 해소, 수학 분야 취약점 진단 알고리즘, 수학 분야 평가 환경 데이터 레이블링
저작권 및 이용정책 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기]
데이터설명서 자료보기 구축활용가이드 자료보기
샘플데이터 다운로드 교육활용동영상 영상보기
저작도구 다운로드 AI모델 다운로드
데이터 변경이력
버전 일자 변경내용 비고
1.0 2021.06.18 데이터 최초 개방  
구축 목적
  • 수학 분야 교과지식체계 구축 및 (초1~중3 범위의) 주제별 학습자 역량 측정 및 비교를 위한 데이터세트
활용 분야
  • 본 과제를 통해 구축되는 데이터세트를 활용한 AI 응용 시범 서비스 개발을 통해 학력격차 해소 방안 검증 및 전국 확대 서비스와 인공지능 기반 에듀테크 산업 활성화 기반 조성
주요 키워드
  • 수학 분야 수준별 맞춤 학습
  • 수학 분야 교과지식체계 및 역량 측정 데이터세트
  • 수학 분야 학력 격차 해소
  • 수학 분야 취약점 진단 알고리즘
  • 수학 분야 평가 환경 데이터 레이블링
소개
  • 초·중·고등학교 등 교육 분야에서 혁신적인 수준별 맞춤형 수학교육이 실현될 수 있도록 수학 분야 지식체계를 크라우드소싱으로 구축하여 지속적으로 확대 발전될 수 있도록 개방형 생태계 조성
  • 수학 교과에 대한 학습자 역량 측정을 위한 기준 데이터세트 및 취약점을 진단할 수 있는 통계적 및 인공지능 알고리즘을 공개하여 에듀테크 스타트업 및 교육기관에서 최적화할 수 있도록 데이터 생태계 조성
  • 도농 간 교육 기회 격차, 소득수준 간 교육 격차 등 여러 가지 불균형 속에서 심화되고 있는 수학 성취수준 격차를 인공지능 기술로 극복하고 사교육비도 획기적으로 절감
     

구축 내용 및 제공 데이터량
  • 초등학교 1학년부터 중학교 3학년까지 총 9개 학년 구간에서 22,379명의 학습자가 총 9,461개의 문항 중에서 해당 학년의 수학 문제를 푼 결과로 생성된 총 2,531,250건의 정오답 데이터를 활용해서 아래와 같이 세 가지 유형의 성취수준 데이터세트를 생성
     
    구축 내용 및 제공 데이터량 표
    원천 데이터 종류 자료 형태 데이터세트
    규모
    비고 (범위 등)
    학습자의 성취수준
    데이터세트
    (정오답표)
    JSON 포맷의 파일 226만건 이상 초1 ~ 중3
    (9개 학년 구간)
    문항정보 어노테이션
    (IRT 데이터)
    JSON 포맷의 파일 2,140건 이상 3개의 어노테이션
    (난이도, 변별도, 추측도)
    학습자 어노테이션
    (IRT 데이터)
    JSON 포맷의 파일 100,000건 이상 2개의 어노테이션
    (이해력, 진점수)

 

  • 2015 수학과 교육과정을 기준으로 수학 내용 전문가들이 수학교과의 개념, 주제, 유형 등 수학 지식을 체계적으로 탐색할 수 있도록 구조화 한 데이터세트를 생성
     
    구축 내용 및 제공 데이터량 표2
    원천 데이터 종류 자료 형태 데이터세트
    규모
    비고 (범위 등)
    수학 지식체계 데이터세트 json 단위개념 기준 약 3,000개 항목 K-12 전체
대표도면
소개자료 이미지 대표도면1소개자료 이미지 대표도면2

<수학지식체계 데이터셋 대표도면>

필요성
  • 국내 AI 요약기술 개발과 관련된 다수의 연구들에서는 해당 텍스트의 제목을 본문의 요약문으로 가정하거나 뉴스 기사의 제목 혹은 첫 문장을 전체 기사의 요약문으로 가정하여 AI 요약기술을 위한 학습 데이터로 활용 중 이러한 조작적 정의는 본문 전체의 핵심 내용이나 의무 전달을 온전히 포함하지 못하는 한계점을 내포 선진국에서는 AI 요약기술 개발을 위한 다양한 문서요약 텍스트 데이터를 공개하고 있음 이에 한국어를 이해하고 지식을 추출하여 새로운 가치를 창출할 수 있는 문서요약 AI 기술개발을 위하여 검증된 학습용 데이터를 구축하고자 함
데이터 구조
  • 데이터 구성
    1) 학습자 성취수준 데이터세트 (JSON 포맷)

    -수학 교과의 작은 개념 단위로 실시된 시험에서 각 시험지 별로 응시한 학습자의 답안지(정오답)를 토대로 각 학생 수준을 이해력과 진점수로 나타내고 시험에 사용된 평가문항에 대해서는 난이도, 변별도, 추측도로 나타낸 데이터세트
    - 목적: 학습자의 정오답 예측을 위한 (RNN 기반) AI 모델의 학습과 추론에 활용
    - 데이터세트 구분: (1)문항 정오답표, (2) IRT를 활용한 문항 분석 결과(난이도, 변별도, 추측도), (3) IRT를 활용한 응시자 분석 결과(이해력, 진점수)소개자료 이미지 6

     

    * (참고) 각 시험별로 기록된 학습자들의 문항 정오답표를 (시험과 학습자 간 종속성을 제거한) 객관화된 데이터세트로 생성하기 위해 IRT 모델을 구현한 자동화된 저작도구를 사용하여 문항 분석 결과(난이도, 변별도, 추측도)와 응시자 분석 결과(이해력, 진점수)를 어노테이션 → 교육 분야에서 인공지능을 활용한 지식 추론(knowledge tracing) 분야에서 객관화되고 검증된 데이터세트 생성 방법

    2) 수학 지식체계 데이터세트 (JSON 포맷)

    - 학습자의 취약 지식을 추적하기 위해 (교육부 고시 제2015-7) 수학과 교육과정을 근거로 수학교육 내용전문가(크라우드워커)들이 온라인 저작도구를 이용해서 구축한 ‘수학지식체계’ 데이터 세트(내용 분류체계와 학습 태그 약 3000개 이상)
    - 목적: 각 문항의 분류체계 메타데이터 값으로 활용하여 취약지식을 발견하는데 활용하고, 향후 응용 서비스에서 문항과 콘텐츠를 추천하는 기준 메타데이터 정보로도 활용
    - 예시: “학습자 성취수준 데이터세트”를 이용하여 AI 모델을 학습시키면, 해당 AI 모델이 학생이 어떤 지식태그(Knowledge Tag)를 몇 %의 확률로 아는지 모르는지 추론할 수 있음
    * 지식태그에 포함된 어떤 단위개념이 부족한지 즉 “취약점 진단”이라는 AI 모델의 활용 측면에서 사용됨

     
  • 어노테이션 포맷
    1) 학습자 성취수준 데이터세트 (JSON 포맷)

    가. 문항 정오답표 학습자가 응시한 시험의 결과로 생성된 정오답을 익명화된 학습자 기본 속성과 함께 기록한 최초의 정제 결과
          가-1. 문항 정오답표 (JSON 포맷)
    어노테이션 포맷 표
    No 속성명 설명 타입 필수여부 비고
    1 learnerID 학습자ID
    (비식별조치 된 ID로 생성)
    String 필수  
    2 learnerProfile 학습자의 기본적인 특성 정보
    (성별, 학교급, 학년)
    List 필수  
    3 testID 평가(시험) ID Integer 필수  
    4 assessmentItemID 평가문항 ID Integer 필수  
    5 answerCode 평가 문항별 정오답 구분 String 필수 정답: 1
    오답: 0
    6 assessmentType 평가의 유형
    (단원평가로 기본값 셋팅)
    String 선택  
    7 note 레이블링 과정에서 특이점이
    발생할 경우의 메모
    String 선택  
    8 timeStamp 데이터가 생성/수정 된 시간 Date&Time 필수  

     

    <문항 정오답표: 시험지별 학생당 시험지 정오답표 (JSON 포맷)>

     

    나. IRT를 이용한 문항정보 어노테이션 (문항 정오답표를 IRT로 분석한 객관화된 데이터)
          나-1. IRT를 이용한 문항정보 레이블링 (JSON 포맷) 학습자들이 응시한 시험에 사용된 각 문항들을 객관화된 상태로 설명하기 위해 세 가지 어노테이션 정보(난이도, 변별도, 추측도)를 자동화된 방식으로 생성한 정제 결과
     

    어노테이션 포맷 표2
    No 속성명 설명 타입 필수여부 비고
    1 testID 평가(시험) ID String 필수  
    2 assessmentItemID 평가 문항 ID String 필수  
    3 difficultyLevel 문항 난이도 Float 필수  
    4 discriminationalLevel 문항 변별도 Float 필수  
    5 guessLevel 문항 추측도 Float 필수  
    6 reliabilityLevel 문항 신뢰도 Float 선택  
    7 note 레이블링 과정에서 특이점이
    발생할 경우의 메모
    String 선택  
    8 timeStamp 데이터가 생성/수정된 시간 Date&Time 필수  
    9 knowledgeTag 개념적 지식 태그
    (ID와 NAME으로 구분)
    String Pair 필수 분류체계
    (수학지식
    체계정보)

     

    <IRT를 이용한 문항정보: 시험지의 각 문항별 IRT 3모수 값 및 문항별 분류체계 (JSON 포맷)>

     

    나-2. IRT를 이용한 학습자 수준 레이블링 데이터 (JSON 포맷)
    학습자의 정답율을 토대로 객관화된 성취수준을 설명하기 위해 두 가지 어노테이션 정보(이해력,진점수)를 자동화된 방식으로 생성한 정제 결과
     

    어노테이션 포맷 표3
    No 속성명 설명 타입 필수여부 비고
    1 leanerID 학습자 ID
    (비식별조치 된 ID로 생성)
    String 필수  
    2 testID 평가(시험)ID Integer 필수  
    3 theta 학습자의 이해력 수준 Float 필수  
    4 realScore 학습자의 진점수 Float 필수  
    5 note 레이블링 과정에서 특이점이
    발생할 경우의 메모
    String 선택  
    6 timeStamp 데이터가 생성/수정된 시간 Date&Time 필수  

     

    <IRT를 이용한 학습자 수준 정보: 이해도와 진점수 (JSON 포맷)>

     

    2) 수학 지식체계 데이터세트 (JSON 포맷, 약 3000여개)
    ‘수학과 교육과정’을 토대로 수학 교과에서 가르치는 지식의 개념과 위계구조 등 구조화된 지식 트리를 구성하기 위한 속성들을 어노테이션한 생성 및 정제 결과
     

     

    <수학 지식체계 데이터에 대한 어노테이션 구조 예시>

    소개자료 이미지 8
데이터셋 구축 담당자
수행기관(주관) : (주)아이스크림에듀
수행기관 (주관)
책임자명 전화번호 대표이메일 담당업무
조용상 1544-0910 zzosang@i-screamedu.co.kr · 성취수준 데이터 확보 및 제공
· 데이터 구축 총괄
수행기관(참여)
수행기관(참여)
기관명 담당업무 기관명 담당업무
(주)티맥스비아이 · 인공지능 데이터 구축 및 추론 엔진 기술 개발
· 지식 스페이스 설계 및 구축 기술
(사)한국에듀테크산업협회 · 에듀테크 관련기업 및 공공기관 네트워크
· 데이터 세트와 AI 모델 보급·확산
지능정보산업협회 · 지능정보 관련 기업 및 공공기관 네트워크
· 데이터세트와 AI 모델 보급·확산