콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#교육 # 교과 # 문제 #자연어

BETA 국어 교과 지문형 문제 데이터

국어 교과 지문형 문제 데이터 아이콘 이미지
  • 분야교육
  • 유형 텍스트 , 이미지
  • 생성 방식LMM
구축년도 : 2024 갱신년월 : 2025-04 조회수 : 257 다운로드 : 16 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2025-04-16 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2025-04-16 산출물 전체 공개

    소개

    - 학년별/과목별 교육과정과 매핑되는 문제(지문과 연결된 문항, 답)와 해설 세트를 국어 교과 교육과정의 지문별 문제 데이터 구축하고 인공지능 모델을 개발하여 국어 교과 지문 학습을 위한 문제인지 판단에 대한 유효성 검증을 진행한 AI 데이터셋으로 구축

    구축목적

    - 교육단계별 국어 교과과정의 다양한 지문 문제 학습을 위한 데이터 구축
    - 교과 지문 분석 및 성취 수준별 문제 추천을 위한 데이터 구축
  • □ 데이터 통계
     ○ 데이터 구축 규모
      - 국어 교과 교육과정의 문제 데이터 10,270건  

    데이터 통계-데이터 구축 규모
    데이터 구분 데이터 수량
    15-29. 국어 교과 지문형 문제 데이터 10,270 세트
    (문항, 지문, 정답(오답), 해설)

     

     ○ 데이터 분포

    데이터 분포
    항목명 측정지표 내용
    난이도별
    분포
    구성비 구분 비율(%) 수량(건)
    3.8 386
    26.7 2,738
    69.5 7,146
    합계 100 10,270
    캡션
    중복성
    구성비 13.08%
    캡션
    어절수
    수량 2,993,0070 어절
    학년별
    분포
    구성비
    중첩률
    구분 비율(%) 수량(건) 구성비
    중첩률
    중학교 1학년 29.2 3,001 97.37%
    중학교 2학년 22.5 2,307
    중학교 3학년 28.6 2,936
    고등학교 1학년 14.6 1,501
    고등학교 2학년 5.1 525
    합계 100 10,270
    전체
    문제수
    최소
    수량
    10,115건
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    1) 시각적 질의 응답

    □ 모델 학습

     ○ Vision encoder와 LLM을 연결해 개발된 LLaVa 모델을 선택함
     ○ LLaVa는 Microsoft Research에서 연구 및 오픈소스로 공개한 모델로, 이미지를 그리드로 분할하고 독립적으로 인코딩한 후 LLM에 질문을 제공함

    LLaVa 오픈소스 공개 모델 아키텍쳐 이미지

    ※ 출처 : Liu, H., Li, C., Wu, Q., & Lee, Y. J. (2024). Visual instruction tuning. Advances in neural information processing systems, 36.

    <그림>  LLaVa 오픈소스 공개 모델 아키텍쳐

     

     ○ 문제 데이터에는 문제를 설명하기 위한 이미지 데이터가 포함될 수 있음. 텍스트만 처리가능한 생성형 모델이 아닌 VQA task 수행이 가능한 LLaVa를 활용해 모델을 개발
     ○ 본 사업에서 구축된 문제 데이터를 학습에 적합하도록 전처리한 후 유니바가 fromscratch로 개발한 LLaVa 모델을 fine-tuning하여 국어 및 수학 교과 domain에 적합한 VQA 모델을 개발
     ○ 대규모 이미지-질문-답변 데이터셋으로 학습되며, 데이터셋에는 이미지와 관련된 다양한 질문과 각 질문에 대한 답변이 포함되어야 함
     ○ 국어의 경우 이미지 데이터 비율이 매우 적기 때문에 국어 문제 원천데이터(국어 문제에 대한 이미지 파일)를 활용해 VQA(Visual Question Answering) 모델을 학습시키고자 함. 문제 이미지 데이터를 활용해 문서 해석이 가능한 AI 모델을 개발하는 것이 가능하며, 본 모델은 국어 문제에서 제공되는 다양한 형태의 텍스트(지문, 문제, 선택지 등)를 정확하게 이해하고, 질문에 맞는 답변을 도출할 수 있음

    LLaVa 모델 샘플 응답 예시_1LLaVa 모델 샘플 응답 예시_2

    ※ 출처 : Liu, H., Li, C., Wu, Q., & Lee, Y. J. (2024). Visual instruction tuning. Advances in neural information processing systems, 36. 

    <그림> LLaVa 모델 샘플 응답 예시

     

    □ 서비스 활용 시나리오

     

     가) 시각적 자료 기반 질문 답변 : 교과목 내용 중 시각 자료(그래프, 지도, 도표 등)를 포함하는 문제에 대해 VQA 모델을 활용하여 학생들의 이해를 도울 수 있음

     

     나) 실시간 피드백 제공 : 학생들이 교과목 관련 질문을 할 때 VQA 모델이 즉각적으로 답변을 제공하여 학습의 흐름을 유지하고 학습효과를 높일 수 있음. 학생들은 텍스트와 이미지를 포함한 질문을 할 수 있으며, VQA 모델이 이를 처리하여 실시간 피드백을 제공함

     

     다) 자동화된 채점 시스템 : 대규모 교육 시스템에서 VQA 모델은 교사들의 작업 부담을 줄여줄 수 있습니다. 교과 과정의 퀴즈나 시험 문제를 자동으로 채점하여 신속하고 정확한 평가를 제공할 수 있음

     

     라) 장애 학생 지원 : 시각적 자료를 이해하는 데 어려움을 겪는 학생들, 특히 시각 장애 학생들에게 텍스트 기반 설명을 제공하는 등 맞춤형 지원을 할 수 있음. 이를 통해 모든 학생들이 평등하게 교육을 받을 수 있는 환경을 조성할 수 있음

     

    2) 성취 수준별 문제 추천

     

    □ 모델 학습

     

     ○ RAG(Retrieval-Augmented Generation)는 OpenAI와 Facebook AI Research에서 개발된 모델로, ‘정보 검색과 텍스트 생성’ 두 가지 단계를 결합한 모델

    질문 입력 문서 집합 (Top-k)
    Retriever (검색기) 
    관련 문서 검색 결과
    Generator (생성기)
    답변 출력

     ○  질의응답(Q&A) 서비스, 문서 요약, 대화 시스템 등 다양한 자연어 처리 응용 분야에서 사용되며, 주어진 질문에 대해 먼저 관련 정보를 검색한 후, 이를 바탕으로 답변을 생성함
     ○ 검색된 문서 및 데이터를 바탕으로 답변을 생성하기 때문에, 단순한 생성 모델보다 더 정확하고 신뢰할 수 있는 답변을 제공하기 때문에 정확한 정보 전달이 중요한 교과 데이터의 질의응답 task에 적합함

    성취 수준별 문제 추천-모델학습
    모델 작동 과정
    1. 질문 입력 사용자가 질문을 입력합니다.
    2. 문서 검색 Retriever가 질문을 받아 대규모 텍스트 데이터베이스에서 관련 문서를 검색합니다.
    3. 정보 통합 검색된 문서들을 기반으로, Generator가 질문에 대한 답변을 생성합니다.
    4. 답변 출력 생성된 답변을 사용자에게 제공합니다.

     

    □ 서비스 활용 시나리오

     

    가) 교과데이터 질문 응답 시스템
     ○ 맞춤형 학습 지원: 학생들이 수업 내용을 복습하거나 궁금한 점을 해결하는데 사용 가능. 특히 학생들이 자신의 학습 수준에 맞춘 질문을 입력하면, 모델은 해당 내용에 맞는 답변을 생성하여 학생의 개별적인 학습을 지원 가능

     

    나) 온라인 교육 플랫폼
     ○ 인공지능 학습 도우미: 온라인 교육 플랫폼에서 RAG 모델을 활용하여 학습자들이 실시간으로 질문을 하고 답변을 받을 수 있도록 하여, 대규모 수업에서도 개인화된 학습 경험을 제공할 수 있음

     

    다) 교사 지원 도구
     ○ 강의 준비 및 보조: 교사는 강의를 준비하거나 학생들의 질문에 대답할 때 RAG 모델을 활용하여 추가적인 자료나 설명을 제공할 수 있음
     ○  자동화된 피드백 제공: 학생들의 과제나 테스트에 대한 자동화된 피드백 시스템을 구축할 수 있으며, 이를 통해 교사들의 업무 부담을 경감시키고 학습 효율성을 높일 수 있음

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    □ 데이터 구성

    데이터 구성
    Key Description 타입
    raw_data_info 원시데이터 정보 object
    raw_data_name 윈시데이터 파일명 String
    date 획득 일자 String
    publisher 출판사 String
    publication year 출판연도 String
    school 학교급 String
    grade 학년 String
    semester 학기 String
    subject 과목 String
    revision year 교육과정 개정연도 String
    source_data_info 원천데이터 정보 object
    source_data_name 원천데이터 파일명 String
    2009 achievement standard 2009 성취기준 Array
    2015 achievement standard 2015 성취기준 Array
    2022 achievement standard 2022 성취기준 Array
    level of difficulty 난이도 String
    learning_data_info 학습데이터 정보 object
    class_num 객체 연번 number
    class_name 객체 이름 String
    class_info_list 클래스 정보 Array
    Type 어노테이션 종류 string
    Type_value 객체 좌표 Array
    text_description 설명문(클래스 내용 설명문) String

     

    □ 어노테이션 포맷

    어노테이션 포맷
    No 속성명 타입 필수여부 설명 범위
    1 raw_data_info object - 원시데이터 정보  
      1-1 raw_data_name String Y 윈시데이터 파일명  
    1-2 date String Y 획득 일자  
    1-3 publisher String Y 출판사 “교학사”, “대교”, “2차 저작”
    1-4 publication year String Y 출판연도  
    1-5 school String Y 학교급 “초등학교”, “중학교”, “고등학교”
    1-6 grade String Y 학년 “1학년”, “2학년”, “3학년”, “4학년”, “5학년”, “6학년”
    1-7 semester String Y 학기 “1학기”, “2학기”, “공통”
    1-8 subject String Y 과목 “국어”, “공통국어1”, “공통국어2”
    1-9 revision year String Y 교육과정 개정연도 “2009”, “2015”, “2022”
    2 source_data_info object - 원천데이터 정보  
      2-1 source_data_name String Y 원천데이터 파일명  
    2-2 2009 achievement standard Array N 2009 성취기준  
    2-3 2015 achievement standard Array N 2015 성취기준  
    2-4 2022 achievement standard Array Y 2022 성취기준  
    2-5 level of difficulty String Y 난이도 “상”, “중”, “하”
    3 learning_data_info object - 학습데이터 정보  
      3-1 class_num number Y 객체 연번  
    3-2 class_name String Y 객체 이름 “문항”, “지문”, “지문(이미지)”, “정답”, “오답”, “해설”
    3-3 class_info_list Array Y 클래스 정보  
      3-3-1 Type string Y 어노테이션 종류 "Polygon", "Bounding_Box"
    3-3-2 Type_value Array Y 객체 좌표 [x,y,x,y]
    3-3-3 text_description String Y 설명문(클래스 내용 설명문)  

     

    □ 데이터 포맷

    데이터 포맷
    원천 데이터
    원천데이터 예시

     

    □ JSON 실제 예시

    {
        "raw_data_info": {
            "raw_data_name": "4aad0293-9098-4981-879d-60e3881a8ce9",
            "date": "2024-08-27",
            "publisher": "2차 저작",
            "publication_year": "2014-06-01",
            "school": "고등학교",
            "grade": "1학년",
            "semester": "2학기",
            "subject": "국어",
            "revision_year": "2009"
        },
        "source_data_info": {
            "source_data_name": "S2_고등_1_003725",
            "2009_achievement_standard": [
                "[09-10국01-01] 토론의 본질과 원리를 이해하고, 쟁점별로 논증하여 공동체의 문제를 합리적으로 해결한다."
            ],
            "2015_achievement_standard": [
                ""
            ],
            "2022_achievement_standard": [
                "[10공국1-01-01] 대화의 원리를 고려하여 대화하고 자신의 듣기ㆍ말하기 과정과 공동체의 담화 관습을 성찰한다.",
                "[10공국1-01-02] 논제의 필수 쟁점별로 논증을 구성하고 논증이 타당한지 평가하며 토론한다."
            ],
            "level_of_difficulty": "상"
        },
        "learning_data_info": [
            {
                "class_num": 1,
                "class_name": "문항",
                "class_info_list": [
                    {
                        "Type": "Bounding_Box",
                        "Type_value": [
                            [
                                0,
                                2.22,
                                494,
                                60.22
                            ]
                        ],
                        "text_description": "[3-4] 다음은 '국위 선양한 운동선수에게 병역 혜택을 주자.' 로 토론을 한 반대 측 토론자의 메모이다. 물음에 답하시오."
                    },
                    {
                        "Type": "Bounding_Box",
                        "Type_value": [
                            [
                                1,
                                80.22,
                                488,
                                308.22
                            ]
                        ],
                        "text_description": "ㄱ. 국위 선양은 다양한 방면에서 이루어진다. 운동선수에게만 혜택을 주면 안 된다.\nㄴ. 병역 혜택을 주는 기준이 애매하다. 병역 혜택이 없는 종목 도 있다.\nㄷ. 내가 좋아하는 운동선수들은 대부분 병역 혜택을 받지 못했다.\nㄹ. 대표로 선발된다는 것은 일종의 운이기도 하다.\nㅁ. 국가에 기여한 만큼 보상이 주어져야 한다."
                    },
                    {
                        "Type": "Bounding_Box",
                        "Type_value": [
                            [
                                0,
                                317,
                                454,
                                384
                            ]
                        ],
                        "text_description": "이 메모의 내용 중 반대 측 입장의 논거로 적절한 것은?"
                    }
                ]
            },
            {
                "class_num": 2,
                "class_name": "정답",
                "class_info_list": [
                    {
                        "Type": "Bounding_Box",
                        "Type_value": [
                            [
                                3,
                                389,
                                144,
                                413
                            ]
                        ],
                        "text_description": "① ㄱ\n② ᄂ"
                    }
                ]
            },
            {
                "class_num": 3,
                "class_name": "오답",
                "class_info_list": [
                    {
                        "Type": "Bounding_Box",
                        "Type_value": [
                            [
                                191,
                                388,
                                437,
                                414
                            ]
                        ],
                        "text_description": "③ ᄃ\n④ ᄅ\n⑤ ㅁ"
                    }
                ]
            },
            {
                "class_num": 4,
                "class_name": "해설",
                "class_info_list": [
                    {
                        "Type": "Bounding_Box",
                        "Type_value": [
                            [
                                2,
                                458,
                                460,
                                602
                            ]
                        ],
                        "text_description": "병역 혜택에 반대할 경우 ㄱ, ㄴ 논거들은 객관성을 가지고 있어 논리적으로 타당성이 있기 때문에 반대 측 입장의 논거로 적절하다. |오답 피하기| ㄷ은 주관적인 판단이고, ㄹ은 주장의 근거가 부족하기 때문에 논거로 적절하지 않다. 또한 ㅁ의경우 반대 측의 근거에 해당하지 않는다."
                    }
                ]
            }
        ]
    }

     

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜미디어그룹사람과숲
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    심재욱 02-830-8583 simjw@humanf.co.kr 사업실무책임자
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    디피니션 주식회사 데이터 수집, 정제
    주식회사 유니바 AI모델
    (사)한국인공지능협회 데이터 품질
    한알음정보 주식회사 데이터 가공, 검수
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    심재욱 02-830-8583 simjw@humanf.co.kr
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    남명진 053-615-1263 admin@univa.co.kr
    최유진 053-615-1263 dbwls99673@univa.co.kr
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    이진선 053-615-1263 이진선
    최유진 053-615-1263 dbwls99673@univa.co.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

오프라인 데이터 이용 안내

본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.

K-ICT 빅데이터센터는 데이터 안심구역으로 지정되어
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.

데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 이용신청 탭 이미지

국방데이터 개방 안내

본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.