콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#자연어

BETA 학술논문 이해 데이터

학술논문 이해 데이터 아이콘 이미지
  • 분야교육
  • 유형 텍스트
  • 생성 방식LMM
구축년도 : 2024 갱신년월 : 2025-04 조회수 : 259 다운로드 : 9 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2025-04-16 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2025-04-16 산출물 전체 공개

    소개

    학술논문 구조 이해를 위해 논문 내 텍스트, 이미지를 포함한 멀티모달 데이터 구축

    구축목적

    학술·연구 분야 업무 보조 서비스 개발 실증의 지원을 통한 AI 일상화 촉진
    한국어 학술논문의 멀티모달 학습을 위한 원천데이터 확보
    학술논문 표절 검사 서비스를 운영하는 주관기관을 통해 상용 AI 서비스 적용
  • 데이터 구축 규모

    데이터 구축 규모
    데이터 종류 데이터 형태 원문 규모 어노테이션 규모 결과물 규모
    논문 PDF 1만 건 약 50만 건 1만 건
    (1개의 json 생성)
    포스터 PPTX 1만 건 약 10만 건
    총계 2만 건 약 60만 건 1만 건
    (1개의 json 생성)

     

    논문 분야 분포

    논문 분야 분포
    논문 분야 수량
    사회과학(SS) 4,545
    과학기술(ST) 2,145
    인문학,예술,체육학(HA) 3,310
    합계 10,000

     

    논문 학술지 분포

    논문 학술지 분포
    학술지 수량
    세무와회계저널 3
    무역학회지 9
    Journal of Multiculture and Education 11
    무역경영연구 25
    교정상담학연구 33
    한국국방경영분석학회지 35
    생명연구 43
    한중관계연구 43
    상담심리교육복지 44
    융합관광콘텐츠연구 62
    한국방위산업학회지 73
    한국지열·수열에너지학회논문집 75
    연극교육연구 90
    법이론실무연구 96
    동악미술사학 96
    지역연구 105
    영상문화 106
    비평과이론 123
    교육의 이론과 실천 129
    한일경상논집 140
    영미연구 148
    교육치료연구 163
    미술사연구 175
    관광학연구 177
    경영학연구 180
    한국범죄심리연구 184
    한국화예디자인학연구 197
    대동철학 214
    지역산업연구 216
    로고스경영연구 221
    한중사회과학연구 242
    문학치료연구 246
    회계와 정책연구 294
    아동과 권리 296
    역사문화연구 309
    초등영어교육 325
    중국학보 372
    외국문학연구 379
    기술혁신학회지 387
    한국전자거래학회지 472
    국제상학 533
    미래유아교육학회지 560
    한국체육교육학회지 648
    철학연구 698
    한국도로학회논문집 1,023
    합계 10,000
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    Qwen2-VL 모델
    시각-언어 모델의 인지 능력이 비약적인 향상이 이뤄진 모델

     

    기존 모델의 시각 처리 과정에서의 해상도 사전 결정 접근 방식을 다시 정의하여 업그레이드를 진행한 모델로, Naive Dynamic 메커니즘을 도입하여 다양한 해상도를 가져 다양한 수의 시각적 토큰을 가진 이미지를 동적으로 처리할 수 있습니다.
    위 접근 방식을 통해 인간의 인지 과정과 매우 유사한 형태로, 보다 효율적이고 정확하게 시각적인 표현을 생성합니다.
    또한, 해당 모델은 Multimodal Rotary Position Embedding(M-RoPE)를 통합하여 텍스트, 이미지, 동영상의 위치 정보를 효과적으로 융합할 수 있습니다.
    이미지와 동영상을 함께 처리할 수 있는 통합 패러다임을 채택하여 모델의 시각적 인지 능령을 향상시킬 수 있었습니다.
    대형 Multimodal 모델의 잠재력을 파악하고자 거대 시각-언어 모델들의(Large Vision-Language Models, LVLMs)의 스케일링 법칙을 조사하였고, OpenAI GPT, Anthropic Claude와 같은 타 주요 모델 대비 뛰어난 성능을 발휘합니다.

    Qwen2-VL 모델 이미지

    Figure 1. 다국어 OCR 및 이미지 텍스트 및 다량의 문서 이해가 가능

    * 파라미터의 크기가 커질수록 모델 성능이 비례하여 상승한다는 법칙

    Qwen2-VL 모델 이미지2

    Figure 2. Qwen2-VL 모델의 전체적인 구조를 시각화
    선명도·해상도·종횡비에 관계없이 이미지에 포함된 컨텐츠 식별·이해가 가능

     

    본 과제에서는 Qwen2-VL 모델 중 비용-성능간 최적화를 이룬 Qwen2-VL-7B를 채택하여 시각과 관련한 광범위한 업무에 있어 강력한 성능을 얻을 수 있었습니다.

     

    Qwen2-VL의 주요 강점은 다음과 같습니다.

     

    다양한 해상도와 종횡비를 넘나드는 이해 성능: 시각 성능 벤치마크인 DocVQA, InfoVQA, RealWorldQA, MTVQA, MathVista 등에서 높은 성능을 냈습니다.

     

    다국어 지원: 글로벌 사용자를 위해 영어, 중국어를 포함하여 대다수의 유럽권 언어, 일본어, 한국어, 아랍어, 베트남어 등 다양한 언어의 이미지 내 텍스트 이해를 지원합니다

     

    강력한 문서 구문 분석 기능: 단순한 텍스트 인식을 넘어 종합적인 문서 구문 분석으로 나아가 다국어를 지원하는 것은 물론이고 필기체, 표, 차트, 화학 공식 및 악보 등의 다양한 형태의 문서를 처리하는데 탁월한 능력을 지니고 있습니다.

     

    포맷을 넘나드는 객체 인식: 한 단계 더 진보된 공간 추론을 통해 절대 좌표계와 JSON 형식을 지원하여 개체 감지, 객체 수 인식, 인식 정확도 등이 향상되었습니다.

     

    컴퓨터 및 모바일 기기를 위한 향상된 에이전트 기능: 더 나은 추론, 근거 밝혀내기, 의사결정 능력을 활용하여 컴퓨터와 스마트폰에서의 에이전트 기능을 강화하였습니다.

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    데이터 구성

    데이터 구성
    항목명 타입 설명
    raw_data_meta_info Object 학술 논문 메타 정보
    doc_id string 데이터 id
    doc_origin string 등재 학술지명
    doc_issued string 학술지 발행기관(학괴명)
    doc_category string 학술연구분야
    doc_base string KCI 등재 정보
    doc_pissn string P-ISSN
    doc_eissn string E-ISSN
    doc_volume string 등재 학술지 - 권
    doc_no string 등재 학술지 - 호
    doc_page_start number 학회지 논문의 시작 페이지
    doc_page_end number 학회지 논문의 종료 페이지
    doc_page_count number 학술논문 페이지 수량
    doc_title string 학술 논문 제목
    doc_subtitle string 학술 논문 부제목
    doc_language string 학술 논문 제작 언어
    doc_keyword string 학술 논문 주요 키워드
    doc_year string 학술 논문 발행 년도
    doc_doi string 학술 논문 doi
    doc_url string 학술 논문 수집 url
    doc_author array 학술 논문 저자
    author_id string 저자 id
    author_name_kr string 저자명 한국어
    author_name_en string 저자명 영문
    author_aff string 저자 소속
    author_email string 저자 email
    source_data_meta_info Object 학술 논문 Data 정보
    source_data_id string 학술 논문 Data ID
    source_image_include string 학술논문 이미지 포함여부
    training_data_info Object 학술 논문 학습 데이터 정보
    section_info array 논문 포스터 텍스트 섹션 정보
    paragraph_id string 논문 포스터 텍스트 id
    page string 논문 포스터 페이지 위치
    location string 논문 포스터내 위치 정보
    procede string 논문 포스터 내 포함 여부
    original_text string 학술 논문 원문 
    summary_text string 논문 포스터 요약문
    original_cnt number 학술 논문 원문 어절 수
    summary_cnt number 논문 포스터 요약문 어절 수
    image_info array 논몬 포스터 이미지 정보
    image_id string 논문 포스터 이미지 id
    image_name string 논문 포스터 이미지 이름 
    image_caption string 논문 포스터 이미지 해설
    image_category string 논문 포스터 이미지 종류
    image_page string 논문 포스터 페이지 위치
    image_location string 논문 포스터 이미지 위치
    image_file_name string 논문 포스터 실제 파일명

     

    어노테이션 포맷

    어노테이션 포맷
    구분 항목명 타입 필수여부 범위 비고
    1 raw_data_meta_info Object Y    
      1-1 doc_id string Y    
      1-2 doc_origin string Y    
      1-3 doc_issued string Y    
      1-4 doc_category string Y    
      1-5 doc_base string Y    
      1-6 doc_pissn string Y    
      1-7 doc_eissn string Y    
      1-8 doc_volume string Y    
      1-9 doc_no string Y    
      1-10 doc_page_start number Y 1-9999  
      1-11 doc_page_end number Y 1-9999  
      1-12 doc_page_count number Y 1-9999  
      1-13 doc_title string Y    
      1-14 doc_subtitle string Y    
      1-15 doc_language string Y    
      1-16 doc_keyword string Y    
      1-17 doc_year string Y    
      1-18 doc_doi string Y    
      1-19 doc_url string Y    
      1-20 doc_author array Y    
        1-20-1 author_id string Y    
        1-20-2 author_name_kr string Y    
        1-20-3 author_name_en string Y    
        1-20-4 author_aff string Y    
        1-20-5 author_email string Y    
    2 source_data_meta_info Object Y    
      2-1 source_data_id string Y    
      2-2 source_image_include string Y    
    3 training_data_info Object Y    
      3-1 section_info array Y    
        3-1-1 paragraph_id string Y    
        3-1-2 page string Y    
        3-1-3 location string Y    
        3-1-4 procede string Y    
        3-1-5 original_text string Y    
        3-1-6 summary_text string Y    
        3-1-7 original_cnt number Y 1-9999  
        3-1-8 summary_cnt number Y 1-9999  
      3-2 image_info array Y    
        3-2-1 image_id string Y    
        3-2-2 image_name string Y    
        3-2-3 image_caption string Y    
        3-2-4 image_category string Y    
        3-2-5 image_page sting Y    
        3-2-6 image_location string Y    
        3-2-7 image_file_name string Y    

     

    데이터 포맷
    - 원천데이터(원문) : PDF(논문)
    - 원천데이터 예시

    학술논문 이해 데이터 활용 가이드라인_이미지1-원천데이터(원문) 예시1학술논문 이해 데이터 활용 가이드라인_이미지2-원천데이터(원문) 예시

    - 원천데이터(포스터) : PPTX
    - 원천데이터 예시

    학술논문 이해 데이터 활용 가이드라인_이미지3-원천데이터 (포스터) 예시
    - 가공데이터: JSON
    - 가공데이터 예시

    {
        "raw_data_meta_info": {
            "doc_id": "8323",
            "doc_origin": "기술혁신학회지",
            "doc_issued": "한국기술혁신학회",
            "doc_category": "복합학",
            "doc_base": "등재",
            "doc_pissn": "1598-2912",
            "doc_eissn": "",
            "doc_volume": "25",
            "doc_no": "5",
            "doc_page_start": 995,
            "doc_page_end": 1024,
            "doc_page_count": 30,
            "doc_title": "출연연 구성원이 인식하는 조직공정성과 연구 자율성이 긍정심리자본을 통해 조직성과에 미치는 영향",
            "doc_subtitle": "The Effects of Organizational Justice and Research Autonomy on Job Performance through Positive Psychological Capital Perceived by Employees of Government-Supported Institutes",
            "doc_language": "한국어",
            "doc_keyword": "정부출연연구기관|긍정심리자본|조직공정성|연구자율성|직무성과|Government-Supported Institute|Positive Psychological Capital|Organizational Justice|Research Autonomy|Job Performance",
            "doc_year": "2022",
            "doc_doi": "",
            "doc_url": "https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002893547",
            "doc_author": [
                {
                    "author_id": "CRT001715259",
                    "author_name_kr": "서영욱",
                    "author_name_en": "Young Wook Seo",
                    "author_aff": "대전대학교",
                    "author_email": ""
                },
                {
                    "author_id": "CRT002838170",
                    "author_name_kr": "배재성",
                    "author_name_en": "Jae Sung Pae",
                    "author_aff": "한국표준과학연구원",
                    "author_email": ""
                },
                {
                    "author_id": "CRT002838171",
                    "author_name_kr": "이소정",
                    "author_name_en": "So Jeong Lee",
                    "author_aff": "대전대학교",
                    "author_email": ""
                }
            ]
        },
        "source_data_meta_info": {
            "source_data_id": "ART002893547",
            "source_image_include": "Y"
        },
        "training_data_info": {
            "section_info": [
                {
                    "paragraph_id": "para_1",
                    "page": "1",
                    "location": "[971548, 6897456, 13520967, 7961544]",
                    "procede": "Y",
                    "original_text": "본 연구는 정부출연연구기관(출연연) 구성원들이 인식하는....",
                    "original_cnt": "82",
                    "summary_cnt": "48"
                },
                {
                    "paragraph_id": "para_3",
                    "page": "1",
                    "location": "[959835, 16831088, 13520967, 8029620]",
                    "procede": "Y",
                    "original_text": "과학기술정부출연연구기관(출연연)은 ...",
                    "summary_text": "배경: 과학기술 정부출연연구기관은 ...",
                    "original_cnt": "237",
                    "summary_cnt": "56"
                },
                {
                    "paragraph_id": "para_4",
                    "page": "1",
                    "location": "[959833, 26993604, 13520967, 7570078]",
                    "procede": "Y",
                    "original_text": "1) 정부출연연구기관과학기술 ...",
                    "summary_text": "조직공정성: 조직공정성은...“,
                    "original_cnt": "1462",
                    "summary_cnt": "43"
                },
                {
                    "paragraph_id": "para_5",
                    "page": "1",
                    "location": "[959833, 37031316, 13520967, 4546798]",
                    "procede": "Y",
                    "original_text": "...",
                    "summary_text": "연구모형: 출연 구성원들이 인...",
                    "original_cnt": "1141",
                    "summary_cnt": "27"
                },
                {
                    "paragraph_id": "para_6",
                    "page": "1",
                    "location": "[15586261, 16750711, 13837634, 4570793]",
                    "procede": "Y",
                    "original_text": "1) 자료수집 및 표본 특성본 연구를 ...",
                    "summary_text": "조직공정성: 조직공정성이 ...",
                    "original_cnt": "889",
                    "summary_cnt": "20"
                },
                {
                    "paragraph_id": "para_7",
                    "page": "1",
                    "location": "[15794412, 38473090, 13520967, 3022466]",
                    "procede": "Y",
                    "original_text": "1) 연구 결과 및 시사점본 연구는 ...",
                    "summary_text": "정책 제안: 연구소의 성과를...",
                    "original_cnt": "853",
                    "summary_cnt": "17"
                },
                {
                    "paragraph_id": "title_1",
                    "page": "1",
                    "location": "[605066, 5477817, 14253934, 1252382]",
                    "procede": "Y",
                    "original_text": "요약",
                    "summary_text": "요약",
                    "original_cnt": "1",
                    "summary_cnt": "1"
                },
                {
                    "paragraph_id": "title_2",
                    "page": "1",
                    "location": "[593353, 15411449, 14253934, 1252382]",
                    "procede": "Y",
                    "original_text": "1. 서론",
                    "summary_text": "1. 서론",
                    "original_cnt": "2",
                    "summary_cnt": "2"
                },
                {
                    "paragraph_id": "title_3",
                    "page": "1",
                    "location": "[593351, 25643027, 14253934, 1252382]",
                    "procede": "Y",
                    "original_text": "2. 이론적 배경 및 선행연구",
                    "summary_text": "2. 이론적 배경 및 선행연구",
                    "original_cnt": "5",
                    "summary_cnt": "5"
                },
                {
                    "paragraph_id": "title_4",
                    "page": "1",
                    "location": "[593351, 35498400, 14253934, 1252382]",
                    "procede": "Y",
                    "original_text": "3. 연구모형 및 가설 설정",
                    "summary_text": "3. 연구모형 및 가설 설정",
                    "original_cnt": "5",
                    "summary_cnt": "5"
                },
                {
                    "paragraph_id": "title_5",
                    "page": "1",
                    "location": "[15416212, 15411449, 14253934, 1252382]",
                    "procede": "Y",
                    "original_text": "4. 분석 결과",
                    "summary_text": "4. 분석 결과",
                    "original_cnt": "3",
                    "summary_cnt": "3"
                },
                {
                    "paragraph_id": "title_6",
                    "page": "1",
                    "location": "[15427930, 37022732, 14253934, 1252382]",
                    "procede": "Y",
                    "original_text": "5. 결론",
                    "summary_text": "5. 결론",
                    "original_cnt": "2",
                    "summary_cnt": "2"
                }
            ],
            "image_info": [
                {
                    "image_id": 1,
                    "image_name": "그림 6",
                    "image_caption": "출연연은 공공기관운영법에 ...",
                    "image_category": "PI",
                    "image_page": "1",
                    "image_location": "[16871507, 5765327, 11366774, 8873417]",
                    "image_file_name": "./pptx_image/ST_0028_0008323_slide_1_그림 6.png"
                },
                {
                    "image_id": 2,
                    "image_name": "그림 9",
                    "image_caption": "본 연구의 측정항목에 대한 ...",
                    "image_category": "TA",
                    "image_page": "1",
                    "image_location": "[17831236, 21442671, 9297531, 7568014]",
                    "image_file_name": "./pptx_image/ST_0028_0008323_slide_1_그림 9.png"
                },
                {
                    "image_id": 3,
                    "image_name": "그림 11",
                    "image_caption": "본 연구 결과, 긍정심리자본의 ....",
                    "image_category": "PI",
                    "image_page": "1",
                    "image_location": "[18039819, 29287782, 8880363, 6836809]",
                    "image_file_name": "./pptx_image/ST_0028_0008323_slide_1_그림 11.png"
                }
            ]
        }
    }

     

    실제 예시

    학술논문 이해 데이터 활용 가이드라인_이미지4-실제예시1학술논문 이해 데이터 활용 가이드라인_이미지5-실제예시2

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜무하유
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    김준경 02-6233-8400 rnd@muhayu.com 프로젝트 실무 책임자
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜더테스트 데이터 검수
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    김준경 02-6233-8400 rnd@muhayu.com
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    김준경 02-6233-8400 rnd@muhayu.com
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    김준경 02-6233-8400 rnd@muhayu.com
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

오프라인 데이터 이용 안내

본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.

K-ICT 빅데이터센터는 데이터 안심구역으로 지정되어
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.

데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 이용신청 탭 이미지

국방데이터 개방 안내

본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.