※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다.
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2025-04-16 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2025-04-16 산출물 전체 공개 소개
학술논문 구조 이해를 위해 논문 내 텍스트, 이미지를 포함한 멀티모달 데이터 구축
구축목적
학술·연구 분야 업무 보조 서비스 개발 실증의 지원을 통한 AI 일상화 촉진 한국어 학술논문의 멀티모달 학습을 위한 원천데이터 확보 학술논문 표절 검사 서비스를 운영하는 주관기관을 통해 상용 AI 서비스 적용
-
메타데이터 구조표 데이터 영역 교육 데이터 유형 텍스트 데이터 형식 PPTX, PDF 데이터 출처 논문 라벨링 유형 내용요약(자연어) 라벨링 형식 JSON 데이터 활용 서비스 카피킬러(CopyKiller) 데이터 구축년도/
데이터 구축량2024년/원천데이터 20,000건(논문 및 포스터 포함), 라벨링데이터 10,000건 -
데이터 구축 규모
데이터 구축 규모 데이터 종류 데이터 형태 원문 규모 어노테이션 규모 결과물 규모 논문 PDF 1만 건 약 50만 건 1만 건
(1개의 json 생성)포스터 PPTX 1만 건 약 10만 건 총계 2만 건 약 60만 건 1만 건
(1개의 json 생성)논문 분야 분포
논문 분야 분포 논문 분야 수량 사회과학(SS) 4,545 과학기술(ST) 2,145 인문학,예술,체육학(HA) 3,310 합계 10,000 논문 학술지 분포
논문 학술지 분포 학술지 수량 세무와회계저널 3 무역학회지 9 Journal of Multiculture and Education 11 무역경영연구 25 교정상담학연구 33 한국국방경영분석학회지 35 생명연구 43 한중관계연구 43 상담심리교육복지 44 융합관광콘텐츠연구 62 한국방위산업학회지 73 한국지열·수열에너지학회논문집 75 연극교육연구 90 법이론실무연구 96 동악미술사학 96 지역연구 105 영상문화 106 비평과이론 123 교육의 이론과 실천 129 한일경상논집 140 영미연구 148 교육치료연구 163 미술사연구 175 관광학연구 177 경영학연구 180 한국범죄심리연구 184 한국화예디자인학연구 197 대동철학 214 지역산업연구 216 로고스경영연구 221 한중사회과학연구 242 문학치료연구 246 회계와 정책연구 294 아동과 권리 296 역사문화연구 309 초등영어교육 325 중국학보 372 외국문학연구 379 기술혁신학회지 387 한국전자거래학회지 472 국제상학 533 미래유아교육학회지 560 한국체육교육학회지 648 철학연구 698 한국도로학회논문집 1,023 합계 10,000 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드Qwen2-VL 모델
시각-언어 모델의 인지 능력이 비약적인 향상이 이뤄진 모델기존 모델의 시각 처리 과정에서의 해상도 사전 결정 접근 방식을 다시 정의하여 업그레이드를 진행한 모델로, Naive Dynamic 메커니즘을 도입하여 다양한 해상도를 가져 다양한 수의 시각적 토큰을 가진 이미지를 동적으로 처리할 수 있습니다.
위 접근 방식을 통해 인간의 인지 과정과 매우 유사한 형태로, 보다 효율적이고 정확하게 시각적인 표현을 생성합니다.
또한, 해당 모델은 Multimodal Rotary Position Embedding(M-RoPE)를 통합하여 텍스트, 이미지, 동영상의 위치 정보를 효과적으로 융합할 수 있습니다.
이미지와 동영상을 함께 처리할 수 있는 통합 패러다임을 채택하여 모델의 시각적 인지 능령을 향상시킬 수 있었습니다.
대형 Multimodal 모델의 잠재력을 파악하고자 거대 시각-언어 모델들의(Large Vision-Language Models, LVLMs)의 스케일링 법칙을 조사하였고, OpenAI GPT, Anthropic Claude와 같은 타 주요 모델 대비 뛰어난 성능을 발휘합니다.Figure 1. 다국어 OCR 및 이미지 텍스트 및 다량의 문서 이해가 가능
* 파라미터의 크기가 커질수록 모델 성능이 비례하여 상승한다는 법칙
Figure 2. Qwen2-VL 모델의 전체적인 구조를 시각화
선명도·해상도·종횡비에 관계없이 이미지에 포함된 컨텐츠 식별·이해가 가능본 과제에서는 Qwen2-VL 모델 중 비용-성능간 최적화를 이룬 Qwen2-VL-7B를 채택하여 시각과 관련한 광범위한 업무에 있어 강력한 성능을 얻을 수 있었습니다.
Qwen2-VL의 주요 강점은 다음과 같습니다.
다양한 해상도와 종횡비를 넘나드는 이해 성능: 시각 성능 벤치마크인 DocVQA, InfoVQA, RealWorldQA, MTVQA, MathVista 등에서 높은 성능을 냈습니다.
다국어 지원: 글로벌 사용자를 위해 영어, 중국어를 포함하여 대다수의 유럽권 언어, 일본어, 한국어, 아랍어, 베트남어 등 다양한 언어의 이미지 내 텍스트 이해를 지원합니다
강력한 문서 구문 분석 기능: 단순한 텍스트 인식을 넘어 종합적인 문서 구문 분석으로 나아가 다국어를 지원하는 것은 물론이고 필기체, 표, 차트, 화학 공식 및 악보 등의 다양한 형태의 문서를 처리하는데 탁월한 능력을 지니고 있습니다.
포맷을 넘나드는 객체 인식: 한 단계 더 진보된 공간 추론을 통해 절대 좌표계와 JSON 형식을 지원하여 개체 감지, 객체 수 인식, 인식 정확도 등이 향상되었습니다.
컴퓨터 및 모바일 기기를 위한 향상된 에이전트 기능: 더 나은 추론, 근거 밝혀내기, 의사결정 능력을 활용하여 컴퓨터와 스마트폰에서의 에이전트 기능을 강화하였습니다.
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드데이터 구성
데이터 구성 항목명 타입 설명 raw_data_meta_info Object 학술 논문 메타 정보 doc_id string 데이터 id doc_origin string 등재 학술지명 doc_issued string 학술지 발행기관(학괴명) doc_category string 학술연구분야 doc_base string KCI 등재 정보 doc_pissn string P-ISSN doc_eissn string E-ISSN doc_volume string 등재 학술지 - 권 doc_no string 등재 학술지 - 호 doc_page_start number 학회지 논문의 시작 페이지 doc_page_end number 학회지 논문의 종료 페이지 doc_page_count number 학술논문 페이지 수량 doc_title string 학술 논문 제목 doc_subtitle string 학술 논문 부제목 doc_language string 학술 논문 제작 언어 doc_keyword string 학술 논문 주요 키워드 doc_year string 학술 논문 발행 년도 doc_doi string 학술 논문 doi doc_url string 학술 논문 수집 url doc_author array 학술 논문 저자 author_id string 저자 id author_name_kr string 저자명 한국어 author_name_en string 저자명 영문 author_aff string 저자 소속 author_email string 저자 email source_data_meta_info Object 학술 논문 Data 정보 source_data_id string 학술 논문 Data ID source_image_include string 학술논문 이미지 포함여부 training_data_info Object 학술 논문 학습 데이터 정보 section_info array 논문 포스터 텍스트 섹션 정보 paragraph_id string 논문 포스터 텍스트 id page string 논문 포스터 페이지 위치 location string 논문 포스터내 위치 정보 procede string 논문 포스터 내 포함 여부 original_text string 학술 논문 원문 summary_text string 논문 포스터 요약문 original_cnt number 학술 논문 원문 어절 수 summary_cnt number 논문 포스터 요약문 어절 수 image_info array 논몬 포스터 이미지 정보 image_id string 논문 포스터 이미지 id image_name string 논문 포스터 이미지 이름 image_caption string 논문 포스터 이미지 해설 image_category string 논문 포스터 이미지 종류 image_page string 논문 포스터 페이지 위치 image_location string 논문 포스터 이미지 위치 image_file_name string 논문 포스터 실제 파일명 어노테이션 포맷
어노테이션 포맷 구분 항목명 타입 필수여부 범위 비고 1 raw_data_meta_info Object Y 1-1 doc_id string Y 1-2 doc_origin string Y 1-3 doc_issued string Y 1-4 doc_category string Y 1-5 doc_base string Y 1-6 doc_pissn string Y 1-7 doc_eissn string Y 1-8 doc_volume string Y 1-9 doc_no string Y 1-10 doc_page_start number Y 1-9999 1-11 doc_page_end number Y 1-9999 1-12 doc_page_count number Y 1-9999 1-13 doc_title string Y 1-14 doc_subtitle string Y 1-15 doc_language string Y 1-16 doc_keyword string Y 1-17 doc_year string Y 1-18 doc_doi string Y 1-19 doc_url string Y 1-20 doc_author array Y 1-20-1 author_id string Y 1-20-2 author_name_kr string Y 1-20-3 author_name_en string Y 1-20-4 author_aff string Y 1-20-5 author_email string Y 2 source_data_meta_info Object Y 2-1 source_data_id string Y 2-2 source_image_include string Y 3 training_data_info Object Y 3-1 section_info array Y 3-1-1 paragraph_id string Y 3-1-2 page string Y 3-1-3 location string Y 3-1-4 procede string Y 3-1-5 original_text string Y 3-1-6 summary_text string Y 3-1-7 original_cnt number Y 1-9999 3-1-8 summary_cnt number Y 1-9999 3-2 image_info array Y 3-2-1 image_id string Y 3-2-2 image_name string Y 3-2-3 image_caption string Y 3-2-4 image_category string Y 3-2-5 image_page sting Y 3-2-6 image_location string Y 3-2-7 image_file_name string Y 데이터 포맷
- 원천데이터(원문) : PDF(논문)
- 원천데이터 예시- 원천데이터(포스터) : PPTX
- 원천데이터 예시
- 가공데이터: JSON
- 가공데이터 예시{
"raw_data_meta_info": {
"doc_id": "8323",
"doc_origin": "기술혁신학회지",
"doc_issued": "한국기술혁신학회",
"doc_category": "복합학",
"doc_base": "등재",
"doc_pissn": "1598-2912",
"doc_eissn": "",
"doc_volume": "25",
"doc_no": "5",
"doc_page_start": 995,
"doc_page_end": 1024,
"doc_page_count": 30,
"doc_title": "출연연 구성원이 인식하는 조직공정성과 연구 자율성이 긍정심리자본을 통해 조직성과에 미치는 영향",
"doc_subtitle": "The Effects of Organizational Justice and Research Autonomy on Job Performance through Positive Psychological Capital Perceived by Employees of Government-Supported Institutes",
"doc_language": "한국어",
"doc_keyword": "정부출연연구기관|긍정심리자본|조직공정성|연구자율성|직무성과|Government-Supported Institute|Positive Psychological Capital|Organizational Justice|Research Autonomy|Job Performance",
"doc_year": "2022",
"doc_doi": "",
"doc_url": "https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002893547",
"doc_author": [
{
"author_id": "CRT001715259",
"author_name_kr": "서영욱",
"author_name_en": "Young Wook Seo",
"author_aff": "대전대학교",
"author_email": ""
},
{
"author_id": "CRT002838170",
"author_name_kr": "배재성",
"author_name_en": "Jae Sung Pae",
"author_aff": "한국표준과학연구원",
"author_email": ""
},
{
"author_id": "CRT002838171",
"author_name_kr": "이소정",
"author_name_en": "So Jeong Lee",
"author_aff": "대전대학교",
"author_email": ""
}
]
},
"source_data_meta_info": {
"source_data_id": "ART002893547",
"source_image_include": "Y"
},
"training_data_info": {
"section_info": [
{
"paragraph_id": "para_1",
"page": "1",
"location": "[971548, 6897456, 13520967, 7961544]",
"procede": "Y",
"original_text": "본 연구는 정부출연연구기관(출연연) 구성원들이 인식하는....",
"original_cnt": "82",
"summary_cnt": "48"
},
{
"paragraph_id": "para_3",
"page": "1",
"location": "[959835, 16831088, 13520967, 8029620]",
"procede": "Y",
"original_text": "과학기술정부출연연구기관(출연연)은 ...",
"summary_text": "배경: 과학기술 정부출연연구기관은 ...",
"original_cnt": "237",
"summary_cnt": "56"
},
{
"paragraph_id": "para_4",
"page": "1",
"location": "[959833, 26993604, 13520967, 7570078]",
"procede": "Y",
"original_text": "1) 정부출연연구기관과학기술 ...",
"summary_text": "조직공정성: 조직공정성은...“,
"original_cnt": "1462",
"summary_cnt": "43"
},
{
"paragraph_id": "para_5",
"page": "1",
"location": "[959833, 37031316, 13520967, 4546798]",
"procede": "Y",
"original_text": "...",
"summary_text": "연구모형: 출연 구성원들이 인...",
"original_cnt": "1141",
"summary_cnt": "27"
},
{
"paragraph_id": "para_6",
"page": "1",
"location": "[15586261, 16750711, 13837634, 4570793]",
"procede": "Y",
"original_text": "1) 자료수집 및 표본 특성본 연구를 ...",
"summary_text": "조직공정성: 조직공정성이 ...",
"original_cnt": "889",
"summary_cnt": "20"
},
{
"paragraph_id": "para_7",
"page": "1",
"location": "[15794412, 38473090, 13520967, 3022466]",
"procede": "Y",
"original_text": "1) 연구 결과 및 시사점본 연구는 ...",
"summary_text": "정책 제안: 연구소의 성과를...",
"original_cnt": "853",
"summary_cnt": "17"
},
{
"paragraph_id": "title_1",
"page": "1",
"location": "[605066, 5477817, 14253934, 1252382]",
"procede": "Y",
"original_text": "요약",
"summary_text": "요약",
"original_cnt": "1",
"summary_cnt": "1"
},
{
"paragraph_id": "title_2",
"page": "1",
"location": "[593353, 15411449, 14253934, 1252382]",
"procede": "Y",
"original_text": "1. 서론",
"summary_text": "1. 서론",
"original_cnt": "2",
"summary_cnt": "2"
},
{
"paragraph_id": "title_3",
"page": "1",
"location": "[593351, 25643027, 14253934, 1252382]",
"procede": "Y",
"original_text": "2. 이론적 배경 및 선행연구",
"summary_text": "2. 이론적 배경 및 선행연구",
"original_cnt": "5",
"summary_cnt": "5"
},
{
"paragraph_id": "title_4",
"page": "1",
"location": "[593351, 35498400, 14253934, 1252382]",
"procede": "Y",
"original_text": "3. 연구모형 및 가설 설정",
"summary_text": "3. 연구모형 및 가설 설정",
"original_cnt": "5",
"summary_cnt": "5"
},
{
"paragraph_id": "title_5",
"page": "1",
"location": "[15416212, 15411449, 14253934, 1252382]",
"procede": "Y",
"original_text": "4. 분석 결과",
"summary_text": "4. 분석 결과",
"original_cnt": "3",
"summary_cnt": "3"
},
{
"paragraph_id": "title_6",
"page": "1",
"location": "[15427930, 37022732, 14253934, 1252382]",
"procede": "Y",
"original_text": "5. 결론",
"summary_text": "5. 결론",
"original_cnt": "2",
"summary_cnt": "2"
}
],
"image_info": [
{
"image_id": 1,
"image_name": "그림 6",
"image_caption": "출연연은 공공기관운영법에 ...",
"image_category": "PI",
"image_page": "1",
"image_location": "[16871507, 5765327, 11366774, 8873417]",
"image_file_name": "./pptx_image/ST_0028_0008323_slide_1_그림 6.png"
},
{
"image_id": 2,
"image_name": "그림 9",
"image_caption": "본 연구의 측정항목에 대한 ...",
"image_category": "TA",
"image_page": "1",
"image_location": "[17831236, 21442671, 9297531, 7568014]",
"image_file_name": "./pptx_image/ST_0028_0008323_slide_1_그림 9.png"
},
{
"image_id": 3,
"image_name": "그림 11",
"image_caption": "본 연구 결과, 긍정심리자본의 ....",
"image_category": "PI",
"image_page": "1",
"image_location": "[18039819, 29287782, 8880363, 6836809]",
"image_file_name": "./pptx_image/ST_0028_0008323_slide_1_그림 11.png"
}
]
}
}실제 예시
-
데이터셋 구축 담당자
수행기관(주관) : ㈜무하유
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김준경 02-6233-8400 rnd@muhayu.com 프로젝트 실무 책임자 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜더테스트 데이터 검수 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김준경 02-6233-8400 rnd@muhayu.com AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 김준경 02-6233-8400 rnd@muhayu.com 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 김준경 02-6233-8400 rnd@muhayu.com
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.
국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.