BETA 시각화 자료 질의응답 데이터
- 분야영상이미지
- 유형 텍스트 , 이미지
- 생성 방식LMM
※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다.
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2025-04-16 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2025-04-16 산출물 전체 공개 소개
● 문서 내 그림, 표, 그래프, 다이어그램(인포그래픽 포함) 등 시각화 자료에 대한 이해 기반 질의응답 데이터로 시각 문서를 이해하고 문서의 내용에 관련된 질문에 대한 응답을 수행할 수 있는 학습데이터
구축목적
● 시각 정보 기반 질의응답 방식의 고품질 데이터셋을 구축하여 양질의 문서 생성 AI 구축 기반 마련 ● 초거대 AI 학습용 시각화 자료 질의응답 데이터 구축 및 산출물 공개/개방
-
메타데이터 구조표 데이터 영역 영상이미지 데이터 유형 텍스트 , 이미지 데이터 형식 PDF, PNG, JSON 데이터 출처 ‘공공데이터포털’ 및 ‘대한민국 정책브리핑’ 등의 민간에 개방된 공공데이터 수집처 활용 라벨링 유형 질의응답(OA), 캡션(Caption) 라벨링 형식 JSON 데이터 활용 서비스 시각화 자료 요약 문서 생성 솔루션, 질의문장 생성 솔루션, 주요 시각화 자료 특징 추출 솔루션 데이터 구축년도/
데이터 구축량2024년/원천데이터(PDF) : 10,000개 | 원천데이터(PNG) : 40,774개 | 원천데이터(TXT) : 40,774개 | 라벨링데이터(JSON) : 10,000개 - 질의응답 데이터 150,000쌍 -
● 데이터 구축 규모
데이터 구축 규모 데이터 종류 데이터 형태 원천데이터 규모 라벨링데이터 규모 시각화 자료 질의응답 데이터 텍스트, 이미지 원천데이터(PDF) : 10,000건 질의응답 150,000쌍 원천데이터(JSON) : 40,774건 원천데이터(PNG) : 40,774건 ● 데이터 분포
- 카테고리(분야)별 구축 규모데이터 분포-카테고리(분야)별 구축 규모 분야 문서 수량(건) 질의응답 수량(쌍) 구성비(%) 공공행정 1,246 18,690 12.46 과학기술 742 11,130 7.42 교육 257 3,855 2.57 교통물류 304 4,560 3.04 국토관리 719 10,785 7.19 농축수산 173 2,595 1.73 문화관광 253 3,795 2.53 보건의료 842 12,630 8.42 사회복지 546 8,190 5.46 산업고용 815 12,225 8.15 식품건강 226 3,390 2.26 재난안전 364 5,460 3.64 재정금융 739 11,085 7.39 통일외교안보 186 2,790 1.86 환경기상 2,588 38,820 25.88 합계 10,000 150,000 100 - 시각요소별 구축 규모
데이터 분포-시각요소별 구축 규모 시각요소 유형 수량 구성비 표 19,105 46.86% 그래프 11,205 27.48% 다이어그램 (인포그래픽 포함) 10,464 25.66% 합계 40,774 100% - 질의유형별 구축 규모
데이터 분포-질의유형별 구축 규모 질의 유형 수량 구성비 일반형 시간 6,094 4.06% 무엇 28,779 19.19% 장소, 인물 8,358 5.57% 일반 수치 65,126 43.42% 추론형 논리 추론 26,156 17.44% 연산 추론 15,487 10.32% 합계 150,000 100% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드● 문서의 표, 그래프와 같은 시각화 자료에 대한 사용자 질의에 적합한 응답을 생성하기 위해, LLaVA-Next는 텍스트와 이미지를 동시에 처리할 수 있는 다중 모달 학습 방식을 채택
● 모델은 다음과 같은 주요 기능과 학습 목표 보유
● 문서의 시각적 정보 이해
- 표와 그래프, 다이어그램 등 다양한 시각적 자료의 구조를 인식하고, 이를 텍스트 정보와 연결하여 정확한 문맥을 이해
- 이를 통해 사용자가 질문한 데이터와 관련된 정보 추출 및 분석 가능● 질의 응답 성능 강화
- 사용자의 질의 의도를 분석하고, 시각 자료와 관련된 핵심 데이터를 검색한 뒤, 간결하고 정확한 답변 제공
- 특히 수치 계산, 비교, 데이터 요약 등 정교한 응답을 생성할 수 있도록 훈련● 복잡한 문서 내 다중 모달 정보 처리
- 문서 내에 있는 텍스트와 비텍스트 요소(예: 그래프의 축, 표의 열과 행)를 종합적으로 처리하며, 상호 관련되 정보를 연결해 보다 심층적인 분석을 수행 가능
<학습 AI 모델 추론 예시>● 기대효과
- 문서 내 시각 자료를 기반으로 한 질의 응답의 자동화 및 정확도 향상
- 사용자 데이터 분석 소요 시간 감소 및 생산성 증대
- 복잡한 다중 모달 데이터에 대한 유연한 활용 가능성 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드● 어노테이션 포맷
어노테이션 포맷 구분 속성명 타입 필수여부 설명 범위 비고 1 raw_data_info - 원시데이터 정보 1.1 doc_name String Y 문서 이름 1.2 doc_id String Y 문서 ID 32자리 hash 1.2 year number Y 발행년도 1990~2024 1.3 category String Y 분야 “공공행정”,“과학기술”,“교육”,“교통물류”,“국토관리”,“농축수산”,“문화관광”,“보건의료”,“사회복지”,“산업고용”,“식품건강”,“재난안전”,“재정금융”,“통일외교안보”,“환경기상” 15개 분야 1.4 license String Y 저작권 여부 “공공누리제1유형” 1.5 copyright String Y 수집기관 “미디어그룹사람과숲” 1.6 publisher String Y 발행처 2 source_data_info - 원천데이터 정보 2.1 tab_id String Y 참조텍스트와 시각 요소의 SET ID 10자리 hash 참조텍스트 1개에 대해 시각 요소가 2개 이상 붙은 케이스가 발견되어 하나의 내용에 대해 각기 다른 tab_id로 구분 2.2 reference_text String Y 참조 텍스트 2.3 visual_elements 2.3.1 visual_elements_id String Y 시각 요소 ID 10자리 hash 2.3.2 visual_elements_type String Y 시각 요소 유형 “표”, “다이어그램”, “세로막대그래프”, “가로막대그래프”, “꺾은선그래프”, “원형그래프”, “기타그래프”, “복합그래프” 2.3.3 description_text String Y 시각 요소 설명문 2.3.4 keyword String Y 핵심 내용 2.4 qa_data String Y 질의응답 정보 2.4.1 qa_id number Y 질의응답 ID 6자리 숫자 2.4.2 question String Y 질문 내용 2.4.3 q_type String Y 질문 유형 “일반형-일반수치”,
“일반형-시간”,
“일반형-무엇”,
“일반형-장소,인물”,
“추론형-연산추론”,
“추론형-논리추론”2.4.4 answer String Y 답변 내용 2.4.5 a_type String Y 답변 유형 “수치형”, “문자형” 2.5 page_no array Y 페이지 번호 참조텍스트+시각요소가 2페이지를 넘어갈 경우 json의 page_no에는 포함되는 모든 페이지 표기 ● 어노테이션 예시
{"raw_data_info": {
"doc_name": "2024년 1월 국내인구이동 결과.pdf",
"doc_id": "806946c532614dcca58f500f1a74ee9f",
"year": 2024,
"category": "공공행정",
"license": "공공누리제1유형",
"copyright": "미디어그룹사람과숲",
"publisher": "통계청"
},
"source_data_info": [
{
"tab_id": "2af2a9fde0",
"reference_text": "□ 2024년 1월 중 이동자 수 59만 7천 명, 전년동월대비 18.0% 증가□ 1월 중 인구이동률(인구 백 명당 이동자 수) 13.8%, 전년동월대비 2.2%p 증가",
"visual_elements": [
{
"visual_element_id": "2ab6c2e857",
"visual_element_type": "표",
"description_text": "2022년부터 2024년까지 전국 1월 인구이동 수에 대한 표다. 2024년 1월 동안 59만 7천 명이 이동하였다. 이는 전년동월대비 18.0% 증가한 수치이다. 2023년 1월에는 50만 6천 명이 이동하였으며, 이는 전년동월대비 8.4% 감소한 수치였다. 2022년 1월에는 55만 2천 명이 이동하였고, 이동률은 13.8%였다. 따라서 2024년 1월의 인구이동률은 13.8%로, 전년동월대비 2.2%p 증가하였다.",
"keyword": "2022년 ~ 2024년 전국 1월 인구이동 수"
},
{
"visual_element_id": "0ac2b87c38",
"visual_element_type": "꺾은선그래프",
"description_text": "2022년부터 2024년까지 1월 기준 인구이동 수에 대한 표다. 2022년 1월 55만 2천 명이 이동했고, 2023년 1월에는 50만 6천 명이 이동했다. 2024년 1월에는 59만 7천 명이 이동했다.",
"keyword": "2022년 ~ 2024년 1월 기준 인구이동 수"
}
],
"qa_data": [
{
"qa_id": 165337,
"question": "2023년 1월의 인구 이동률은 얼마인가요?",
"q_type": "일반형-일반수치",
"answer": "이동률은 11.6%입니다.",
"a_type": "수치형",
},
{
"qa_id": 165339,
"question": "2022년 가장 높은 인구이동을 기록한 달은 언제인가요?",
"q_type": "추론형-논리추론",
"answer": "가장 높은 인구이동을 기록한 달은 2월입니다.",
"a_type": "수치형",
},
{
"qa_id": 165340,
"question": "2022년 1월의 인구이동자는 몇 명입니까?",
"q_type": "일반형-일반수치",
"answer": "인구이동자는 552천 명입니다.",
"a_type": "수치형",
},
{
"qa_id": 165341,
"question": "2022년과 2023년 중 10월의 인구이동이 더 높은 년도는 언제인가요? ",
"q_type": "추론형-논리추론",
"answer": "2023년의 10월 인구이동이 더 높습니다.",
"a_type": "수치형",
}
],
"page_no": 1
},
후 략 -
]
} -
데이터셋 구축 담당자
수행기관(주관) : ㈜미디어그룹사람과숲
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 정용운 02-830-8583 wjdddyddns@humanf.co.kr 품질검사 수행기관(참여)
수행기관(참여) 기관명 담당업무 서울과학기술대학교 산학협력단 AI 모델 개발 ㈜유클리드소프트 수집, 정제, 가공, 검수 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 오소연 070-5151-5581 syo@euclidsoft.co.kr AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 신동재 010-9982-6659 faizman31@gmail.com 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 오소연 070-5151-5581 syo@euclidsoft.co.kr 김나율 070-5151-5581 nykim@euclidsoft.co.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.
국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.