※ 26년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2026-05-19 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2026-05-19 산출물 최종 공개 소개
본 데이터는 특허 도면을 대상으로 단계적 사고(Chain of Thought)를 기반으로 한 추론 과정을 구조화한 데이터셋임. 도면 요소 인식, 구성요소 간 관계 분석, 발명의 기술적 의미 도출 과정을 텍스트 형태로 체계적으로 정리함.
구축목적
특허 도면에 대한 논리적 해석과 단계적 추론이 가능한 AI 모델 학습을 지원하는 것을 목적으로 함. 도면 해석의 일관성과 설명 가능성을 확보하여 지식재산 분야 특화 추론 AI 성능 고도화를 도모함.
-
메타데이터 구조표 데이터 영역 지식재산 데이터 유형 텍스트 데이터 형식 PNG 데이터 출처 공개 특허 공보(KIPRIS) 라벨링 유형 단계적 사고(CoT) 추론 라벨링 형식 JSON 데이터 활용 서비스 - 특허도면 기반 추론 및 명세서 생성 AI 서비스 - 특허 심사·분석 보조 및 특허 검색·분류 고도화 AI 서비스 데이터 구축년도/
데이터 구축량2025년/원천데이터 : 40,000 장, 라벨링 데이터 : 40,000 건 -
1. 데이터 구축 규모
- 원천 데이터 (대표 도면)1. 데이터 구축 규모 - 원천 데이터 (대표 도면) IPC 도면 유형 구축량(장) 파일포맷 B
산업·운송사시도 2,984 PNG 분해도 1,385 PNG 단면도 1,802 PNG 블록도 1,490 PNG 흐름도 1,878 PNG 공정도 604 PNG 회로도 179 PNG C
화학·야금사시도 1,453 PNG 분해도 195 PNG 단면도 1,747 PNG 블록도 255 PNG 흐름도 2,286 PNG 공정도 798 PNG 회로도 3 PNG G
물리학사시도 2,083 PNG 분해도 1,072 PNG 단면도 1,642 PNG 블록도 2,882 PNG 흐름도 3,778 PNG 공정도 142 PNG 회로도 291 PNG H
전기사시도 2,234 PNG 분해도 1,009 PNG 단면도 1,169 PNG 블록도 2,020 PNG 흐름도 3,515 PNG 공정도 384 PNG 회로도 720 PNG 합계 40,000 - - 라벨링 데이터
1. 데이터 구축 규모 - 라벨링 데이터 IPC 도면 유형 구축량(건) 파일포맷 B
산업·운송사시도 2,984 json 분해도 1,385 json 단면도 1,802 json 블록도 1,490 json 흐름도 1,878 json 공정도 604 json 회로도 179 json C
화학·야금사시도 1,453 json 분해도 195 json 단면도 1,747 json 블록도 255 json 흐름도 2,286 json 공정도 798 json 회로도 3 json G
물리학사시도 2,083 json 분해도 1,072 json 단면도 1,642 json 블록도 2,882 json 흐름도 3,778 json 공정도 142 json 회로도 291 json H
전기사시도 2,234 json 분해도 1,009 json 단면도 1,169 json 블록도 2,020 json 흐름도 3,515 json 공정도 384 json 회로도 720 json 합계 40,000 - 2. 데이터 분포
- 국제특허분류 분포2. 데이터 분포 - 국제특허분류 분포 구분 수량(건) 비율 B 산업·운송 10,322 25.80% C 화학·야금 6,737 16.80% G 물리학 11,890 29.70% H 전기 11,051 27.60% 합계 40,000 100% - 특허도면 유형별 분포
2. 데이터 분포 - 특허도면 유형별 분포 구분 수량(건) 비율 사시도 8,754 21.90% 분해도 3,661 9.20% 단면도 6,360 15.90% 블록도 6,647 16.60% 흐름도 11,457 28.60% 공정도 1,928 4.80% 회로도 1,193 3.00% 합계 40,000 100% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드Qwen3-VL-30B-A3B-Instruct
○ 임무 정의
- 특허도면 이미지와 명세 정보를 입력으로 받아 도면의 구성요소, 구조적 관계, 기능적 의미를 단계적 사고(CoT) 방식으로 추론하고 자연어로 설명하는 멀티모달 AI 모델 활용
- 도면 기반 추론 결과를 통해 특허 명세 정보 생성, 도면 설명 자동화, 질의응답 수행
○ 임무 선정 사유
- 특허도면은 발명의 핵심 구조와 작동 원리를 시각적으로 표현하고 있어 단순 이미지 인식이 아닌 논리적 추론이 요구됨
- Qwen3-VL-30B-A3B-Instruct는 이미지와 텍스트를 동시에 처리하는 멀티모달 대규모 언어모델로, 도면 이해와 단계적 사고(CoT) 기반 추론 임무에 적합함
- 본 데이터셋은 도면 요소 식별부터 구조·기능 해석까지의 사고 과정을 포함하고 있어 해당 모델의 추론 능력 검증에 활용 가능함○ 학습 모델 개발 환경
- 학습 환경
- 개발 언어: Python
- 추론 프레임워크: PyTorch 기반 멀티모달 추론 환경
- 연산 자원: GPU 서버 활용
- 모델 활용 방식: 사전학습된 멀티모달 모델에 특허도면 추론 데이터 적용
- 학습 구조: 단계적 사고(CoT) 추론 문장을 포함한 지도학습 및 추론 성능 평가○ 최종 선정 모델
- Qwen3-VL-30B-A3B-Instruct는 이미지 인코더와 대규모 언어모델을 결합한 멀티모달 추론 모델임
- 도면 이미지 입력을 기반으로 시각적 특징을 추출하고, 텍스트 질의와 결합하여 단계별 사고 과정을 생성할 수 있는 구조를 가짐○ 학습 데이터 생성
- 대표 특허도면 이미지와 명세 정보를 기반으로 단계적 사고(CoT) 추론 문장을 생성하여 학습데이터로 활용
- 각 데이터는 도면 이미지, 질의 문장, 단계별 추론 과정, 최종 응답을 포함하는 JSON 형식으로 구성됨 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 어노테이션 포맷
1. 어노테이션 포맷 구분 속성명 타입 필수 설명 예시 1 raw_data_info dictionary 원시데이터 정보 1.1 raw_data_filename string Y 원시 특허 문서 파일명 “PG__01_250701_0001.pdf” 1.2 IPC_code string Y 국제특허분류 “G” 1.3 patent_id string Y 특허 출원 번호 “10-2022-0090862” 1.4 patent_name string Y 발명의 명칭 “디스플레이와 광 센서를 이용하여 지문을 획득하는 방법 및 그 전자 장치” 1.5 patent_date string Y 특허 출원 날짜 “2024-11-01” 2 source_data_info dictionary 원천데이터 정보 2.1 source_data_filename string Y 도면 데이터 파일명 “PG_01_250701_0001.png” 2.2 source_data_type string Y 도면 유형 “블록도” 2.3 image_width number Y 이미지 가로 픽셀 800 2.4 image_height number Y 이미지 세로 픽셀 1000 2.5 image_dpi number Y 이미지 해상도 300 3 learning_data_info dictionary 가공데이터 정보 3.1 labeling_data dictionary Y 라벨링 데이터 정보 3.1.1 parts_name string N 부품명 “110 댐핑 하우징”, “200 링 기어” 3.1.2 summary_description string Y 요약설명 “도 2는 본 발명에 따른 LIB 팩 시스템의 세부적인 구성을 개념적으로 도시한 예시도” 3.2 CoT dictionary Y 3.2.1 instruction string Y “해당 특허 문서의 도면 유형을 바탕으로, 발명의 핵심 구성.....” 3.2.2 reasoning dictionary Y 3.2.2.1 elements_CoT string Y 도면의 주요 구성 요소 식별 “전자 장치(1100)는 전체 시스템을 나타내는 포괄적 구성 요소.....” 3.2.2.2 structure_CoT string Y 구성 요소 간의 구조적 관계 추론 “전자 장치(1100)의 구조는 다음과 같은 계층적 관계 및 상호.....” 3.2.2.3 function_CoT string Y 기능 및 역할 추론 “각 구성 요소는 전자 장치의 지문 인식 기능을 중심으로 한..... ” 3.2.3 response string Y 답변 문장 “도 2에 도시된 바와 같이, 본 발명에 따른 배터리 팩 시스템.....” 2. 어노테이션 예시
{
"raw_data_info": {
"raw_data_filename": "PG__01_250701_0001.pdf",
"IPC_code": "G",
"patent_id": "10-2023-0034267",
"patent_name": "디스플레이와 광 센서를 이용하여 지문을 획득하는 방법 및 그 전자 장치”",
"patent_date": "2025-07-01"
},
"source_data_info": {
"source_data_filename": "PG_01_250701_0001.png",
"source_data_type": "블록도",
"image_width": 800,
"image_height": 1000,
"image_dpi": 300,
},
"learning_data_info": {
"labeling_data": {
"parts_name": "110 댐핑 하우징", “200 링 기어”
"summary_description" : "도 2는 본 발명에 따른 LIB 팩 시스템의 세부적인 구성을 개념적으로 도시한 예시도“
},
"CoT" : {
"instruction": "해당 특허 문서의 도면 유형을 바탕으로 발명의 핵심 구성과 기술적 특징을 설명해줘",
"reasoning": {
"elements_CoT": "전자 장치(1100)는 전체 시스템을 나타내는 포괄적 구성 요소이며, 다양한 형태로 구현될 수 있다. 윈도우(1110)은 전면 커버로, 디스플레이를 보호하며 빛의 투과를 허용하는 투명 커버 구조로 해석된다. 디스플레이(1120)는 사용자에게 시각 정보를 제공하며, 지문 인식 기능을 위해 특정 영역이 발광 영역으로 동작할 수 있다. 구조체(1130)는 윈도우와 디스플레이 사이에 위치하며, 빛의 직진성을 유도하기 위한 구성 요소들로 이루어진다. 포토 다이오드(1140)는 디스플레이 하단에 배치되며, 광 정보를 감지하여 지문 인식에 활용된다. 레지스터(1150)는 포토 다이오드에서 수신한 광 정보를 저장하며, 메모리(예: 도 1의 메모리(130))로 기능할 수 있다. 컨트롤러(1160)는 지문 인식 기능을 통제하는 중심 제어 유닛으로, UI 이벤트 감지 및 모드 전환, 센서 제어, 이미지 생성 및 비교를 수행한다. 발광 영역(예: 331)은 디스플레이 상에서 지문 인식을 위한 광원을 포함하는 부분이다. SLM, 액체 렌즈, 렌즈 층 등: 구조체 내부에 포함되어 PSF 크기를 제어함으로써 빛의 직진성을 조절하는 광학 구성 요소들이다.",
"structure_CoT": "전자 장치(1100)의 구조는 다음과 같은 계층적 관계 및 상호 배치를 기반으로 한다. 상부에서 하부로: 윈도우(1110) → 구조체(1130) → 디스플레이(1120) → 포토 다이오드(1140)의 순으로 구성되어 있다. 이는 빛이 외부에서 내부로 투과될 때 필요한 경로를 나타낸다.구조체(1130)는 디스플레이 위에 직접 접촉하지 않고, 윈도우와 디스플레이 사이에 존재하며, 발광 영역에서의 빛이 포토 다이오드 방향으로 직진하도록 유도한다. 디스플레이(1120)는 발광 소자를 포함하고 있으며, 포토 다이오드(1140)와 상호작용하도록 하단에 배치되어 있다. 포토 다이오드(1140)는 광 정보를 수집하고 이를 레지스터(1150)로 전송하며, 레지스터(1150)는 이를 저장하여 컨트롤러(1160)로 전달한다. 컨트롤러(1160)는 이 모든 구성 요소들의 동작을 중앙에서 제어하며, 운영 모드 전환, 발광 제어, 이미지 생성 및 사용자 인증까지 전반적인 흐름을 조율한다. 특히, 구조체(1130)의 정렬 상태에 따라 디스플레이 픽셀 그룹이 다르게 활성화되며, 광학 제어가 구조적으로 정렬 기반의 기능 수행에 영향을 준다.",
"function_CoT": "각 구성 요소는 전자 장치의 지문 인식 기능을 중심으로 한 사용자 인증을 위해 다음과 같은 기능을 수행한다. 윈도우(1110)는 투명한 커버 역할을 하며, 외부 손끝에서 발생하는 빛을 내부 센서로 통과시키는 경로를 제공한다. 디스플레이(1120)는 지문 인식을 위한 발광을 담당하며, 특정 시점에 지정된 발광 영역(331)이 손끝을 조사하여 지문 이미지를 형성할 수 있도록 한다. 구조체(1130)는 빛의 직진성을 향상시켜 조사된 빛이 손끝에서 반사된 후 포토 다이오드로 정확히 도달하도록 유도한다. 이를 위해 렌즈 또는 SLM 같은 광학 제어 소자가 포함될 수 있다. 포토 다이오드(1140)는 조사된 광이 손끝에서 반사되어 돌아온 빛을 감지하여, 위치 기반의 광 정보로 변환한다. 레지스터(1150)는 감지된 정보를 임시 저장하며, 이후 데이터 처리와 비교를 위한 저장소로 활용된다. 컨트롤러(1160)는 다음과 같은 다양한 기능을 수행한다. 지문 인식 트리거 이벤트 감지(UI 요소 노출, 사용자 입력, 물체 근접 등), 운영 모드 전환(노말 모드 ↔ 지문 인식 모드), 구조체 제어를 통한 광학 특성 변화(예: PSF 조정, 픽셀 그룹 선택적 활성화), 발광 제어(순차 발광), 광 정보 수신 및 지문 이미지 생성, 저장된 지문 이미지와의 비교를 통한 사용자 인증 결정, 인증 완료 후 모드 복귀하므로 이러한 기능적 흐름은 생체 인식 기술을 전자 장치에 효율적으로 통합하기 위한 일련의 연동 작용으로, 하드웨어와 소프트웨어가 유기적으로 통합되어 사용자의 손끝을 통한 지문 인증을 수행하도록 설계되어 있다."
},
"response": "도 2에 도시된 바와 같이, 본 발명에 따른 배터리 팩 시스템, 예컨대, 리듐이온배터리 팩(LIB 팩: Lithim Ion Batteries pack) 시스템(20)은 서킷 브레이커(CB: Circuit Breaker )(15), LIB 모듈(14) 등을 구비하는 유니버셜 팩(U-Pack: universal Pack)(13)과, 상기 U-Pack(13)과 통신 연결 되면서 , 각 U-Pack(13)의 동작을 전반적으로 제어하는 메인 제어기인 클러스터 앤 메인 컨트럴 유닛(CMCU: Cluster & Main Control Unit)(11)과, 상기 U-Pack(13)과 전기적으로 연결되면서 각 U-Pack(13) 측으로 전기적인 파워를 공급하는 파워 공급 유닛(PDU: Power Disribution Unit )(12) 등이 긴밀하게 조합된 구성을 취하게 된다."
},
},
} -
데이터셋 구축 담당자
수행기관(주관) : ㈜오픈유아이
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김경민 02-857-3095 snowboard@openui.co.kr 실무책임자 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜유니바 가공 및 AI 모델 개발 한국인공지능협회 품질 검수 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김경민 02-857-3095 snowboard@openui.co.kr AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 정용운 053-615-1263 gandalf@univa.co.kr 임현우 053-615-1263 frodobaggins@univa.co.kr 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 정용운 053-615-1263 gandalf@univa.co.kr 임현우 053-615-1263 frodobaggins@univa.co.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.