※ 26년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2026-05-19 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2026-05-19 산출물 최종 공개 소개
멀티모달 센서정보(시각, 양손 센서, 압력 센서, 환경 등)를 바탕으로 복잡한 농작업의 단계적 추론 과정을 표현하여 로봇 지능 고도화를 지원하는 학습데이터
구축목적
- 주요 과수(사과, 배, 복숭아, 자두) 4종의 전 과정(적화, 적과, 가지치기, 수확)을 포괄하는 멀티모달 데이터 확보 - 농업 로봇 자동화 기술의 상용화 지원 및 관련 AI 생태계 기반 마련
-
메타데이터 구조표 데이터 영역 로봇·피지컬AI 데이터 유형 센서 , 이미지 , 텍스트 데이터 형식 JPEG, CSV 데이터 출처 자체 수집 라벨링 유형 바운딩 박스, 질의응답(QA), CoT 라벨링 형식 JSON 데이터 활용 서비스 자율 농작업 로봇 개발 및 실증, 지능형 농기계 성능 고도화 등 데이터 구축년도/
데이터 구축량2025년/라벨링 데이터 30,194건 -
1. 데이터 구축 규모
• 원천 데이터 : 이미지(RGB/Depth) 및 양손 센서 데이터 - 90,582건
• 가공 데이터 : 단계적 사고 과정을 제시한 질의응답 및 CoT 데이터 - 30,194건1. 데이터 구축 규모 구분 유형 가공데이터
(JSON)적화 데이터 사과 1,040 3.44% 배 1,415 4.69% 적과 데이터 사과 1,060 3.51% 배 1,024 3.39% 복숭아 600 1.99% 자두 1,435 4.75% 가지치기 데이터 사과 2,388 7.91% 배 1,276 4.23% 복숭아 1,348 4.46% 자두 1,312 4.35% 수확 데이터 사과 7,504 24.85% 배 수확 2,776 9.19% 비수확 1,008 3.34% 복숭아 3,012 9.98% 자두 2,996 9.92% 합계 4개 품종 30,194 100.00% 2. 데이터 분포
2. 데이터 분포 품질특성 항목명 측정 지표 결과 다양성
(요건)농작물
분포구성비
중첩률구성비 중첩률 93.70% 구분 비율(%) 수량(건) 사과 39.72 11,992 배 24.94 7,499 복숭아 16.43 4,960 자두 19.02 5,743 총계 100% 30,194 작업 분포 구성비
중첩률구성비 중첩률 90.92% 구분 비율(%) 수량(건) 적화 11.47 3,463 적과 13.64 4,119 가지치기 20.94 6,324 수확 53.94 16,288 총계 100% 30,194 수확 대상
분포(배)구성비
중첩률구성비 중첩률 97.71% 구분 비율(%) 수량(건) 수확 73.36 2,776 비수확 26.64 1,008 총계 100% 3,784 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1. VARCO-VISION
• VARCO-VISION은 LLaVA-OneVision 아키텍처 기반으로 고도화된 VQA, Grounding, Referring, OCR 기능을 지원하는 멀티모달 비전-언어 모델로 텍스트 + 이미지 입력을 바탕으로 수확 대상 탐색 및 판단 등 다양한 Task를 수행 할 수 있음.
• 해당 모델은 이미지와 텍스트 입력을 기반으로 응답을 생성하며, 본 과제에서는 Chain-of-TRhought(CoT) 추론 구조를 반영하여 구성된 데이터셋을 활용함으로써 모델이 단계적 추론 과정을 포함한 응답을 생성하도록 함. 생성된 응답 결과는 Judge LLM 기반 Preference 평가 방식을 통해 유효성을 정량적으로 검증함.
• VARCO-VISION-14B 모델은 Hugging Face에 공개된 모델로, CC BY-NC 라이센스가 적용되어 비상업적 용도로 사용 및 수정 재배포가 가능하며 원 저작자 표기를 준수하여 활용함.
개략도: LLaVA-OneVision: EasyVisualTaskTransfer (https://arxiv.org/abs/2408.03326)
*VARCO-VISION은 LLaVA-OneVision의 아키텍처를 따름
논문 : VARCO-VISION: Expanding Frontiers in Korean Vision-LanguageModels (https://arxiv.org/pdf/2411.19103) -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 데이터 구성
1. 데이터 구성 필드명 항목 설명 예시 task_id 작업 고유 ID “task_id, task_type, camera_model, source_video_file, video_type, video_fps, date, crop_type, width, height, sensor_data_file, timestamp, rgb_image, depth_image, seq_id, event_order, enviromental_data, temperature_celsius, humidity_percent, light_intensity_lux, slope_degree, elevation_meters”
“0001,
“000036, 적화, 392-OAK-D-INTL, 250502_PEAR_0001_001.mp4, RGB, 30, 2025-05-02, 배, 1920, 1080, 250502_PEAR_0001_001.csv, 1683000000.500, 250502_PEAR_0001_001_R.jpeg, 250502_PEAR_0001_001_D.jpeg, 0001, 1, 18.0, 55.0, 70000, 12, 220task_type 작업 유형 camera_model 카메라 정보 source_video_file 원본 영상 파일명 video_type 영상 종류(RGB/D) video_fps 녹화 프레임 속도 date 수집 날짜 crop_type 작물 유형 resolution 해상도 width 가로 height 세로 sensor_data_file 글러브 센서데이터 파일명 timestamp 타임스탬프 rgb_image 대표 이미지(RGB) depth_image 대표 이미지(Depth) seq_id 행동 고유 ID event_order 시퀀스 내 이벤트 순서 enviromental_data 작업 환경 정보 temperature_celsius 온도 humidity_percent 습도 light_intensity_lux 조도 slope_degree 경사도 elevation_meters 고도 2. 어노테이션 포맷
2. 어노테이션 포맷 구분 속성명 타입 필수
여부설명 1 input_data_info object Y 입력 데이터 정보 1-1 data_class string Y 데이터 클래스 1-2 timestamp string Y 이미지 및 메타데이터 생성 일자 1-3 RGB_image_info object Y RGB 이미지 정보 1-3-1 image_id string Y 이미지 ID 1-3-2 image_file string Y 이미지 파일 이름 1-3-3 width number Y 이미지 가로 크기 1-3-4 height number Y 이미지 세로 크기 1-4 question string Y 질문 프롬프트 1-5 meta_data_info object Y 메타 데이터 정보 1-5-1 task_id string Y 작업 고유 ID 1-5-2 task_type string Y 작업 유형 1-5-3 Depth_image_info object Y 깊이 이미지 정보 1-5-3-1 image_id string Y 이미지 ID 1-5-3-2 image_file string Y 이미지 파일 이름 1-5-3-3 width number Y 이미지 가로 크기 1-5-3-4 height number Y 이미지 세로 크기 1-5-4 env_sensor object Y 환경 센서 정보 1-5-4-1 temperature number Y 온도(℃) 1-5-4-2 humidity number Y 습도(%) 1-5-4-3 wind_speed number Y 풍속(m/s) 1-5-4-4 light_intensity number Y 광량(lux) 1-5-5 glove_data_L object Y 장갑 센서 데이터 정보(왼손) 1-5-5-1 raw_data_file string Y 장갑 센서 원본 파일명 1-5-5-2 finger_pressure array Y 손가락 압력 센서 1-5-5-3 bbox array Y 장갑의 바운딩 박스 [x, y, w, h] 1-5-5-4 size number Y 장갑의 크기 1-5-5-5 status object Y 장갑 상태 정보 1-5-5-5-1 posture string Y 장갑 자세 1-5-5-5-2 description string Y 장갑 자세 설명 1-5-5-6 position string Y 장갑 위치 1-5-6 glove_data_R object Y 장갑 센서 데이터 정보(오른손) 1-5-6-1 raw_data_file string Y 장갑 센서 원본 파일명 1-5-6-2 finger_pressure array Y 손가락 압력 센서 1-5-6-3 bbox array Y 장갑의 바운딩 박스 [x, y, w, h] 1-5-6-4 size number Y 장갑의 크기 1-5-6-5 status object Y 장갑 상태 정보 1-5-6-5-1 posture string Y 장갑 자세 1-5-6-5-2 description string Y 장갑 자세 설명 1-5-6-6 position string Y 장갑 위치 1-5-7 object_data object Y 타겟 객체 데이터 정보 1-5-7-1 bbox array Y 객체의 바운딩 박스 [x, y, w, h] 1-5-7-2 size number Y 객체의 크기 1-5-7-3 type string Y 객체 유형 1-5-7-4 status string Y 객체 상태 정보 1-5-7-5 position string Y 객체 위치 1-5-7-6 hsv string Y 객체의 hsv값 1-5-8 tool_data array Y 도구 데이터 정보 1-5-8-1 bbox array Y 도구의 바운딩 박스 [x, y, w, h] 1-5-8-2 size integer Y 도구의 크기 1-5-8-3 type string Y 도구 유형 1-5-8-4 status string Y 도구 상태 정보 1-5-8-5 position string Y 도구 위치 1-5-9 glove_object_distance number Y 장갑과 객체간 거리(mm) 1-5-10 tool_object_distance number Y 도구와 객체간 거리(mm) 1-5-11 previous_result string Y 직전 판단 결과 2 output_data_info object Y 출력 데이터 정보 2-1 CoT array Y 단계별 사고 과정 2-2 result string Y 최종 응답 문장 3. 데이터 포맷
• 원천 데이터 : 이미지 데이터(JPEG) + 센서 데이터(CSV)
• 가공 데이터 : 라벨(JSON)4. 실제 예시
• 원천 데이터

RGB 이미지 파일 Depth 이미지 파일 
CSV 파일 • 가공 데이터

-
데이터셋 구축 담당자
수행기관(주관) : 주식회사 유클리드소프트
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 황준원 042-488-5583 jwhwang@euclidsoft.co.kr 사업 총괄, 데이터 정제/가공/검수 수행기관(참여)
수행기관(참여) 기관명 담당업무 경북대학교 산학협력단 데이터 수집 및 정제, 검수 주식회사 써로마인드 AI 모델 개발 및 검증 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 황준원 042-488-5583 jwhwang@euclidsoft.co.kr 조하랑 042-488-5583 hrcho@euclidsoft.co.kr AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 김병희 02-872-5127 bhkim@surromind.ai 박상민 02-872-5127 smpark@surromind.ai 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 조하랑 042-488-5583 hrcho@euclidsoft.co.kr 황준원 042-488-5583 jwhwang@euclidsoft.co.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.