AI-Hub

#농업

NEW 감귤 착과량 학습 데이터

분야농축수산
유형 이미지

구축년도 : 2022 갱신년월 : 2023-12 조회수 : 2,706 다운로드 : 78 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

데이터 토론 문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2023-12-15	데이터 최종 개방
1.0	2023-07-31	데이터 개방(Beta Version)

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2024-04-03	산출물 전체 공개
2024-02-27	상세페이지 내용 수정

소개

- 생물계절 및 환경조건에 따른 감귤 착과량을 예측하여 감귤 생산량 예측 시 필요한 기초 자료 제공과 신뢰도 높은 디지털 정보 제공 
- 나무의 크기에 따른 개화 상태 및 새순의 생육 상태에 따른 착과량을 AI기술을 통해 예측 
- 제주 전역 동(표선), 서(대정), 남(서귀포), 북(제주)  총 40개 농가를 지정하여 원시데이터 수집 
- 감귤나무 크기 (너비 >=3M, 너비<3M) 분포로 편향성 방지   
- 원시데이터 250,000장을 가이드라인에 따라 선별하여 가공 가능한 201,184장 원천데이터 확보 
- 객체 별 필요 환경데이터 및 메타 데이터 수집

구축목적

- 생물계절 및 환경 조건에 따른 감귤 착과량을 예측하여 감귤 생산량 예측 시 필요한 기초 자료 제공과 신뢰도 높은 디지털 정보 제공 
- 나무의 크기에 따른 개화 상태 및 새순의 생육 상태에 따른 착과량을 AI기술을 통해 예측 
- 노지 감귤의 생리낙과 종료시기 추정과 착과 예측모형 개발

메타데이터 구조표
데이터 영역	농축수산	데이터 유형	이미지
데이터 형식	jpg	데이터 출처	직접 촬영
라벨링 유형	폴리곤(이미지), 메타데이터	라벨링 형식	json
데이터 활용 서비스	- 기상조건에 따른 생리 낙과 및 착과 특성 분석 - 병해충 방제지도: 검은점무늬병, 총채벌레, 응애 등 - 토양 멀칭재배농가 토양건조상태 확인 후 토양수분관리 - 비규격품 및 불량감귤 제거를 위한 수상선과 추진 - 완숙과 구분 수확에 의한 고품질 감귤 출하 지도	데이터 구축년도/ 데이터 구축량	2022년/201,184장

가. 데이터 구축 규모

	구분1	구분2	구분3	객체	목표수량(frames)
원목DB	지역구분	나무 크기	(꽃or새순)상태
	서(대정)	1.너비>3	1.많음	감귤나무	원시데이터:250,000건
	남(서귀포시)		2.보통		원천데이터:201,184건
		2.너비<3			환경데이터:201,184건
	북(제주시)		3.빈약		라벨링데이터:201,184건
합계					최종 201,184세트

나. 데이터 분포
수집 지역 분포

지역	구축량	구성비
제주시	63,429	31.53%
서귀포시	113,901	56.62%
서귀포(대정)	23,853	11.86%
합계	201,184	100%

감귤 나무 크기 분포

크기	구축량	구성비
300CM 미만	111,699	55.52%
300CM 이상	89,485	44.48%
합계	201,184	100%

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드

AI 모델 상세 설명서 다운로드

AI 모델 상세 설명서 다운로드 AI 모델 다운로드

가. 학습모델 후보

구분	내 용
DNN	알고리즘	- DNN
	선정사유	- ANN신경망 기법의 문제를 해결하면서 모델 내 Hidden Layer를 늘려 학습의 결과를 향상시키는 방법
		해당 방법의 경우 많은 양의 데이터와 반복학습, 사전학습, 역전파 기법을 통해 널리 사용됨
		해당 과제에 최적화된 모델링 구축(너무 deep한 layer구성의 경우 Overfitting의 가능성이 있기 때문에 적절한 layer구성을 통해 성능을 평가
LSTM	알고리즘	- LSTM
	선정사유	- 전통적인 RNN의 단점을 보완하여 은닉층의 메모리 셀에 입력, 망각, 출력게이트를 추가(cell state)하여 불필요한 기억을 지우고, 기억해야 할 것을 정함
	선정사유	- cell state는 일종의 컨베이어 벨트 역할을 수행. 이로 인해 vanishing gradient problem문제 해결
MLP	알고리즘	- MLP (Multi Layer Perceptron)
	선정사유	- XOR 게이트는 기존의 AND, NAND, OR 게이트를 조합하면 만들 수 있음
		- 단층 퍼셉트론과는 다르게 입력층, 출력층 외에 은닉층이라는 hidden layer가 추가되어 있는 형태
		- overfitting과 Vanishing Gradient 문제를 해결하기 위해 Regularization, More Training data, Reduce the number of features, activation 함수를 조절
Stacking	알고리즘	- Stacking
	선정사유	- 여러 모델(4가지 이상)을 활용해 각각의 예측 결과를 도출하여 해당 결과들로 최종 예측 결과를 만들어 내는 방식
		- 각 모델별 예측값을 독립변수로, 실제 라벨데이터(GT)를 종속변수로 사용
		- Stacking 방법으로 학습진행 시 Overfitting의 가능성이 높기 때문에 Cross Validation을 통해 Overfitting 발생가능성을 줄이고 보다 일반화된 모델을 생성 가능
Regression 방식	라이브러리	PyCaret
	선정사유	- PyCaret이라는 오픈 라이브러리를 통해 다양한 Regression모델들을 동시다발적으로 학습 및 평가를 진행하여 원하는 Metrics값을 기준으로 상위 모델들을 분류 및 선별을 통해 ensembling, blending, stacking등 의 방식으로 조합하여 최적의 예측모델을 생성하는 것을 목표로 함
		단순히 AutoML만을 사용하는 것이 아닌 tensorflow의 kears처럼 세부적인 커스텀과 모델 구축이 가능하다는 장점이 있으며, Data_preprocessing을 어떻게 하느냐에 따라서도 모델의 성능 차이가 크게 나타남.
		Ensemble_model : bagging과 bosting을 파라미터에서 설정 가능
		blend_model : Voting방식으로 구현하며, 성능이 잘 나온 모델들을 선택하는 파라미터를 적용
		Stack_model : stacking 방식을 적용한 Ensemble의 한 종류로서 blend와 마찬가지로 성능이 잘 나온 모델들을 선택하는 파라미터를 적용
		Loss방식 또한 PyCaret내부에 있는 방식뿐 아니라 추가적인 Loss계산이 필요할 때 사용자가 직접 커스텀하여 생성 및 실행할 수 있음
		Regression의 경우 총 25개의 regression_model들이 내장되어 있고
		세부 Regressor 모델들은 총 25개의 모델들로 구성되어 있음
		‘lr’ - Linear Regression
		‘lasso’ - Lasso Regression
		‘ridge’ - Ridge Regression
		‘en’ - Elastic Net
		‘lar’ - Least Angle Regression
		‘llar’ - Lasso Least Angle Regression
		‘omp’ - Orthogonal Matching Pursuit
		‘br’ - Bayesian Ridge
		‘ard’ - Automatic Relevance Determination
		‘par’ - Passive Aggressive Regressor
		‘ransac’ - Random Sample Consensus
		‘tr’ - TheilSen Regressor
		‘huber’ - Huber Regressor
		‘kr’ - Kernel Ridge
		‘svm’ - Support Vector Regression
		‘knn’ - K Neighbors Regressor
		‘dt’ - Decision Tree Regressor
		‘rf’ - Random Forest Regressor
		‘et’ - Extra Trees Regressor
		‘ada’ - AdaBoost Regressor
		‘gbr’ - Gradient Boosting Regressor
		‘mlp’ - MLP Regressor
		‘xgboost’ - Extreme Gradient Boosting
		‘lightgbm’ - Light Gradient Boosting Machine
		‘catboost’ - CatBoost Regressor

나. 후보군별 품질지표

품질 지표	내 용
MAE	지표설명	- 평균 절대 오차 MAE (Mean Absolute Error)
		- 모든 절대오차의 평균값
		- 일반적 회귀 지표 (낮을수록 좋은 수치)
	계산식	수식 - 그림1
RMSE	지표설명	- 표준편차와 비슷한 의미로 작을수록 모델의 성능이 더 좋다고 평가
		- 평균 제곱근 오차는 오차가 커질수록 값이 더 증가하여 오차의 존재를 부각시키며, Regression에 선호되는 지표
	계산식	수식 - 그림2

다. 유효성 검증 환경

유효성 검증 항목
항목명	제주 감귤 착과량 예측
검증 방법	ipynb파일 제출
목적	Regression
지표	nMAE, MAPE
측정 산식	그림 3 그림 4
유효성 검증 환경
CPU	Intel(R) Xeon(R) Gold 6240 CPU @ 2.60GHz
Memory	204G
GPU	Nvidia Geforce RTX 3090Ti
Storage	2TB
OS	Linux
유효성 검증 모델 학습 및 검증 조건
개발 언어	Python 3.8.13
프레임워크	pandas – 1.4.4, matplotlib – 3.6.3, pycaret – 2.3.10, tqdm – 4.64.1, seaborn – 0.11.2, sklearn – 0.23.2, jupyter – 1.0.0, numpy – 1.20.3
학습 알고리즘	1. pycaret는 classification, Regression 등의 task에서 여러 모델을 같은 환경에서 간단한 코드로 실행하여 비교할 수 있는 AutoML 라이브러리
	2. Regression 과업에 맞는 다양한 Regression 모델들을 비교 분석하여 최적의 Regression 모델을 구축
	3. 시간과 비용적인 측면에서 효율적으로 활용할 수 있으며, 성능이 좋은 모델들을 앙상블하여 단순 1개의 모델보다 높은 성능의 모델을 사용 가능
학습 조건	train_size = 0.7, session_id = 42, normalize = True, silent = True, transformation=True, use_gpu=True, fold_shuffle=True
파일 형식	• 학습 데이터셋: json
파일 형식	• 평가 데이터셋: json
전체 구축 데이터 대비 모델에 적용되는 비율	AI 모델 적용 비율
전체 구축 데이터 대비 모델에 적용되는 비율	- 전체 데이터셋(100%) 중, 40%는 AI모델의 학습데이터로 활용하고 60%는 최종 평가 데이터로 활용

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	감귤 착과량 예측 성능	Estimation	Pycaret	MAPE	5 %	4.89 %
2	감귤 착과량 예측 성능	Estimation	Pycaret	NMAE	5 %	3.5 %

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

구분			설명	항목				타입
1			데이터셋정보	info				object
	1-1		지역(농가)		direction			string
	1-2		과수번호		sep			string
	1-3		일반이미지		NI_image			object
		1-3-1	파일명			filename		string
		1-3-2	촬영일날짜			day		string
	1-4		정사이미지		OI_image			object
		1-4-1	파일명			filename		string
		1-4-2	촬영일날짜			day		string
	1-5		품종		race			string
	1-6		연생		myear			number
	1-7		개화비율		f_ratio			number
	1-8		새순비율		new_leaf_ratio			number
	1-9		착과량		man_count			number
	1-10		나무 높이		man_height			number
	1-11		나무 너비(평균)		man_width_avg			number
	1-12		엽록소 함량(평균)		chl_avg			number
	1-13		농가좌표위도		lat			string
	1-14		농가좌표경도		lon			string
	1-15		농가고도		alti			number
	1-16		농가 면적		area			number
	1-17		풍속		windy_avg			number
	1-18		풍향		windir_avg			number
	1-19		온도		deg_avg			number
	1-20		습도		hum_avg			number
	1-21		압력		pa_avg			number
	1-22		강수량		rain_avg			number
	1-23		적설량		snow_avg			number
	1-24		태양복사		solar_avg			number
	1-25		지구복사		radiat_avg			number
	1-26		토양온도		temp1_avg			number
	1-27		토양온도		temp2_avg			number
	1-28		토양온도		temp3_avg			number
	1-29		토양온도		temp4_avg			number
	1-30		토양수분		soil1_avg			number
	1-31		토양수분		soil2_avg			number
	1-32		토양수분		soil3_avg			number
	1-33		토양수분		soil4_avg			number
	1-34		RGB 이미지 EXIF		NI_image_EXIF			object
		1-34-1	타입			type		string
		1-34-2	촬영장비			device		string
		1-34-3	해상도			resolution		string
		1-34-4	비트값			bit		number
		1-34-5	ISO감도			ISO		string
	1-35		정사이미지 EXIF		OI_image_EXIF			object
		1-35-1	타입			type		string
		1-35-2	촬영장비			device		string
		1-35-3	해상도			resolution		string
		1-35-4	비트값			bit		number
		1-35-5	ISO감도			ISO		string
		1-35-6	촬영고도			s-Alti		number
2			폴리곤 Annotations	polygon_annotations				array
	2-1				{}			object
		2-1-1	객체아이디			polygon.id		string
		2-1-2	객체분류			polygon.class		string
		2-1-3	카테고리			polygon.category		string
		2-1-4	폴리곤내 점의 집합			polygon.points		array
		2-1-4				polygon.points	[]	array
3			Bbox Anntatios	bbox_annotations				array
	3-1				[]			array
		3-1-1				{}		object
			객체아이디				bbox.id	string
			객체분류				bbox.class	string
			카테고리				bbox.category	string
			점의 집합				bbox.points	array

데이터셋 구축 담당자

수행기관(주관) : 제주대학교 산학협력단

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
오산수민	064-754-3983	ohsumin@gmail.com	사업총괄, 데이터 설계, 데이터 수집 및 정제, 데이터 검사

수행기관(참여)

수행기관(참여)
기관명	담당업무
제주대학교 산학협력단	사업총괄, 데이터 설계, 데이터 수집 및 정제, 데이터 검사
주식회사 제우스	데이터 수집 및 정제
농업회사법인 제주청년농부 주식회사	데이터 수집
주식회사 데이터메티카	데이터 가공
㈜미디어그룹 사람과숲	데이터 가공

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
오산수민	064-754-3983	ohsumin@gmail.com

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의