AI-Hub

#축산업 #스마트축사 #양돈 #축사환경 #축산유통 #지능화축사 #가축행동정보 #가축상태예측 #가축이상행동동물 개체인식

BETA 지능형 스마트축사 통합 데이터(양돈)

분야농축수산
유형 오디오 , 이미지

구축년도 : 2021 갱신년월 : 2023-02 조회수 : 5,414 다운로드 : 228 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 해당데이터는 품질보완조치중으로 변경 될 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

데이터 토론 문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2023-02-10	원천데이터 및 라벨링데이터 수정
1.0	2022-07-29	데이터 최초 개방

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2023-03-23	담당자 변경
2022-10-21	신규 샘플데이터 개방
2022-07-29	콘텐츠 최초 등록

소개

축산 분야의 각 단계에 인공지능을 적용하여 축사 내·외부 환경 관리, 질병 예방 및 차단, 유통 및 소비의 시스템화를 위한 인공지능 학습용 데이터셋 구축

구축목적

돈방별 돼지의 상태를 진단하고, 개체의 실시간 관리 및 출하, 유통관리 시스템에 적용을 하기 위한 통합 데이터셋 구축

메타데이터 구조표
데이터 영역	농축수산	데이터 유형	오디오 , 이미지
데이터 형식	mp4, jpg, wav, txt, 시계열 메타데이터	데이터 출처	전국 5개 농장
라벨링 유형	내용요약(자연어)/번역(자연어)/질의응답(자연어)/바운딩박스(이미지/동영상)/키포인트(이미지/동영상)/ 폴리곤(이미지/동영상) /전사(음성) 등	라벨링 형식	원천 데이터: 영상 (mp4), 시나리오 주석(txt), 이미지 (jpg), 음성 (wav), 라벨 데이터: XML (Bounding Box, Polygon, Keypoint), JSON (음성)
데이터 활용 서비스	스마트 축사 관련 양질의 인공지능 학습용 데이터셋을 필요로 하는 유관업종 개발업체, 수의학 관련 연구기관 또는 교육기관, 한우 첨단 기자재 등의 분야에서 사양관리 및 유통관리를 위한 인공지능 알고리즘 개발 및 관련 연구 종사자등	데이터 구축년도/ 데이터 구축량	2021년/이미지 데이터 총합 : 100만장, 음성 데이터 총합 : 약 1,100건, 환경 센서 데이터 (환경 데이터 포함) : 22만건

스마트축사 통합 데이터(한우, 양돈) 총 구축 규모

데이터 구축 규모

데이터 분포
지능형 스마트 축사를 위한 AI 모델 요구 사항
- 소/돼지의 객체 인식과 행동 인식을 통하여 몸 상태와 행동 패턴에 따른 상황 판단을 하고 그에 따른 대응할 수 있어야 함
- 소와 돼지의 종류와 형태, 그리고 행동과 몸 상태를 인식하는 것은 스마트 축사의 매우 중요한 기능이며, 정확하고 실시간으로 동작하는 영상기반 행동인식 기술이 필요
- 행동과 몸 상태를 인지하는 것 외에 소와 돼지의 생체주기 인지와 그에 따라 솔루션을 제시하는 것도 필요
- 열화상 카메라를 통해 객체 인지 구현 가능
- 딥러닝을 이용한 인식 기술은 기존 기술들에 비해 높은 인식 성능을 보이고 있고, YOLO(You Only LookOnce)나 SSD(Single Shot MultiBox Detector)와 같은 기술은 딥러닝 기술에 문제가 되었던 실시간 동작 문제를 해결.
다중 객체 탐지 및 인식
- 카메라, 열화상 카메라로부터 생성된 영상 데이터에서 다수의 객체를 효과적으로 탐지하고 인식하기 위한 기법.
- 올바른 객체 인식은 물론이며, 다수의 객체를 동적, 정적 탐지 및 인식. 또한 축사의 특징상 행동 패턴인식, 객체 상태 탐지 및 인식이 필요
- 이미지, 영상데이터에 대한 신뢰성 있는 객체 인식 기술을 개발하기 위해서는, 같은 객체라도 색상이나 관찰 각도, 조명 등 조건이나 환경의 변화에서 오는 객체의 다양한 변화를 정확하게 해석할 수 있는 능력이 필요.
- 같은 종류의 객체들임에도 불구하고 다른 모습을 하거나, 반대로 다른 종류의 객체라도 어떠한 기준에서 보면 유사한 객체로 보이는 경우를 구분하기 위해서는 객체들간의 다양성을 보장함과 동시에 다른 종류의 객체간에 존재하는 차이점을 구별할 수 있어야 함.
모델 선정
- 해당 단계는 데이터 학습 단계로서, 학습 데이터셋을 이용하여 인공지능을 학습시키고, 해당 모델의 성능을 향상시키거나 보정하는 활동을 수행함.
- 본 연구에서는 음성데이터, 이미지 데이터, 환경 및 기타 정보 데이터 등 다양한 양식의 데이터를 처리할 예정이므로, 각각의 데이터 특성에 맞게 이를 처리하여야 함.
- 사용되는 학습 데이터 셋 중 가장 핵심이 되는 이미지 데이터 (512x512 이상)는 높은 차원의 데이터이므로, 이를 처리하기 위해서 주로 CNN (Convolutional Neural Network) 알고리즘을 많이 사용하고 있음.
- 음성 데이터는 발정 시 울부짖는 행동이 증가하는 점을 이용하여, 음성 데이터 내 울음 소리 패턴 인식을 수행해야 함. 이 때, 패턴 인식 및 자료 분석을 위한 지도학습 모델인 Support Vector Machine (SVM)을 수행할 수 있음. 또한, DBN (Deep Belief Network) 와 같은 심층 신경망 모델을 통해 음성패턴을 인식할 수도 있음.
최근 제안되는 객체인식을 위한 AI 모델들의 COCO test-dev Data set 에 대한 Box AP (IoU 및 Class 별 AP 평균)기준으로 상위 4개 모델의 성능을 비교
- Box AP : Swin-L (58.7%, 1위), Cascade Eff-B7 NAS-FPN (57.3%, 2위), Scaled-YOLOv4 CSP (56.0%, 3위), Efficient-Det(53.7%, 4위)
- AP75 : Scaled-YOLOv5 CSP (61.2%, 2위), Cascade Eff-B7 NAS-FPN (58.5%, 11위), Efficient-Det(58.4%, 13위), Swin-L (N/A)
AP 와 AP75에서 고른 성능을 보이는 Scaled-YOLOv4 CSP 와 Box AP 가 가장 우수한 Swin-L을 적용 모델로 선정하고 사용환경에 맞게 개발 계획이 필요함

해당 인공지능 학습모델이 실제 서비스 및 기기 개발로 연결될 수 있는지 분석이 필요함

활용 AI 모델 후보군 제시
- 동물의 상태 이미지 학습을 위한 AI학습은 여러 가지의 태스크가 존재하며, 일반적으로 객체를 분류할 수 있는 CNN, 객체를 검출할 수 있는 Faster R-CNN, YOLO, 객체를 분할하여 마스킹 하는 Mask R-CNN을 후보군으로 선택 가능
- 컨볼루션 신경망(Convolution Neural Network, CNN)은 주로 이미지, 비디오, 텍스트, 사운드, 얼굴 인식 등 다양한 영역에서 특징추출 또는 분류를 위해 사용. CNN은 패턴을 직접 찾고 특징을 분류하는데 직접 학습하고 높은 수준의 인식 결과를 나타내는 딥러닝 알고리즘 중 가장 많이 사용되는 알고리즘
- 컨볼루션 신경망의 구조는 이미지의 특징을 추출하는 부분과 클래스를 분류하는 부분으로 나눌 수 있으며, 특징 추출영역은 컨볼루션 레이어와 풀링 레이어를 여러 겹 쌓는 형태로 구성되며, 입력 데이터에 필터를 적용 후 활성화 함수를 반영
  - 마지막에는 이미지의 분류를 위한 완전 연결 레이어(Fully Connected Layers, FC)가 추가되며, 이미지의 특징을 추출하는 부분과 이미지를 분류하는 부분 사이에 이미지 형태의 데이터를 배열 형태로 만드는 Flatten레이어가 존재
  - 이미지 특징추출을 위하여 입력 데이터를 필터가 순회하며 합성곱을 계산하고, 그 계산 결과를 이용하여 Feature Map을 구성, 컨볼루션 레이어는 Filter 크기, Stride, Padding 적용 여부, Max Pooling 크기에 따라서 출력 데이터의 Shape가 변경되기도 함
- Mask R-CNN
  - Mask R-CNN은 Faster R-CNN에 각 픽셀이 객체인지 아닌지를 masking하는 CNN을 추가 -> Binary Mask
  - Mask R-CNN은 COCO challenges의 모든 task에서 이전 모델보다 우수한 성능 보임: instance seg, bounding-box(bbox) object detection, person keypoint detection에서
    
    [이미지에서 Conv Layer를 이용해 Feature map을 추출하여 Rol을 추출한 결과를 Classification과 bbox regression(Faster R-CNN)함]
  - R-CNN, Fast R-CNN, Faster R-CNN 모두 Object Detection을 위한 모델이며, Mask R-CNN은 Faster R-CNN을 확장하여 Instance Segmentation에 적용하고자 하는 모델
    1. R-CNN(2014) ----------> for Object Detection
    2. Fast R-CNN(2015) -----> for Object Detection
    3. Faster R-CNN(2016) ---> for Object Detection
    4. Mask R-CNN(2017) ----> for Instance Segmentation
- YOLO를 활용한 객체 검출
  - YOLO 모델의 원리는 예측하고자 하는 이미지를 S*S Grid cells로 나누고 cell마다 하나의 객체를 예측
  - 미리 설정된 개수의 boundary boxes를 통해 객체의 위치와 크기를 파악
  - 이때, cell마다 하나의 객체만을 예측할 수 있어서 여러 객체가 겹쳐있으면 몇몇 객체는 탐지를 못 하게 될 가능성 있음
    
    [YOLO 모델의 Gride cells 표현]
  - 각 cell은 다음 조건으로 예측을 진행한다. 먼저, B개의 boundary boxes를 예측하고 각 box는 하나의 box confidence score를 가지고 있으며, 예측된 box 수와 관계없이 단 하나의 객체만 탐지하며, 또한, C개의 conditional class probabilities를 예측
    
    [YOLO 모델의 각 요소]
  - 각 boundary box는 객체의 위치 (x, y), 객체의 크기 (w, h), box confidence score로 구성되어 총 5개의 인자를 보유
  - 여기서 box confidence score는 box가 객체를 포함하고 있을 가능성(objectless)과 boundary box의 정확성을 검토
  - Conditional class probabilities는 탐지된 객체가 어느 특정 클래스에 속하는지에 대한 확률이며, 각 score는 수학적으로 정의되며, Class confidence score는 분류와 지역화(localization) 둘 다에 대한 confidence를 측정
  - 예를 들어, PASCAL VOC를 평가하기 위해 7x7 grids, 2 boundary boxes, 20 classes를 사용했을 경우, 1 cell = 2x (x, y, w, h, confidence) + 20 = 30이므로 출력 결과의 형태는 (7, 7, 30)이 됨
  - YOLO의 주요 개념은 (7, 7, 30) 텐서를 예측하는 CNN 네트워크를 구축하는 것이며, CNN 모델은 spatial dimension을 1024개의 channel을 가진 7x7 dimension으로 축소
  - YOLO는 7x7x2 boundary box 예측을 만들기 위해 2개의 fully-connected layers를 통해 linear regression을 수행
  - 결론적으로, YOLO는 24개의 convolutional layers와 2개의 fully-connected layers로 구성되어 있으며, 몇몇 convolution layers는 1x1 커널을 사용해서 feature maps의 깊이를 줄이고 최종적으로 (7, 7, 30) 형태의 텐서를 구성
    
    [예) Network desing]
본사업에 사용될 학습 모델 선정기준은 실시간 처리 속도 및 객체 검출의 정확성이 우선시되기 때문에, 대표적인 학습 모델에는 YOLO와 Mask R-CNN이 좋은 것으로 판단

활용 AI 모델 선정 및 적용 방안
- Mask R-CNN과 YOLO 모델은 본 사업의 산출물인 AI 학습용 데이터를 기반으로 여러 사물을 동시에 검출할 수 있는 학습을 진행
- YOLO는 실시간 객체 탐지에 최적화되어 있기에 Faster R-CNN보다 적합한 학습 모델로 평가됨.
- 대체로 특정 사물을 분류하는 성능평가는 Accuracy, Precision과 Recall을 사용할 예정임
- 구축된 데이터를 가지고 학습을 진행할 경우, 약 90%의 데이터는 학습용으로 사용하고, 나머지 10%는 검증을 위해 사용
- 보편적으로 학습할 데이터의 양이 10만 개 또는 100만 개 기준으로 8:2 또는 9:1 비율로 사용하고 있으며, 정해진 비율은 없음
- YOLO는 윈도우 기반과 리눅스 기반으로 사용할 수 있으며, 적합성 검토에는 윈도우 기반으로 데이터 유효성 시험을 진행할 예정
- 발정 주기 예측
  - 발정 시기에는 기본적으로 발정행동 진행을 위해 동료우를 탐색하는 행동 (발정탐색), 승가 행동 등 독특한 패턴을 보이는 것이 확인됨.
  - 발정 행동 (발정탐색, 발정우 걷기, 승가 행위)과 일반 행동 (발정 행동이 아닌 것으로 라벨링) 이미지 구분을 할 수 있는 딥러닝 예측 모델을 세우는 것이 필요
  - 본 모델은 기본적으로 발정행동 탐지를 위한 딥러닝 모델을 목표로 하나, 동물이라는 개체 특성 상 가짜 승가행위 등 해당 행위가 실제 발정과 직결되지 않는 경우도 있을 수 있기 때문에, 체온 등의 환경 데이터를 같이 이용하는 multimodal 모델 또한 가능한 학습모델로서 제시하고, 최종적으로 유효성 수치를 검토하여 발정 행동에 가장 적합한 것으로 예상되는 시나리오를 모델로서 제시하는 것이 필요
  - 분만 시기에는 분만을 위해 누워서 숨을 헐떡이는 분만 직전 행동을 보여줌.
  - 돼지의 경우 국내 선행연구가 거의 없으므로 우선적으로 이미지 데이터만을 이용한 학습모델의 유효성 검증이 필요
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드
데이터 포맷 개요
- 환경요소 확인을 위해 메타데이터를 각 농장별/돈방별 5분단위로 환경데이터를 수집하고 있으며, 생장 상황에 대한 원시데이터도 각 돈방별 CC-TV를 통하여 24시간 기준으로 영상을 수집 한 후 각각 5분단위로 분할 편집하여 각 시간별 객체의 행동을 파악 가능하도록 하였으며, 최종 파일명에 수빕시간 및 종료시간을 명시함으로써 환경 메타데이터와 연계하여 AI 데이터 활용이 가능하도록 하였음.
어노테이션 방식 및 기준
- Bounding-box (객체 부위 식별)
- Polygon (객체 정적 행동 식별)
- Key-point (객체 동적 행동 식별)
데이터셋 저장구조 (폴더명, 디렉토리 구조)
- 08.지능형축사데이터셋/P(양돈)/농장번호(01~05)/월령별,분만,환돈,임신돈(01~09)
  /취득날짜/데이터종류(images, xml, Video)/파일.확장자
- 파일저장 디렉토리 구조
각 행동별 라벨링 작업기준

원천 데이터 (Bounding box)
- XML 데이터 (Bounding box)
원천 데이터 (Polygon)
- XML 데이터 (Polygon)
원천 데이터 (Keypoint)
- XML 데이터 (Keypoint)
원천 데이터 (음성파일)
- JSON 데이터 (음성파일)
환경/센서데이터 연계 인터페이스 규칙
- 파일 생성 규칙
- 파일 내용
데이터 구성

어노테이션 포맷

데이터셋 구축 담당자

수행기관(주관) : ㈜SK

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
곽종훈	02-6400-5881	12blue@sk.com	· 문의사항 접수 및 대응

수행기관(참여)

수행기관(참여)
기관명	담당업무
㈜디타스	· 문의사항 접수 및 대응
㈜여덟끼니	· 문의사항 접수 및 대응
서울대학교 산학협력단	· 문의사항 접수 및 대응

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
곽종훈	02-6400-5881	12blue@sk.com

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의