콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#축산업 # 계란 이미지 # 계란 # 분류 모델 # 보관기간

NEW 계란 데이터

계란 데이터 아이콘 이미지
  • 분야농축수산
  • 유형 이미지
구축년도 : 2022 갱신년월 : 2023-12 조회수 : 3,732 다운로드 : 147 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2023-12-15 데이터 최종 개방
    1.0 2023-07-25 데이터 개방(Beta Version)

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-02-27 산출물 전체 공개

    소개

    • 계란 데이터 및 학습 모델을 활용하여 계란품질 검사 및 신선도 판정 시스템 등 다양한 시스템 개발을 촉진시킬 수 있으며, 파생되는 서비스를 통해 생산 유발효과
    • 계란의 품질 및 신선도 판정 관련 인공지능 개발 및 연구 활성화

    구축목적

    • AI 모델이 계란 이미지를 자동으로 훈련시키는데 필요한 계란 데이터 구축
    • 계란 이미지 분류별로 라벨링된 AI 학습 데이터 구축
  • 1. 데이터 구축 규모
    - 계란 MONO, COLOR, 보관기간 이미지 데이터 140만건

    데이터종류 데이터 형태 규모 어노테이션 규모 결과물 규모
    이미지 계란 투광
    이미지
    (MONO) 
    7 만건
    (판 기준)
    7 만건
    (판 기준)
    MONO 69,616건
    COLOR 53,933건
    보관기간 28,807건
    (판기준)

    MONO 537,213건COLOR 512,534건
    보관기간 331,466건
    (객체기준)
    50 만건
    (객체 기준)
    50 만건
    (객체 기준)
    계란 COLOR
    이미지
    (COLOR) 
    5 만건
    (판 기준)
    5 만건
    (판 기준)
    50 만건
    (객체 기준)
    50 만건
    (객체 기준)
    계란 보관기간
    투광 이미지
    (보관기간)
    3 만건
    (판 기준)
    3 만건
    (판 기준)
    50 만건
    (객체 기준)
    30 만건
    (객체 기준)

     

    2. 데이터 분포
    - 계란 데이터의 구분에 따라 MONO(정상, 크랙, 혈반, 탈색, 이물질, 기형), COLOR(정상, 크랙, 이물질, 탈색, 외형이상), 보관기간(1~50일 기간별 세척/비세척)


    1) 계란 투광 MONO

    계란 구분 정상 이물질 크랙 탈색 기형 혈반
    MONO 33% 14% 11% 19% 11% 12%

     

    2) 계란 COLOR

    계란 구분 정상 크랙 이물질 탈색 외형이상
    COLOR 38% 8% 38% 10% 6%

     

    3) 보관기간 투광 MONO

    계란 구분 세척 비세척
    보관기간 50% 50%
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    1. 학습모델 설계 / 개발
    - 계란 상태 자동 탐지 데이터셋
    본 절에서는 계란 상태 자동 탐지에 사용된 대표적인 두 개의 객체 탐지 모델을 설명한다. 객체 탐지는 컴퓨터 비젼에서 널리 사용되는 태스크로, 주어진 영상으로부터 학습된 다중 
    객체를 탐지하여 객체의 경계 박스와 박스 내의 클래스 정보를 표시하는 것을 목표로 한다. 객체 탐지 모델은 크게 one-stage, two-stage 그리고 transformer-based model로 나뉘며 본 보고서에서는 two-stage 모델 중 대표적인 모델인 Faster-RCNN과 transformer-based model 중 하나인 DETR 모델 학습 및 동작을 기술한다.

     

    - 2단계 객체 탐지 모델 (Two-Stage Detection Model)
    그림 1은 2단계 객체 탐지 모델을 사용한 계란 상태 자동 탐지 모델의 동작을 보여준다. 2단계 객체 탐지 모델의 경우 CNN 네트워크를 통해 얻어진 특징 맵을 사용하여 영역 제안 네트워크 (Region proposal network)를 통과하여 얻어진 영역 제안 결과를 바탕으로 객체를 분류한다.

    2단계 계란 상태 탐지 모델

    [그림 1] 2단계 계란 상태 탐지 모델
    Faster RCNN은 4 개의 주요 파트로 구성된다:

    • CNN 모델을 사용한 특징 추출. (본 계란 상태 탐지 모델의 경우 CNN 모델로 ResNet50과 Feature Pyramid Network (FPN) 을 사용하였다)

    • 특징 맵은 영역 제안 네트워크 (RPN)으로 전달되며 경계 박스의 집합을 반환한다. 피쳐 맵으로부터 RPN은 경계 박스와 객체의 점수 (score)를 반환한다.

    • 해당 값을 바탕으로 Region of Interest (RoI) pooling을 통해 재구성 후 클래스와 경계 박스의 오프셋 값을 예측한다.

    • 마지막으로, 경계 박스와 최종 클래스 태그를 표시하여 탐지 과정을 수행한다.

    영역 제안 네트워크 RPN 구조

    [그림 2] 영역 제안 네트워크 (RPN) 구조

    Faster RCNN의 CNN 모델 (일반적으로 백본 네트워크라고 부름)로 ResNet 50과 FPN을 사용하였다. 주어진 입력 이미지로부터 본 CNN 네트워크를 통과하여 얻어지는 특징 맵 
    (feature map)을 입력으로하여 RPN은 영상 내의 객체 위치 후보군을 반환해준다. 


    - 트랜스포머 계열 객체 탐지 모델 (Detection Transformer-Based Model)

    최근 자연어 처리 (NLP) 분야에서 Transformer가 대두되면서 영상 처리 분야에서도 Transformer 를 사용한 접근들이 활발히 이루어지고 있다. 객체 탐지는 그 중의 하나인데, Facebook AI에서 제안한 DEtection TRansformer (이하, DETR) 모델은 대표적인 Transformer 기반의 객체 탐지 모델 중 하나이다. 

    DETR 동작 및 구조 예시

    [그림 3] DETR 동작 및 구조 예시 
    그림 3은 DETR 동작을 보여주는데, 이는 CNN 네트워크를 백본으로 하여 주어진 입력 이미지로부터 특징 값을 추출하고 이를 트랜스 포머의 입력으로 사용한다. DETR은 사전에 
    정의된 N개의 객체를 한번에 찾아낸다.

    DETR은 모든 객체를 한번에 예측하고 이들의 결과를 라벨과 비교하는 end-to-end 방식으로 동작한다. 그림 4는 이러한 DETR 의 동작을 설명하는 각 구성요소를 보여준다.
    DETR 구성 요소 개요

    [그림 4] DETR 구성 요소 개요

    DETR의 4개의 구성요소는 다음과 같다:

    • Backbone 네트워크: Transformer의 입력이 되는 피쳐 값들을 추출하기 위한 CNN 백본으로, 본 모델 학습에서는 ResNet 50을 사용하였다.

    • Transformer Encoder: Backbone 네트워크의 출력에 1 x 1 컨볼루션을 사용하여 입력 특징 값들의 채널 차원을 축소하고 벡터 형태의 변환 및 위치 인코딩을 통해 트랜스포머 인코더의 입력으로 넣는다. 이 때 각 인코더는 multi-head self attention 모델과 FFN으로 구성된다.

    • Transformer Decoder: 디코더는 N 개의 객체를 병렬적으로 디코딩하는 레이어로 객체들 간의 상관관계를 전역적으로 추론할 수 있는 정보를 제공한다.

    • Feed-Forward Network (FFN): ReLU 를 활성 함수로 갖는 3계층 퍼셉트론 레이어로 디코더 출력을 입력으로 받아 각 객체의 클래스 정보와 객체의 경계박스 정보 (중심 좌표, 가로, 세로 정보)를 반환한다.


    - 모델 개발 및 학습 결과 요약
    최종 데이터 셋에 대한 목표 수치 달성 여부는 표 6과 같다. 계란 상태 탐지 모델 MONO, COLOR 데이터 각각의 경우 10만 장의 MONO 데이터에 대해서 학습, 검증, 테스트 데이터 셋을 8 : 1 : 1로 구축하여 학습한 후 테스트 데이터 셋에 대하여 검증되었으며, 계란 보관 일 수 예측 모델의 경우 약 100만 개의 데이터 샘플에 대하여 학습, 검증, 테스트 데이터 셋을 8 : 1 : 1 로 구축한 후 검증한 결과이다. 
    [표] AI 모델 구축 결과 요약 표

      유효성 검증 목표치 모델 학습 결과 달성률
    계란 상태 탐지 모델  mAP >= 0.45 MONO 데이터: 0.53 118%
    COLOR 데이터: 0.54  120%
    계란 보관 일 수 예측 모델 MAE < 4 0.927 431%

    - 계란 상태 자동 탐지 모델 평가 지표
    계란 상태 자동 탐지 모델의 유효성 검증을 위해서는 mean Average Precision (이하 mAP)를 지표로 사용한다. mAP는 객체 탐지 모델의 성능 평가에 사용되는 지표로, 객체 탐지 성능인 바운딩 박스 정확도와 객체 분류 정확도를 종합적으로 평가하는 지표이다. mAP는 탐지 모델이 탐지하는 객체에 대한 평균 Average Precision을 계산하는 지표로 여기서 Average Precision은 Precision-Recall 그래프로부터 연산된다.
    mAP는 다음의 하위 지표를 통해 도출된다:

    • Intersection over Union(IoU),

    • Recall

    • Precision
    Intersection over Union (IoU) 는 예측된 경계 박스 좌표와 실제 경계 박스 (ground truth label) 사이의 겹침 여부를 표현하는 지표이다. IoU 값이 높을수록 예측된 경계 박스와 실제 값이 유사한 것을 의미한다.

    IoU 개념 설명

    [그림 5] IoU 개념 설명

    Recall (재현율) 과 Precision (정밀도)은 각각 객체 검출 성능을 표현하는 지표로, 다음과 같이 정의된다.

    Recall 수식

    Precision 수식

    위의 식에서 사용된 TP, FN, FP는 다음과 같다:

    실제 상황 예측 결과 (predict result)
    (ground truth) Positive Negative
    Positive TP (True Positive) FN (False Negative)
    옳은 검출 검출되어야 할 것이 검출되지 않았음
    Negative FP (False Positive) TN (True Negative)
    틀린 검출 검출되지 말아야할 것이 검출되지 않았음

     

    이 때, 예측 결과의 참, 거짓 여부는 예측된 바운딩 박스와 실제 라벨 바운딩 박스 간의 IoU 값이 기준 값 (혹은 threshold)을 초과하는지 여부에 따라판단된다. 예를 들어, 그림 6 (a)의 경우 IoU = 0.6을 의미한다. 이 경우 기준 IoU가 0.7인 경우 Negative로 예측되며 따라서 False Negative로 판단된다. 반면 IoU가 0.5인경우 True Positive로 판단된다. 그림 6 (b)의 경우 예측 경계 박스와 라벨 경계 박스의 IoU 가 0.94이기 때문에 기준 IoU가 0.7인 경우, 0.5인 경우 모두에 대하여 True Positive로 판단된다.

    IoU 예시 (a)

    (a)

    IoU 예시 (b)

    (b) 
    [그림 6] 예측 경계 박스와 라벨 경계박스에 따른 IoU 예시

     

    앞서 설명한 지표들을 바탕으로, 각 클래스 별 Average Precision (평균 정밀도) 을 계산할 수 있다. 평균 정밀도는 Precision x Recall 그래프의 그래프로부터 계산될 수 있는데, 그림 7과 같이 재현율 대비 정밀도 그래프로부터 보간된 정밀도 (interpolated precision, 그림 7의 붉은색 점선)를 구하고 보간된 정밀도 그래프의 하위 면적을 통해 Average Precision을 연산할 수 있다.

    정밀도-재현율 그래프 예시

    [그림 7] 정밀도-재현율 그래프 예시
    최종적으로 mean Average Precision (mAP)는 평가하고자하는 모든 클래스에 대한 평균 정밀도로, 다음의 수식을 따른다:

    mAP 수식

     

    본 식에서 N은 전체 클래스의 수를 말하며, 본 과제에서 우리는 MONO 데이터에 대해서는 총 6종 클래스, COLOR 데이터에 대해서는 총 5종 클래스에 대하여 연산한다. 이 때, Average Precision을 구하는 Precision의 기준 값인 IoU 기준 치는 일반적으로 0.5를 상정하며 mAP@0.5로 표기한다.

     

    2. 데이터 셋 별 모델 학습
    2_1 Cycle-2 데이터 셋 (MONO)
    Cycle-2 데이터 셋은 Cycle-1 데이터 셋과 달리 N/A 클래스를 포함하고 있다. 따라서 최종 mAP 계산 시에는 정상 ~ 기형 6 종 클래스에 대해서만 계산한다. 실제 모델 학습 시에는 N/A 라벨을 포함하도록 하여 모델이 자체적으로 N/A 여부를 추론할 수 있도록 하며, mAP 측정 시에는 정확한 성능 측정을 위해 6종 클래스에 대해서만 연산을 수행한다.

     

    • 학습 하이퍼 파라미터

    항목 상세
    Optimizer AdamW
    Epoch 50
    learning rate 0.001
    Batch size 20

    • 학습 결과
    그림 8는 최종 MONO 데이터 셋에 대한 DETR 모델 학습 그래프를 보여준다. mAP 값을 각각 IoU 0.5에 대하여, 0.5~0.95 평균 값에 대하여 측정한 Validation mAP 결과를 보여준다. Validation 값을 기준으로 최적의 모델을 저장하였으며, 학습된 최적 모델에 대한 테스트 mAP는 0.53으로 KPI 인 mAP 0.45 이상 목표치를 달성하였다 (그림 9).

     MONO Cycle-2 데이터 셋 DETR 학습 그래프

    [그림 8] MONO Cycle-2 데이터 셋 DETR 학습 그래프

     MONO Cycle-2 데이터 셋 Test mAP 결과 스크린 샷

    [그림 9] MONO Cycle-2 데이터 셋 Test mAP 결과 스크린 샷

     

    2_2 Cycle-2 데이터 셋 (COLOR)
    컬러 데이터 셋의 계란 상태 자동 탐지를 위해 우선적으로 2만장의 COLOR 데이터에 대하여 DETR과 Faster R-CNN 모델을 먼저 학습하였다. 그림 10은 각각 DETR과 Faster R-CNN 데이터에 대한 모델 성능을 보여준다. 이를 바탕으로 최종 데이터 셋 (10만 장 데이터)에 대해 DETR 모델을 학습하였다.

    COLOR 데이터 모델 학습

    [그림 10] 2만 장 COLOR 데이터 셋을 사용한 DETR, Faster R-CNN 학습 그래프

     

    최종적으로 10만장 데이터 (100K) 를 사용하여 DETR 모델을 학습한 결과는 다음과 같다. 그림 11는 60 epoch을 학습할 때 Validation mAP 그래프를 보여준다. Validation mAP를 기준으로 최적 모델을 저장하였으며, 이를 바탕으로 측정한 테스트 데이터 셋에 대한 mAP는 0.542로, 0.45인 KPI 수치를 초과한 결과를 보여준다.

    COLOR 데이터 셋 DETR 학습 그래프

    [그림 11] Cycle-2 10만 장 COLOR 데이터 셋을 사용한 DETR 학습 그래프

    COLOR 데이터 DETR 학습 결과 Test mAP 결과

    [그림 12] Cycle-2 10만 장 COLOR 데이터 셋을 사용한 DETR 학습 Test mAP 스크린 샷

     

    COLOR 데이터 셋 추론 예시

    [그림 13] Cycle-2 COLOR 데이터 셋 학습 결과 DETR 추론 예시
     

    2_3 계란 보관기간 데이터 셋
    - 계란 보관 일 수 예측 모델 설계 / 개발
    계란 보관 일 수 예측의 경우, 영상 정보와 세척 여부 정보를 활용하여 계란 보관 일 수를 예측하기 위하여 ResNet50으로 영상 정보를 분석한 다음 이를 세척 여부와 함께 MLP 신경망의 입력으로 제공하는 멀티 모달 모델을 구축하였다. (그림 14)

    계란 보관일수 예측 모델

    [그림 14] 계란 보관일수 예측 모델

    계란 보관일수 예측 모델 (a),(b)

    (a) 이미지만 사용한 모델 (b) 이미지 + 세척여부 사용한 모델
    [그림 15] 계란 보관 일 수 예측 모델

    우선, 영상 정보와 보관 일 수 사이 관계를 파악하기 위하여 (그림 15 (a))와 같이 이미지만 활용하는 모델을 구축하였고, 이에 더불어 세척 여부가 신선도에 미치는 영향을 분석하기 위하여 (그림 15 (b))와 같이 세척 여부를 추가로 활용하는 멀티 모달 모델을 구축하였다.

     

    • 학습 하이퍼 파라미터

    항목 상세
    Optimizer Adam
    Loss Function MSE
    Epoch 20
    Learning Rate 1e-4 (Plateau LR scheduler)
    Batch Size 512

     

    (a) 계란 보관일수 예측 모델 학습 그래프

    (a) 이미지만 사용한 모델

    (b) 계란 보관일수 예측 모델 학습 그래프

    (b) 이미지 + 세척여부 사용한 모델

    [그림 16] 계란 보관 일 수 예측 모델 학습 그래프

     

    (a) 계란 보관일수 예측 모델 테스트 MAE 결과

     

    (a) 이미지만 사용한 모델 Test MAE 결과

    (b) 계란 보관일수 예측 모델 테스트 MAE 결과

    (b) 이미지 + 세척 여부 사용한 모델 Test MAE 결과
    [그림 17] 계란 보관 일 수 예측 모델 테스트 MAE 결과

    (그림 16)는 계란 보관 일 수 예측 데이터를 사용한 모델 학습 커브이다. 이미지만 사용한 모델과 세척 여부를 같이 사용한 모델 각각에 관한 학습 커브로, Mean Absolute Error(MAE) 값을 보여준다. 학습에 사용하지 않는 검증 데이터 셋을 기준으로 최소 MAE를 갖는 모델의 파라미터를 최적 파라미터로 저장하였으며, 이렇게 얻어진 최적 파라미터의 테스트 MAE는 각각 1.074와 0.927로 목표 값인 MAE 4 이하를 초과달성하였다. (그림 17)
     

    Random Seed 4개의 평균 학습 커브

    [그림 18] Random Seed 4개의 평균 학습 커브

     

    구축한 데이터 및 모델의 안정성을 확인하기 위하여 4개의 Random Seed를 갖고 동일한 학습을 반복하였으며, (그림 18)은 4개의 Random Seed에 관하여 평균적으로 KPI 지표를 달성하였음을 보여준다. 
    이를 통해 통제된 환경에서 보관된 계란의 경우 영상 입력만으로 MAE 1.07을 만족하는 예측 모델을 학습할 수 있는 것을 확인하였으며, 세척 여부 등의 환경 변수를 추가 제공하는 경우 보관 일 수 예측 정확도를 향상시킬 수 있음을 확인하였다. 

  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 MONO 계란 데이터 탐지 성능 Object Detection DETR(Detection Transformer-based Model) 모델 mAP 45 % 80 %
    2 COLOR 계란 데이터 탐지 성능 Object Detection DETR(Detection Transformer-based Model) 모델 mAP 45 % 71.4 %

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    1. 데이터 설명

    데이터 설명 이미지

    - MONO, COLOR 데이터는 계란선별기에 장착하여 촬영 - 보관기간 데이터는 농장에서 당일 생산 정상 판정 계란을 구매하여 계란 보관 및 
    촬영지로 운반하여 불량계란 자동배출 시스템을 통해 촬영

     

    2. 계란 투광 MONO
    - 대분류 6종, 소분류 33종 총 537,213건의 데이터

    순번 구분 데이터
    이미지 대분류 소분류 대분류 소분류
    1 계란 투광 MONO

    정상

    계란 투광 MONO 정상 이미지

    정상 177,539 63,114
    2 위아래 기실 51,294
    3 검정란 49,472
    4 백색란 13,659
    5

    크랙

    계란 투광 MONO 크랙 이미지

    완전크랙 56,709 2,947
    6 일자형크랙 17,195
    7 원형크랙 4,760
    8 위아래크랙 5,192
    9 거미줄형크랙 3,358
    10 잠재파형크랙 3,930
    11 파형크랙 12,396
    12 미세크랙 6,931
    13

    혈반

    계란 투광 MONO 혈반 이미지

    혈반.육반 66,497 3,714
    14 중앙기실 5,673
    15 알끈 2,466
    16 거품 2,232
    17 먹통 52,412
    18

    탈색

    계란 투광 MONO 탈색 이미지

    흰색 점박이 101,164 41,631
    19 백색 탈색 2,089
    20 원형 탈색 2,007
    21 얇은 난각 24,632
    22 중앙 탈색 2,243
    23 위아래 탈색 10,316
    24 부분 탈색 12,500
    25 외관 변색 5,746
    26

    이물질

    계란 투광 MONO 이물질 이미지

    계란껍질 77,371 2,095
    27 깃털 8,075
    28 닭똥 42,075
    29 점박이 25,126
    30

    기형

    계란 투광 MONO 기형 이미지

    일반기형 57,933 19,585
    31 심한기형 2,579
    32 외형 기형 13,282
    33 백색줄 기형 22,487
    합계       537,213 537,213

     

    순번 구분 데이터
    이미지 대분류 대분류
    1 계란 COLOR

    정상

    계란 COLOR 정상 이미지

    195,997
     
    2

    크랙

    계란 COLOR 크랙 이미지

    36,547
     
    3

    이물질

    계란 COLOR 이물질 이미지

    197,035
     
    4

    탈색

    계란 COLOR 탈색 이미지

    56,258
     
    5

    외형이상

    계란 COLOR 외형이상 이미지

    26,697
     
    합계     512,534

     

    4. 계란 보관기간
    - 1~50일 세척/비세척 총 331,466건의 데이터

    순번 구분 데이터
    이미지 대분류 소분류 대분류 소분류
    세척 비세척
    1 계란 보관기간
    투광  
    1 세척 7,946 3,848 4,098
    비세척
    2 2 세척 5,847 3,867 1,980
    비세척
    3 3 세척 5,367 3,545 1,822
    비세척
    4 4 세척 5,466 3,430 2,036
    비세척
    5 5 세척 6,766 3,669 3,097
    비세척
    6 6 세척 7,103 3,705 3,398
    비세척
    7 7 세척 6,791 2,931 3,860
    비세척
    8 8 세척 7,165 3,766 3,399
    비세척
    9 9 세척 7,121 3,566 3,555
    비세척
    10 10 세척 5,277 1,704 3,573
    비세척
    11 11 세척 7,068 3,484 3,584
    비세척
    12 12 세척 7,021 3,491 3,530
    비세척
    13 13 세척 7,029 3,495 3,534
    비세척
    14 14 세척 6,979 3,330 3,649
    비세척
    15 15 세척 6,885 3,603 3,282
    비세척
    16 16 세척 7,069 3,484 3,585
    비세척
    17 17 세척 6,879 3,301 3,578
    비세척
    18 18 세척 7,022 3,610 3,412
    비세척
    19 19 세척 5,623 2,088 3,535
    비세척
    20 20 세척 4,819 1,224 3,595
    비세척
    21 21 세척 4,985 2,388 2,597
    비세척
    22 22 세척 6,832 3,524 3,308
    비세척
    23 23 세척 6,513 3,523 2,990
    비세척
    24 24 세척 6,043 3,029 3,014
    비세척
    25 25 세척 4,760 1,663 3,097
    비세척
    26 26 세척 4,498 1,592 2,906
    비세척
    27 27 세척 5,954 3,021 2,933
    비세척
    28 28 세척 4,895 1,812 3,083
    비세척
    29 29 세척 5,597 3,756 1,841
    비세척
    30 30 세척 7,409 3,394 4,015
    비세척
    31 31 세척 7,204 3,459 3,745
    비세척
    32 32 세척 7,252 3,449 3,803
    비세척
    33 33 세척 7,524 3,631 3,893
    비세척
    34 34 세척 7,420 3,612 3,808
    비세척
    35 35 세척 7,029 3,580 3,449
    비세척
    36 36 세척 7,058 3,374 3,684
    비세척
    37 37 세척 7,084 3,405 3,679
    비세척
    38 38 세척 7,239 3,486 3,753
    비세척
    39 39 세척 7,153 3,599 3,554
    비세척
    40 40 세척 7,200 3,687 3,513
    비세척
    41 41 세척 7,408 3,578 3,830
    비세척
    42 42 세척 7,320 3,448 3,872
    비세척
    43 43 세척 7,191 3,651 3,540
    비세척
    44 44 세척 7,232 3,657 3,575
    비세척
    45 45 세척 7,125 3,327 3,798
    비세척
    46 46 세척 7,152 3,402 3,750
    비세척
    47 47 세척 7,029 3,443 3,586
    비세척
    48 48 세척 5,614 2,913 2,701
    비세척
    49 49 세척 7,230 3,699 3,531
    비세척
    50 50 세척 7,273 3,673 3,600
    비세척
    합계     331,466 162,916 168,550
     

     

    5. 어노테이션 포맷

    구분 영문명 한글명 타입 비고
    1 annotation  최상위 항목 object  
      1-1 category  객체 구분 number 1:가공
    2:원천
    3:원시
    1-2 regional_code 지역 코드 number  
    1-3 varieties  품종 number 1:하이라인 브라운
    2:이사브라운
    3:로만 브라운 라이트
    1-4 wash 세척여부 number 1:세척
    2:비세척
    1-5 classification 계란 구분 number 1:유정란
    2:무정란
    1-6 days 일령 정보  number  
    1-7 type 타입 number 1:MONO
    2:COLOR
    3:보관기간
    1-8 create_date 생성일자 DATE 연-월-일
    1-9 date 촬영일자 DATETIME 연-월-일 시:분:초
    1-10 temperature 온도℃ number  
    1-11 humidity 습도% number  
    1-12 file_name 파일 이름 String 메타파일명
    1-13 original_file_name 원본파일이름 String  
    1-14 fresh_day 보관기간 number 0:해당없음
    1~50:보관기간
    1-15 breeding_env 사육환경 number 1:방사
    2:평사
    3:개선 케이지
    4:기존 케이지
    1-16 size      
      1-16-1 height 사진 높이 number  
    1-16-2 width 사진 넓이 number  
    1-17 object_count 이미지 포함 객체 수 number  
    1-18 bndbox[] 바운딩 박스별 정보 array  
      18-1 bndbox seq  객체 일련번호 number  
    18-2 object 바운드 박스 객체 number  
    18-3 state 바운드 박스 상태 number  
    18-4 state_detail 바운드 박스 세부상태 number  
    18-5 x_min 좌하단x number  
    18-6 y_min 좌하단y number  
    18-7 x_max 우상단x number  
    18-8 y_max 우상단y number  

     

    6. 어노테이션 실제 예시

    실제예시


     1
     32400
     3
     1
     2
     120
     1
     2022-05-01
     2022-05-01 13:00:00
     22
     35
     156.jpg
     /eggData/TTA/sampleImage/반광사진/0501091819_1_00445.jpg

     0
     3
     
     1440
     1080
     
     1
     
     2
     156
     3
     2
     321.266
     416.583
     548.2660000000001
     698.5830000000001
     
  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜한밭아이오티
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    정진해 042-931-9307 jjhcms@hanbatiot.com 데이터수집, 검수
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    한국과학기술원 AI 모델개발
    ㈜대흥금속 데이터 정제
    ㈜모두텍 데이터 가공, 검수
    호서대학교 산학협력단 크라우드워커 교육 및 관리
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    정진해 042-931-9307 jjhcms@hanbatiot.com
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.