콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#컴퓨터 비전 #농업

식의약용 자생식물 분석 데이터

식의약용 자생식물 분석
  • 분야농축수산
  • 유형 텍스트 , 이미지
구축년도 : 2021 갱신년월 : 2022-07 조회수 : 2,879 다운로드 : 46 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2022-07-13 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2022-10-21 신규 샘플데이터 개방
    2022-07-13 콘텐츠 최초 등록

    소개

    • 자생식물 60종을 대상으로 꽃, 열매, 잎(앞면, 뒷면) 4가지 객체분류(식물부위)별로   직접 촬영한 이미지 데이터
    • 자생식물 60종의 식물부위 중 기능 및 효능, 영양성분이 있는 부위에 대하여 채취 후 기능성분을 분석한 결과 데이터

    구축목적

    • 국내 자생식물의 이미지를 인공지능 기술을 통해 식물 종 식별 및 영양, 기능성, 활성성분 정보 등 부가 정보를 제공하기 위한 통합(영상 이미지 + 텍스트) 학습용 데이터를 구축
    • Computer Vision 분야의 Deep Learning 기법 중 “Classification”(Image Classification)을 목적으로 함
  • 데이터 통계

    • 식의약용 자생식물 60종 대상으로 총 300,000건 구축
    • 부위별 구축 규모
      • 꽃 : 총 60종 중 16종 대상으로 9,600건 (종당 600x16=9,600)
      • 열매 : 총 60종 중 39종 대상으로 23,400건 (종당 600x39=23,400)
      • 잎-앞면 : 총 60종 중 60종 대상으로 133,500건
      • 잎-뒷면 : 총 60종 중 16종 대상으로 133,500건
        ※ 단, 식물 1종당 꽃, 열매 데이터가 없는 경우, 해당 수량은 잎-앞면, 잎-뒷면에 각각 균등하게 포함함
        데이터 통계
        항목명 데이터 형태 구축 규모 비고
        클래스(60종)별
        객체 분포
        이미지,
        텍스트
        300,000장(건) • 데이터 구축 내용
          - 총 식물종수 : 60종
          - 데이터구축 목표 수량
            . 총 수량 : 300,000장
            . 식물 1종당 : 5,000장
              (5,000÷300,000=1.67%)
        부위별
        객체 분포
        이미지,
        텍스트
        9,600장(건)
        (3.20%)
        • 학습데이터 구축 대상
          - 꽃, 열매, 잎-앞면, 잎-뒷면
        • 식물 1종당 부위별 구축 수량
          - 식물 1종당 5,000장 구축 기준
            (꽃, 열매, 잎-앞면, 잎-뒷면
            데이터가 모두 존재하는 경우)
            . 꽃 : 600장 (12%)
            . 열매 : 600장 (12%)
            . 잎-앞면 : 1,900장 (38%)
            . 잎-뒷면 : 1,900장 (38%)
        ※ 단, 식물 1종당 꽃, 열매 데이터가 없는 경우, 해당 수량은 잎-앞면, 잎-뒷면에 각각 균등하게 포함
        열매 23,400장(건)
        (7.80%)
        잎-앞면 133,500장(건)
        (44.50%)
        잎-뒷면 133,500장(건)
        (44.50%)
        취득시기(월)
        분포
        이미지,
        텍스트
        5월 3건
        (0.00%)
        데이터 취득 시기(단위: 월)를통해 생육단계 분포 확인
        6월 2,392건
        (0.80%)
        7월 1,951건
        (0.65%)
        8월 17,429건
        (5.81%)
        9월 39,333건
        (13.11%)
        10월 67,971건
        (22.66%)
        11월 162,712건
        (54.24%)
        12월 8,209건
        (2.74%)
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    1. 이미지분류(꽃) AI모델

    • 데이터셋 
      꽃 데이터셋은 16개의 클래스가 있으며, 클래스당 600장의 이미지로 구성되어 있다. 
      총 이미지 수는 9,600장이며, 학습을 위해 8(train) : 1(validation) : 1(test)로 분할하여 데이터셋을 구성하였다.
    • 학습 조건
      • Epoch : 100 (모델의 총 학습 횟수)
      • Batch : 50 (연산을 한 번 진행할 때 들어가는 데이터의 크기)
      • Optimizer : SGD (경사하강법 알고리즘이며, learning rate는 0.01, momentum은 0.9, weight_decay은 5e-4를 사용)
      • Scheduler : CosineAnnealingLR (learning rate를 조절하는 알고리즘이며, T_max는 50을 사용) 
    • 실험 결과
      1. 이미지분류(꽃) AI모델
      모델 정확도(Accuracy) 총 파라미터 수
      VGG16 100% 134,334,544
      VGG19 100% 139,646,800
      ResNet50 100% 23,540,816
      DenseNet121 100% 6,970,256
    • 최종 모델
      본 과제에서는 VGG16, VGG19, ResNet50, DenseNet121 총 4가지 AI모델을 사용하여 비교 실험하였으며, 꽃 데이터셋에 대한 모델 학습 결과로 4가지 모두 정확도(Accuracy)는 100%의 결과를 보여주었다. 동일 성능을 보여준 모델들 중 최종 모델을 선정하기 위해 추가적으로 연산량과 관련된 파라미터 수를 비교하였다. 4가지 모델 중 DenseNet121 모델이 가장 적은 총 파라미터 수를 가지고 있으며, 이것은 동일 성능 대비 연산량이 가장 적은 모델을 의미한다. 그러므로 DenseNet121을 꽃 데이터셋의 학습과 평가를 위한 최종 모델로 선정하였다.

    2. 이미지분류(열매) AI모델

    • 데이터셋 
      열매 데이터셋은 39개의 클래스가 있으며, 클래스당 600장의 이미지로 구성되어 있다. 
      총 이미지 수는 23,400장이며, 학습을 위해 8(train) : 1(validation) : 1(test)로 분할하여 데이터셋을 구성하였다.
    • 학습 조건
      • Epoch : 100 (모델의 총 학습 횟수)
      • Batch : 50 (연산을 한 번 진행할 때 들어가는 데이터의 크기)
      • Optimizer : SGD (경사하강법 알고리즘이며, learning rate는 0.01, momentum은 0.9, weight_decay은 5e-4를 사용)
      • Scheduler : CosineAnnealingLR (learning rate를 조절하는 알고리즘이며, T_max는 50을 사용) 
    • 실험 결과
      모델 정확도(Accuracy) 총 파라미터 수
      VGG16 99.96% 134,428,775
      VGG19 100% 139,741,032
      ResNet50 100% 23,587,943
      DenseNet121 100% 6,993,831
    • 최종 모델
      본 과제에서는 VGG16, VGG19, ResNet50, DenseNet121 총 4가지 AI모델을 사용하여 비교 실험하였으며, 열매 데이터셋에 대한 모델 학습 결과로 VGG16을 제외한 나머지 3가지 모델 모두 정확도(Accuracy)는 100%의 결과를 보여주었다. 동일 성능을 보여준 모델들 중 최종 모델을 선정하기 위해 추가적으로 연산량과 관련된 파라미터 수를 비교하였다. 3가지 모델 중 DenseNet121 모델이 가장 적은 총 파라미터 수를 가지고 있으며, 이것은 동일 성능 대비 연산량이 가장 적은 모델을 의미한다. 그러므로 DenseNet121을 열매 데이터셋의 학습과 평가를 위한 최종 모델로 선정하였다.

    3. 이미지분류(잎-앞면) AI모델

    • 데이터셋
      잎 뒷면 데이터셋은 60개의 클래스가 있으며, 클래스당 최소 1900장 ~ 최대 2500장의 이미지로 구성되어 있다. 총 이미지 수는 133,500장이며, 학습을 위해 8(train) : 1(validation) : 1(test)로 분할하여 데이터셋을 구성함. 단, 잎 앞면의 경우 각 클래스마다 이미지 수가 불규칙하므로 최소 수량을 가진 클래스의 10% 수량으로 validation과 test를 구성하고 나머지 수량을 train으로 구성하였다.
    • 학습 조건
      • Epoch : 100 (모델의 총 학습 횟수)
      • Batch : 50 (연산을 한 번 진행할 때 들어가는 데이터의 크기)
      • Optimizer : SGD (경사하강법 알고리즘이며, learning rate는 0.01, momentum은 0.9, weight_decay은 5e-4를 사용)
      • Scheduler : CosineAnnealingLR (learning rate를 조절하는 알고리즘이며, T_max는 50을 사용)
    • 실험 결과
      모델 정확도(Accuracy) 총 파라미터 수
      VGG16 100% 134,514,812
      VGG19 100% 139,827,068
      ResNet50 99.98% 23,630,972
      DenseNet121 99.99% 7,015,356
    • 최종 모델
      본 과제에서는 VGG16, VGG19, ResNet50, DenseNet121 총 4가지 AI모델을 사용하여 비교 실험하였으며, 잎 뒷면 데이터셋에 대한 모델 학습 결과로 VGG16과 VGG19의 정확도(Accuracy)는 두 모델 동일하게 100%이고 ResNet50과 DenseNet121은 각각 99.98%과 99.99%이다. 최종 모델을 선정하기 위해 연산량과 관련된 파라미터 수를 고려하였다. DenseNet121 모델은 VGG16와 VGG19 모델 결과와 비교해서 거의 동일한 성능을 보여주었으며 또한 성능 대비 연산량이 훨씬 적었다. 그래서 잎 뒷면 데이터셋의 분류 모델로 적합하다고 판단하여 DenseNet121을 최종 모델로 선정하였다.

    4. 이미지분류(잎-뒷면) AI모델

    • 데이터셋 
      잎 앞면 데이터셋은 60개의 클래스가 있으며, 클래스당 최소 1900장 ~ 최대 2500장의 이미지로 구성되어 있다. 총 이미지 수는 133,500장이며, 학습을 위해 8(train) : 1(validation) : 1(test)로 분할하여 데이터셋을 구성함. 단, 잎 앞면의 경우 각 클래스마다 이미지 수가 불규칙하므로 최소 수량을 가진 클래스의 10% 수량으로 validation과 test를 구성하고 나머지 수량을 train으로 구성하였다.
    • 학습 조건
      • Epoch : 100 (모델의 총 학습 횟수)
      • Batch : 50 (연산을 한 번 진행할 때 들어가는 데이터의 크기)
      • Optimizer : SGD (경사하강법 알고리즘이며, learning rate는 0.01, momentum은 0.9, weight_decay은 5e-4를 사용)
      • Scheduler : CosineAnnealingLR (learning rate를 조절하는 알고리즘이며, T_max는 50을 사용)
    • 실험 결과
      모델 정확도(Accuracy) 총 파라미터 수
      VGG16 100% 134,514,812
      VGG19 100% 139,827,068
      ResNet50 99.97% 23,630,972
      DenseNet121 100% 7,015,356
    • 최종 모델
      본 과제에서는 VGG16, VGG19, ResNet50, DenseNet121 총 4가지 AI모델을 사용하여 비교 실험하였으며, 잎 앞면 데이터셋에 대한 모델 학습 결과로 VGG16을 제외한 나머지 3가지 모델 모두 정확도(Accuracy)는 100%의 결과를 보여주었다. 동일 성능을 보여준 모델들 중 최종 모델을 선정하기 위해 추가적으로 연산량과 관련된 파라미터 수를 비교하였다. 3가지 모델 중 DenseNet121 모델이 가장 적은 총 파라미터 수를 가지고 있으며, 이것은 동일 성능 대비 연산량이 가장 적은 모델을 의미한다. 그러므로 DenseNet121을 잎 앞면 데이터셋의 학습과 평가를 위한 최종 모델로 선정하였다.
  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 이미지 분류(꽃) Image Classification DenseNet121 Accuracy 85 % 10 %
    2 이미지 분류(열매) Image Classification DenseNet121 Accuracy 85 % 10 %
    3 이미지 분류(잎-앞면) Image Classification DenseNet121 Accuracy 80 % 10 %
    4 이미지 분류(잎-뒷면) Image Classification DenseNet121 Accuracy 80 % 99.99 %

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    1. 데이터 구성 및 어노테이션 포맷

    1. 데이터 구성 및 어노테이션 포맷
    구분 항목명   타입 필수
    여부
    범위
    1 데이터셋정보 info Object    
      1-1 데이터셋명 datast_nm String Y [식의약용 자생식물 분석 데이터]
      1-2 데이터셋상세설명 datast_detail String    
      1-3 자생식물식별자 wd_plnt_idntfr String Y [001 ~ 060]
    2 이미지정보 images Object    
      2-1 이미지파일아이디 image_file_id String Y [WP001_01_00001 ~ WP060_04_99999]
      2-2 이미지파일명 image_file_nm String Y  
      2-3 파일저장경로 file_stre_cours String Y  
      2-4 해상도 rsoltn String Y [300~5000, 300~5000]
      2-5 촬영장소명 region_nm String Y  
      2-6 생육지형 region_type String Y [평지, 경사지, 둔덕, 골짜기, 해안지, 개울가, 습지]
      2-7 자생식물 부위 plant_part String Y [꽃, 열매, 잎-앞면, 잎-뒷면]
      2-8 생육단계명 grwh_step_nm String    
      2-9 이미지파일포맷 image_file_frmat String Y [JPG]
      2-10 이미지촬영일시 image_potogrf_dt String Y yyyy-mm-dd hh:mm:ss
    3 라벨링정보 annotations Object    
      3-1 어노테이션아이디 antn_id Number Y  
      3-2 어노테이션타입 antn_ty String Y [POLYGON]
      3-3 객체클래스대분류코드 object_class_lclas_code String Y [01 ~ 02]
      3-4 객체클래스중분류코드 object_class_mlsfc_code String Y [001 ~ 060]
      3-5 객체클래스소분류코드 object_class_sclas_code String Y [01 ~ 04]
      3-6 객체클래스대분류명 object_class_lclas_nm String Y [목본, 초본]
      3-7 객체클래스중분류명 object_class_mlsfc_nm String Y [붙임 ①] ‘자생식물명’
      3-8 객체클래스소분류명 object_class_sclas_nm String Y [꽃, 열매, 잎-앞면, 잎-뒷면]
      3-9 폴리곤 X좌표 pyn_xcrdnt String    
      3-10 폴리곤 Y좌표 pyn_ycrdnt String    
    4 식물정보 plants Object    
      4-1 자생식물명 wd_plnt_nm String Y [붙임 ①] ‘자생식물명’
      4-2 학명 scientific_nm String    
      4-3 목본/초본구분 woody_herbal String Y [1, 2]
      4-4 식용여부 edible_yn Boolean Y [Y, N]
      4-5 식용부위 edible_part List    
      4-6 취득시기 acquisition_term String Y [01월, 02월, 03월, 04월, 05월, 06월, 07월, 08월, 09월, 10월, 11월, 12월]
      4-7 효능 efficacy Array    
      4-8 효능수치 efficacy_ncl Array    
      4-9 영양분석 nutrient Array    
    5 성분정보 ingredient Object    
      5-1 성분명 irdnt_nm Array    
      5-2 성분수치 irdnt_ncl Array    
      5-3 성분화학물구조 irdnt_chmcls_strct String    
      5-4 성분분석기관명 irdnt_anals_instlm String   [제주산학융합원]
    6 라이선스 licenses Object    
      6-1 라이선스명 lcnse_nm String Y  


    2. 실제 예시

    • 원천 데이터 (.jpg)
      식의약용 자생식물 분석-실제 예시_1_원천 데이터 (.jpg)
    • 라벨 데이터 (.json)
      {
        "info" : {
          "datast_nm" : "64.식의약용 자생식물 데이터",
          "datast_detail" : "식의약용 자생식물 객체분류별 학습용 데이터셋",
          "wd_plnt_idntfr" : "001"
        },
        "images" : {
          "image_file_id" : "000001",
          "image_file_nm" : "WP001_0001.jpg",
          "file_stre_cours" : "\\식의약용 자생식물 분석 데이터\\01\\001\\CR001_01_50003.jpg",
          "rsoltn" : “1500, 1500”,
        ... (중략)
          "image_potogrf_dt" : "2021-08-12 10:34:19"
        },
        "annotations" : {
          "antn_id" : 1593470,
          "antn_ty" : "polygon",
          "object_class_lclas_code" : "02",
          "object_class_mlsfc_code" : "001",
          "object_class_sclas_code" : "02",
          "object_class_lclas_nm" : "초본",
          "object_class_mlsfc_nm" : "연꽃",
          "object_class_sclas_nm" : "꽃",
          "pyn_xcrdnt" : [ 107, 152, 225, 189, 105, 152, 225, 189, 105, 150, 225, ... ]
        }
        ... (중략)
      }
  • 데이터셋 구축 담당자

    수행기관(주관) : 제주특별자치도청
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    송형민 주무관 064-710-2582 smartshm1@korea.kr · 사업수행 총괄 · 사업관리
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    (재)제주테크노파크 · 자생식물 60종 정의 및 기능/효능 분석
    · 해커톤 운영
    (사)제주산학융합원 · 식의약용 자생식물 60종을 대상으로 성분분석 실시
    ㈜데이터웨이 · 데이터 품질관리 및 검증
    ㈜지디에스컨설팅그룹 · 식의약용 자생식물 60종별 부위별 어노테이션/라벨링 작업을 통한 학습데이터 구축
    ㈜플렉싱크 · 식의약용 자생식물 60종별 부위별 수집/정제작업을 통한 원천데이터 확보
    ㈜디에스티인터내셔날 · AI 알고리즘 선정
    · 학습모델 구축
    · 자생식물 도감 웹서비스 개발
    와이비에스에듀 사회적협동조합 · 크라우드워커 모집/교육 관리
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.