-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-06-26 원천데이터 수정 1.0 2022-07-29 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2022-12-16 교육동영상 업데이트 2022-10-21 신규 샘플데이터 개방 2022-07-29 콘텐츠 최초 등록 소개
실시간 수질환경데이터, 생육현황데이터, 사육관리데이터, 뱀장어의 이미지데이터 등 뱀장어양식장에서 양식 전주기에 생산되는 통합 데이터
구축목적
1. 양식장 전주기 통합 데이터셋을 공개·개방하여 연구소, 벤처기업, 양식업자 등이 자유롭게 사용하여 개선된 융합 모델 및 서비스 구축 2. 뱀장어 생장 및 균등성 모델을 서비스화하여 최적생육조건을 도출할 수 있는 양식장 환경 제공
-
메타데이터 구조표 데이터 영역 농축수산 데이터 유형 이미지 데이터 형식 jpg, mp4 데이터 출처 상업용 뱀장어양식장 2개소 라벨링 유형 세그멘테이션(이미지) 라벨링 형식 JSON 데이터 활용 서비스 실시간 뱀장어 성장도 및 성장분포 모니터링서비스, 사료섭취 소요시간 모니터링서비스 데이터 구축년도/
데이터 구축량2021년/약 900GB -
데이터 구축 규모
- 이미지데이터 20만장, 영상데이터 1,500건, 센서데이터 120만세트, 관리데이터 5,000세트 이상
데이터 구축 규모 분류 데이터 종류 데이터 규모 이미지데이터 수조표면 뱀장어 이미지 데이터 200,000장 이상 클리너 뱀장어 이미지 데이터 6,000장 이상 샘플링 뱀장어 이미지 데이터 2,000장 이상 동영상데이터 먹이공급틀 내 사료섭취 영상데이터 1,500건 이상 센서데이터
(7종)DO 데이터 120만 세트 이상 수온 데이터 pH 데이터 CO2 데이터 ORP 데이터 유량 데이터 조도 데이터 관리데이터
– 수질분석(7종)암모늄 데이터 1,800세트 이상 아질산염 데이터 알칼이도 데이터 질산염 데이터 SS(부유물) 데이터 탁도 데이터 총세균수 데이터 관리데이터
– 일반관리사료공급관리 데이터 2,400세트 이상 첨가제공급관리 데이터 100세트 이상 수질개선제공급관리데이터 100세트 이상 뱀장어생육단계 데이터 (길이, 무게, 성장도) 2,000세트 이상 사육관리데이터 (입식,폐사,출하,선별) 20세트 이상 뱀장어 건강도 및 질병 분석 데이터 300세트 이상
데이터 분포
- 어종 별 분포 (수조표면 뱀장어 이미지 장수)
분류 데이터 건수 비율 자포니카 151,098장 말모라타 263,000장 - 크기 별 분포 (수조표면 이미지 내 뱀장어 마리수)
분류 데이터 건수 비율 소 236,217 마리 23.41% 중 392,754 마리 38.92% 대 380,053 마리 37.67% - 라벨 수 당 이미지 빈도수
- 이미지데이터 20만장, 영상데이터 1,500건, 센서데이터 120만세트, 관리데이터 5,000세트 이상
-
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드모델 학습
- 뱀장어 데이터셋은 수조표면에 존재하는 뱀장어 중 서로 겹치지 않는 뱀장어 대상으로 한 세그먼테이션 정보를 가지고 있음. 해당 데이터셋을 활용하여 온전한 모양의 뱀장어 Bounding Box Detection 모델을 학습시킬 수 있고, 또한 Instance Segmentation 모델의 학습에 사용 될 수 있음. 본 사업에서는 40만장 이상 구축하므로 최소 검증과 시험을 모두 각 10만장 이상으로 통일하여 준비하는 것을 제안함
모델 학습 구분 학습(Learning) 검증(Validation) 시험(Test) 개요 Bounding Box Model
Segmentation Model– 학습 도중 모델 평가
Loss, Accuracy– 모델 학습완료 후
모델 테스트필요 개수 많을수록 좋음(십만장 이상) 20% 20%
서비스 활용 시나리오
- 구축된 모델은 뱀장어 양식장에서 수조별 뱀장어 길이 및 무게 측정의 베이스 모델로 활용 할 수 있음
- 수조에 폐사어 수집 장소(클리너)가 존재할 경우 폐사어 감지에 활용 할 수 있음
- 어노테이션 포맷에 기록되어진 센서 정보를 이용하여 수질 이상치 threshold 선정에 활용 할 수 있음
기타정보
- 대표성 : 국내 뱀장어 양식장에서 가장 많이 양식되어지는(90%이상) 자포니카, 말모라타가 6:4의 비율로 구성
- 다양성 : 뱀장어의 크기 분포가 대,중,소 기준으로 2:4:2의 비율로 구성
- 뱀장어 데이터셋은 수조표면에 존재하는 뱀장어 중 서로 겹치지 않는 뱀장어 대상으로 한 세그먼테이션 정보를 가지고 있음. 해당 데이터셋을 활용하여 온전한 모양의 뱀장어 Bounding Box Detection 모델을 학습시킬 수 있고, 또한 Instance Segmentation 모델의 학습에 사용 될 수 있음. 본 사업에서는 40만장 이상 구축하므로 최소 검증과 시험을 모두 각 10만장 이상으로 통일하여 준비하는 것을 제안함
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 폴리곤 객체 인식 Object Detection Mask R-CNN mIoU 70 % 77.7 % 2 뱀장어 길이 측정 Estimation Polynomail Regression NRMSE 10 % 7.5 % 3 뱀장어 생장 및 균등성 예측 Prediction Deep Encoder-based Predictor RE 10 % 4.3 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드데이터 포맷
- 센서데이터와 관리데이터의 경우 라벨링 결과는 자체적인 JSON 파일을 가지지 않고 이미지 라벨링 데이터에 첨부되어 정보가 표현(라벨링 시 시스템에서 자동으로 이미지 촬영 시간과 센서/관리 데이터 시간과의 동기화 작업 진행)
데이터 포맷 단계 데이터 명 데이터 유형 데이터 포맷 획득 수조표면 영상데이터 동영상 MP4 클리너 영상데이터 동영상 MP4 사료공급틀 영상데이터 동영상 MP4 샘플링뱀장어 이미지데이터 이미지 PNG 센서데이터(7종) 기타(시계열 세그먼테이션) Table 형태(RBD 저장) 관리데이터(13종) 기타(시계열 세그먼테이션) Table 형태(RBD 저장) 정제 수조표면 이미지데이터 이미지 JPG 클리너 이미지데이터 이미지 JPG 사료공급틀 영상데이터 동영상 MP4 샘플링뱀장어 이미지데이터 이미지 PNG 센서데이터(7종) 기타(시계열 세그먼테이션) Table 형태(RBD 저장) 관리데이터(13종) 기타(시계열 세그먼테이션) Table 형태(RBD 저장) 라벨링 수조표면 이미지데이터 이미지 + 레이블 정보 JSON(COCO format) 클리너 이미지데이터 이미지 + 레이블 정보 JSON(COCO format) 사료공급틀 영상데이터 동영상 + 레이블 정보 JSON(COCO format) 샘플링뱀장어 이미지데이터 이미지 + 레이블 정보 JSON(COCO format) 센서데이터(7종) 기타(시계열 세그먼테이션) JSON(COCO format)
(이미지 레이블에 첨부)CSV 관리데이터(13종) 기타(시계열 세그먼테이션) JSON(COCO format)
(이미지 레이블에 첨부)CSV
어노테이션 포맷
구분 항목명 타입 필수여부 설명 범위 1 info Object Y 기본 정보 01월 01일 description String Y 데이터셋 이름 Eel
Dataset01월 02일 url String N 데이터셋 제작자 url www.
iscilab.com01월 03일 version String Y 제작 버전 1~10 01월 04일 year String N 제작 년도 2020~2022 01월 05일 contributor String Y 데이터셋 제공자 iscilab 01월 06일 date_created String Y 데이터셋 제작 시간 YYYY-MM-DD
HH:MM2 licenses Object
arrayY 저작권 정보 02월 01일 url String N 저작권 제작자 url www.
iscilab.com02월 02일 id String Y 저작권 고유 번호 01월 10일 02월 03일 name String N 저작권 이름 Attribution 3 images Object
arrayY 이미지 데이터 정보 03월 01일 license String Y 저작권 번호 01월 10일 03월 02일 file_name String Y 원천데이터 이름 1 ~
100000000
jpg03월 03일 coco_url String N coco 다운로드 url N/A 03월 04일 height Number Y 세로 길이 300~5000 03월 05일 width Number Y 가로 길이 300~5000 03월 06일 date_captured String Y 데이터 제작 시간 YYYY-MM-DD-HH:mm:ss 03월 07일 flickr_url String N 플리커 등록 url N/A 03월 08일 id String Y 이미지 고유번호 1 ~
10000000003월 09일 farm_id Number Y 양식장 아이디 1~10 03월 10일 tank_id Number Y 수조 아이디 1~10 03월 11일 file_format String Y 파일 포맷 jpg 03월 12일 cctv_id Number Y CCTV 아이디 1~100 03월 13일 weather String N 날씨 N/A 03월 14일 recoding_time String Y 녹화 시간 YYYY-MM-DD-HH:mm:ss 4 annotations Object
arrayY 어노테이션 정보 04월 01일 segmentation Number
arrayY segmentation mask 정보 0~5000
array04월 02일 area Number Y 영역면적 1~25000000 04월 03일 iscrowd Number N 객체의 단일 여부(단일 : 0, 다중 : 1) 0,1 04월 04일 image_id String Y 이미지 고유번호 1~
1000000004월 05일 bbox Object N bounding box 정보 0~5000
array04월 06일 category_id String Y 카테고리 고유 번호 1 04월 07일 id String Y 어노테이션 고유 번호 1~100 04월 08일 eel_length Number Y 뱀장어 크기 1~500 04월 09일 size_class Number
ArrayY 1: 대, 2: 중, 3: 소 1,2,3 5 categories Object Y 카테고리 리스트 05월 01일 supercategory String Y 큰 분류의 카테고리 Eel 05월 02일 id String Y 카테고리 고유 번호 1~10 05월 03일 name String Y 이름 eel 6 farm info Object Y 양식장 정보 06월 01일 id Number Y 양식장 아이디 1~10 06월 02일 name String N 양식장 이름 갈릴리양식장
에코피쉬빌06월 03일 location String N 양식장 위치 경기도 파주
경기도 화성7 tank info Object Y 수조 정보 07월 01일 id Number Y 수조 아이디 1~10 07월 02일 farm_id Number Y 양식장 아이디 1~10 07월 03일 name String N 수조 이름 B1~B10 07월 04일 size String Y 수조 크기(미터 단위) 1~10 07월 05일 eel_class String Y 어종 정보 1:자포니카
2:말모라타07월 06일 object_count Number Y 현재 개체수 100~10000000 8 sensor info Object Y 센서 정보 08월 01일 do_value Number Y DO 값 0~20 08월 02일 water_temp_value Number Y 수온 값 -5~45 08월 03일 ph_value Number Y pH 값 0~14 08월 04일 flux_value Number Y 유량 값 0~50 08월 05일 orp_value Number Y ORP 값 -1000~1000 08월 06일 illuminance_value Number Y 조도 값 0~ 2000 08월 07일 co2_value Number Y CO2 값 0~50 9 management info Object Y 관리 정보 09월 01일 ammonium_value Number N 암모늄 값 0~2000 09월 02일 nitrite_value Number N 아질산염 값 0~200 09월 03일 alkaline_vlaue Number N 알칼이도 값 0~2000 09월 04일 nitrate_value Number N 질산염 값 0~200 09월 05일 ss_value Number N SS(부유물) 값 0~2000 09월 06일 turbidity_value Number N 탁도 값 0~20000 09월 07일 bacterial_value Number N 박테리아 개수 0~10000000 09월 08일 feed_supply_value Number Y 사료공급량 0~10000 09월 09일 feed_supply_time String Y 사료공급시간 YYYYMMDDHHMM
or ‘’09월 10일 feed_ingredient_value String N 사료성분 09월 11일 additive_supply_value Number N 첨가제공급량 0~1000 09월 12일 additive_supply_time String N 첨가제공급시간 YYYYMMDDHH:MM
or ‘’09월 13일 additive_ingredient_value String N 첨가제성분 09월 14일 medicine_supply_value Number N 약품공급량 0~1000 09월 15일 medicine_supply_time String N 약품공급시간 YYYYMMDDHH:MM
or ‘’09월 16일 medicine_ingredient_vlaue String N 약품성분 09월 17일 stock_time String Y 입식 시간 YYYYMMDD
or ‘’09월 18일 harvest_time String Y 출하 시간 YYYYMMDD
or ‘’09월 19일 grade_time String Y 선별 시간 YYYYMMDD
or ‘’실제 예시
- 센서데이터와 관리데이터의 경우 라벨링 결과는 자체적인 JSON 파일을 가지지 않고 이미지 라벨링 데이터에 첨부되어 정보가 표현(라벨링 시 시스템에서 자동으로 이미지 촬영 시간과 센서/관리 데이터 시간과의 동기화 작업 진행)
-
데이터셋 구축 담당자
수행기관(주관) : 명선해양산업(주)
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 최성원 대리 02-774-7741 swchoe@myungsun.co.kr · 원시데이터(센서⋅이미지데이터) 획득관리 · 크라우드워커 운영관리 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜아이싸이랩 · 원시데이터 정제 및 라벨링
· 데이터품질관리
· 인공지능모델 개발경기도해양수산자원연구소 · 원시데이터(질병관련 관리데이터) 획득관리 강릉원주대학교 산학협력단 · 데이터 라벨링
· 데이터품질관리영어조합법인 갈릴리양어장 · 데이터 수집현장 운영관리 ㈜에코피시빌 · 데이터 수집현장 운영관리 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 최성원 대리 02-774-7741 swchoe@myungsun.co.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.