-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-22 데이터 최종 개방 1.0 2023-06-21 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-01-12 산출물 전체 등록 소개
국내 하천 및 해양 환경 내에 많이 발생되는 수중 생활폐기물에 대한 데이터로 루어, 낚시추, 유리병, 음료수 캔, 통조림 캔, 페트병, 장갑, 의류, 고철, 마스크 총 10종에 대해 객체 검출 인공지능 모델을 위한 학습용 데이터
구축목적
국내 하천 및 해양 환경 내에 존재하는 수중 생활폐기물 10종에 대한 데이터셋은 인공지능 기반의 수중 생활폐기물 검출 모델에 학습하여 국내에 존재하는 수중 생활폐기물 현황 모니터링 및 수거시스템 개발 활용을 목적으로 구축
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 이미지 데이터 형식 PNG 데이터 출처 국내 하천 및 해양의 수중 환경에서 직접 수직 라벨링 유형 세그멘테이션 라벨링 형식 JSON 데이터 활용 서비스 수중 생활폐기물 현황 모니터링 및 수거 시스템 구축 데이터 구축년도/
데이터 구축량2022년/PNG 738,623장 -
1) 데이터 구축 규모
1) 데이터 구축 규모 데이터 종류 데이터 형식 객체 유형 클래스수(건) 이미지수(장) 이미지 이미지 : PNG 수중 생활폐기물 10종 816,870 738,623 가공데이터:JSON (루어, 낚시추, 유리병, 음료수 캔, 통조림 캔, 페트병, 장갑, 의류, 고철, 마스크) 2)데이터 분포
● 수집 지역별 분포2)데이터 분포 구분 수집 지역 수량(이미지 수) 비율(%) 수중 생활폐기물
데이터 수집 지역
(다양성-통계)부산항 79,199 10.72 울산항 78,527 10.63 평택항 120,259 16.28 한강 110,846 15.01 낙동강 104,523 14.15 거제 115,270 15.61 사천 129,999 17.6 ● 수중 생활폐기물 객체 유형별 분포
수중 생활폐기물 객체 유형별 분포 데이터 명 객체 유형 수량(객체 수) 비율(%) 수중 생활폐기물
데이터 수집 지역
(다양성-통계)루어 54,903 6.72 낚시추 56,383 6.9 유리병 105,656 12.93 음료수 캔 92,455 11.32 통조림 캔 58,247 7.13 페트병 153,076 18.74 장갑 88,283 10.81 의류 49,985 6.12 고철 81,187 9.94 마스크 76,695 9.36 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1) 수중 생활폐기물 10종 탐지 및 부피추정 모델
● (활용 모델 개발 목표) 수중 환경의 폐기물 10종 (루어, 낚시추, 유리병, 음료수캔, 통조림,페트병, 장갑, 의류, 고철, 마스크)을 학습하고, 이를 기반 Instance Segmentation 형태의 Object Detection 그리고, Segmentation Pixel Region 기반 각 객체별 부피 및 무게 추정 CV 알고리즘
● (활용 모델 개발 내용) 구축되는 학습데이터를 활용하여 2-Stage detector 모델인 SwinT+HTC++ 기반(SOTA: TOP5) 컬러 이미지 혹은 영상에서 수중 폐기물 10종의 객체를 탐지하고 탐지된 Pixel Region을 활용하여 각 객체별 부피 및 무게를 추정함. 추정된 부피 및 무게는 향 후, ROV를 활용한 자동 수중 폐기물 로봇 개발에 활용될 수 있음- 2-Stage Detector Architecture -
2) 서비스 활용 시나리오
● 해당 AI모델을 활용하여 국내 하천 및 해양과 같은 수중 환경에 존재하는 수중 생활폐기물 현황 모니터링 및 지능형 수중 생활폐기물 수거 시스템 개발에 활용할 수 있음3) 기타정보
● 대표성
○ 수중 생활 폐기물은 종류가 방대하며, 특성과 양에 따라 인간의 생활환경에 끼치는 피해가 다양함
○ 다양한 수중 생활 폐기물 중에서, 사람의 생활 환경과 밀접하게 연관있는 객체를 선정하기 위해 환경부 산하, 각 한강유역환경청 상수원관리과에서 직접 하천에서 수거한 수중 쓰레기의 대표적인 종류(낚시 도구, 플라스틱 PET병, H빔과 같은 철재 건축 폐기물, 마스크)와 (사)동아시아바다공동체오션에서 보고한 자료에서 조사된 하천, 항만 주변의 생활 쓰레기 비중(낚시용품, 알루미늄 캔, 유리병, 폐섬유, 마스크 등)을 인용하여 최종적인 수집 객체 종류를 선정
● 독립성
○ 2020년, NIA에서 구축한 해양 침적 쓰레기 이미지 데이터와 중복되지 않도록 수중 생활폐기물 객체 유형을 선정 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 수중 생활폐기물 객체 탐지 성능 Object Detection HTC(Hybrid Task Cascade:Head)+FPN(Neck) + Swin V2-T(Backbone) mAP@IoU 0.5 75 % 92.3 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1) 데이터 포맷
1) 데이터 포맷 데이터 유형 데이터 포맷 해상도 라벨링형식 라벨링 유형 이미지 PNG 720P JSON 세그멘테이션(이미지) 2) 데이터 구성
2) 데이터 구성 구분 No 속성명 속성 및 내용 필수 1 video_clip_name 비디오 클립 이름 필수 2 info_data_created Info 생성일 필수 3 info_data_collector 데이터 수집자 필수 4 info_data_point Info 수집장소 필수 5 info_data_frame 프레임 추출 단위 필수 6 info_camera_aperture 카메라 렌즈 조리개 필수 7 info_shutter_type 카메라 셔터 유형 필수 8 info_device 데이터 수집장비 필수 9 collection_point 수집장소 GPS값 필수 10 water_temperature 수온 필수 11 dissolved_oxygen 용존산소 필수 12 turbidity 탁도 필수 13 pH_concentration pH 농도 필수 14 shooting_distance 촬영 거리 필수 15 iluminance 조도 필수 16 image_filename 이미지 파일명 (Primary Key) 필수 17 image_data_captured 이미지 캡쳐일 필수 18 image_file_format 파일 형식(포맷) 필수 19 image_width 이미지 너비 필수 20 image_height 이미지 높이 선택 21 image_dpi 이미지 DPI 필수 22 object_id Instance segmentation object identity 필수 23 class_id 객체 의미태깅 정보 Identity 필수 24 class_name 객체 의미태깅 명 필수 25 polygon 폴리곤 포인트의 (x,y) 키쌍 형태의 좌표 배열 필수 26 region Polygon Pixel array(폴리곤 도형의 넓이) (w*h) 3) 어노테이션 포맷
3) 어노테이션 포맷 구분 속성명 타입 필수 여부 설명 비고 1 info Object 데이터셋정보 1-1 video_clip_name string Y 비디오 클립 이름 220612__00001 1-2 info_data_created string Y Info 생성일 2022-06-12 1-3 info_data_collector string 데이터 수집자 홍길동 1-4 info_data_point string Y Info 수집장소 해운대 1-5 info_data_frame string Y 프레임 추출 단위 152 1-6 info_camera_aperture string Y 카메라 렌즈 조리개 2.1 1-7 info_shutter_type string Y 카메라 셔터 유형 rolling shutter 1-8 info_device string Y 데이터 수집장비 ROV 2 collection Object 수집환경정보 2-1 collection_point string Y 수집장소 GPS값 37.566535 ,126.97796919 2-2 water_temperature int Y 수온 18 2-3 dissolved_oxygen int Y 용존산소 4 2-4 turbidity int Y 탁도 22 2-5 pH_concentration string Y pH 농도 8.2 2-6 shooting_distance string Y 촬영 거리 0.5 2-7 iluminance int Y 조도 20 3 images Object 이미지정보 3-1 image_filename string Y 이미지 파일데이명 220612_해운대_00001_152 (Primary Key) 3-2 image_data_captured string Y 이미지 캡쳐일 2022-06-12 3-3 image_file_format string Y 파일 형식(포맷) PNG 3-4 image_width int Y 이미지 너비 1280 3-5 image_height int Y 이미지 높이 720 3-6 image_dpi int 이미지 DPI 96 4 annotations array 라벨링정보 4-1 object_id int Y Instance segmentation object identity 125686 4-2 class_id int Y 객체 의미태깅 정보 Identity 1:lure, 2:fishing_plumb, 3: glass_bottle, 4:soda_can, 5:can, 6:plas,tic_bottle, 7:gloves 8:clothes, 9:scrap_iron, 10:mask, 11:mixed 4-3 class_name string Y 객체 의미태깅 명 lure,fishing_plumb,glass_bottle, soda_can, can, plastic_bottle, gloves, clothes, scrap_iron, mask, mixed 4-4 polygon float Y 폴리곤 포인트의 (x,y) 키쌍 형태의 좌표 배열 [338.81422949, 266.33596837],... 4-5 region float Y Polygon Pixel array(폴리곤 도형의 넓이) (w*h) 623.35 4) 어노테이션 예시
4) 어노테이션 예시 데이터 라벨링(세그멘테이션) JSON {
"info": {
"video_clip_name": "220701_부산항_00001",
"info_data_created": "2022-07-01",
"info_data_collector": "홍길동, 김철수, 김영희",
"info_data_point": "부산항",
"info_data_frame": "129",
"info_camera_aperture": "2.1",
"info_shutter_type": "rolling shutter",
"info_device": "ROV-IWD6"
},
"collection": {
"collection_point": [
"35.0882643",
"129.0231615"
],
"water_temperature": 21,
"dissolved_oxygen": 7,
"turbidity": 10,
"pH_concentration": "6.97",
"shooting_distance": "0.39",
"illuminance": 31
},
"images": {
"image_filename": "220701_부산항_00001_129",
"image_data_captured": "2022-07-01",
"image_file_format": "PNG",
"image_width": 1280,
"image_height": 720,
"image_dpi": 96
},
"annotations": [
{
"object_id": 0,
"class_id": 7,
"class_name": "gloves",
"polygon": [
[
1059.8092,
128.529419
],
[
1081.09021,
101.444443
],
[
1096.56726,
69.52287
],
[
1040.22681,
143.039215
],
[
1056.67126,
132.3987
],
[
1062.4751,
126.594772
],
[
1066.34448,
121.758171
]
],
"region": 78568.8359
}
]
}5) 수중 생활폐기물 객체 예시
● 아래 그림은 수중 생활폐기물 10종에 대한 이미지 데이터 예시를 나타냄- 수중 생활폐기물 객체 10종 예시 -
-
데이터셋 구축 담당자
수행기관(주관) : 주식회사 씨랩
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 장경훈 055-785-0710 root93@cilab.kr 데이터 수집 및 정제 수행기관(참여)
수행기관(참여) 기관명 담당업무 인플랩 주식회사 데이터 가공 포항공과대학교 산학협렵단 AI모델을 활용한 데이터 유효성 검증 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 장경훈 055-785-0710 root93@cilab.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.