-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-15 데이터 최종 개방 1.0 2023-07-31 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-02-02 산출물 전체 공개 소개
ㅇ 청정 서해안을 위한 유입 쓰레기 인공지능 데이터 구축 - 서해안 및 새만금 방조제 환경보전 및 생태계 안정화 - 하천 유입 쓰레기 인공지능 분석을 통한 하천 관리 및 국토 관리 효율화
구축목적
새만금방조제 유입 하천 쓰레기 데이터셋 활용 협의체 구성하여 운영되었으며, 데이터셋 활용 AI 서비스 아이디어 제안 및 고도화
-
메타데이터 구조표 데이터 영역 재난안전환경 데이터 유형 이미지 데이터 형식 jpg 데이터 출처 자체 구축 라벨링 유형 바운딩박스, 세그멘테이션 (Polygon) 라벨링 형식 JSON 데이터 활용 서비스 인공지능(AI) 기반 쓰레기 탐지 및 경로추적 시스템 데이터 구축년도/
데이터 구축량2022년/원천데이터 207,586장 / 라벨링 데이터 207,586개 -
■ 데이터 구축 규모 -파일 기준
데이터 구축 규모 - 파일 기준 구분 성과목표 구축실적 달성율 데이터셋 플라스틱류 200,000 283,054 142% (합계) 스티로폼류 100,000 120,064 120% 섬유류 15,000 17,727 118% 비닐류 125,000 136,241 109% 목재류 12,000 14,173 118% 금속류 48,000 52,634 110% 유리류 14,000 16,947 121% 고무류 5,000 9,285 186% 종이류 61,000 76,092 125% 기타 20,000 21,481 107% -객체 기준(json 안에 포함된 객체)
데이터 구축 규모 - 객체 기준(json 안에 포함된 객체), 모바일 계획 항목 구분 학습데이터 구축량 모바일 계획 가공량 객체분류 객체주제 (11/08기준) 1 하천 유입 쓰레기 플라스틱류 30만건 이상 90,000 95,455 2 스티로폼류 10만건 이상 20,000 22,308 3 섬유류 1만건 이상 12,000 13,264 4 비닐류 10만건 이상 83,000 89,302 5 목재류 4만건 이상 8,000 8,885 6 금속류 1만건 이상 31,000 34,338 7 유리류 1만건 이상 13,000 14,734 8 고무류 1만건 이상 4,000 4,316 9 종이류 1만건 이상 31,000 41,502 10 기타 1만건 이상 8,000 8,101 합 계 60만건 이상 300,000 332,205 (20만장 이미지) 데이터 구축 규모 - 객체 기준(json 안에 포함된 객체), 드론 계획 항목 구분 학습데이터 구축량 드론 계획 가공량 객체분류 객체주제 (11/08기준) 1 하천 유입 쓰레기 플라스틱류 30만건 이상 110,000 187,599 2 스티로폼류 10만건 이상 80,000 97,756 3 섬유류 1만건 이상 3,000 4,463 4 비닐류 10만건 이상 42,000 46,939 5 목재류 4만건 이상 4,000 5,288 6 금속류 1만건 이상 17,000 18,296 7 유리류 1만건 이상 1,000 2,213 8 고무류 1만건 이상 1,000 4,969 9 종이류 1만건 이상 30,000 34,590 10 기타 1만건 이상 12,000 13,380 합 계 60만건 이상 300,000 415,493 (20만장 이미지) -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드■ 활용 AI 모델
활용 AI 모델 적용모델 알고리즘 YOLOv4(Bounding Box) Instance Bounding Box ResNet50(Segmentation) Instance Segmentation - 전북새만금 하천 스레기 7개의 카테고리(클래스)에 따라 Object Detection이 가능한 YOLOv4 모델
- 전북새만금 하천 스레기 3개의 카테고리(클래스)에 따라 Object Segmentation 이 가능한 ResNet50모델
- 클레스 분류와 영역구분하는 모델을 사용하여 8(Train):1(Valdation):1(Test) 비율로 데이터를 전처리하여 학습 수행
- 학습모델 환경정보
학습모델 환경정보 항목 내용 CPU Intel(R) Core(TM) i9-10900K CPU @ 3.70GHz Memory 188GB GPU GPU 0: NVIDIA GeForce RTX 3090 Storage 2TB OS Linux Ubuntu 18.04 개발 언어 Python 3.6.10 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 바운딩박스 객체 탐지 성능 Object Detection darknet YOLO v4 mAP@IoU 0.5 70 % 71.53 % 2 세그멘테이션 객체 탐지 성능 Object Detection Resnet50-maskcnn mIoU 50 % 51.29 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드■ 라벨링 데이터 포맷
라벨링 데이터 포맷 NO 속성명 속성 설명 Type 필수여부 예시 1 project[].annotation[] 어노테이션 정보 object - - 2 project[].annotation[].category 객체 대분류 string Y 플라스틱 3 project[].annotation[].class 객체 중분류 string Y 경질형 4 project[].annotation[].detail 객체 소분류 string Y 기타 경질형 플라스틱 5 project[].annotation[].damage 훼손 여부 string N Y, N 6 project[].annotation[].labeling[] 어노테이션 종류 object - - 7 project[].annotation[].labeling[].type 어노테이션 타입 string Y rect, polygon 8 project[].annotation[].labeling[].x x좌표 값 string Y 302 9 project[].annotation[].labeling[].y y좌표 값 string Y 419.21 10 project[].annotation[].labeling[].width 너비 값 string Y 144.93 11 project[].annotation[].labeling[].height 높이 값 string Y 135.52 - Polygon의 경우 아래의 구조가 어노테이션 항목에 추가됨
Polygon의 경우 아래의 구조가 어노테이션 항목에 추가됨 NO 속성명 속성 설명 Type 필수여부 예시 1 project[].annotation[].labeling[].point[] 포인트 정보 object - - 2 project[].annotation[].labeling[].point[].x 포인트 x좌표 값 string Y 261.01 3 project[].annotation[].labeling[].point[].y 포인트 y좌표 값 string Y 597.73 원시데이터 저장구조
◯ 모바일영상 폴더 및 파일 구조원시데이터 저장구조 - 모바일영상 폴더 및 파일 구조 하천 분류 일시 인덱스 화일명 만경강(MGG) 플라스틱 P 연월일 0000~9999 M_NGG_P_220701_0001.jpg -220701 전주천(JJC) 스티로폼 S 연월일 0000~9999 M_JJC_S_220701_0001.jpg -220701 소양천(SYC) 섬유 C 연월일 0000~9999 M_SYC_C_220701_0001.jpg -220701 마산천(MSC) 비닐 V 연월일 0000~9999 M_MSC_V_220701_0001.jpg -220701 목천포천(MCPC) 목재 W 연월일 0000~9999 M_MCPC_W_220701_0001.jpg -220701 탑천(TC) 금속 I 연월일 0000~9999 M_TC_I_220701_0001.jpg -220701 만경강(MGG) 유리 G 연월일 0000~9999 M_MGG_G_220701_0001.jpg -220701 만경강(MGG) 고무 R 연월일 0000~9999 M_MGG_R_220701_0001.jpg -220701 만경강(MGG) 종이 B 연월일 0000~9999 M_MGG_B_220701_0001.jpg -220701 만경강(MGG) 기타 M 연월일 0000~9999 M_MGG_M_220701_0001.jpg -220701 ◯ 드론영상 폴더 및 파일 구조
원시데이터 저장구조 - 드론영상 폴더 및 파일 구조 하천 분류 일시 인덱스 화일명 만경강(MGG) 플라스틱 P 연월일 0000~9999 D_NGG_P_220701_0001.jpg -220701 전주천(JJC) 스티로폼 S 연월일 0000~9999 D_JJC_S_220701_0001.jpg -220701 소양천(SYC) 섬유 C 연월일 0000~9999 D_SYC_C_220701_0001.jpg -220701 마산천(MSC) 비닐 V 연월일 0000~9999 D_MSC_V_220701_0001.jpg -220701 목천포천(MCPC) 목재 W 연월일 0000~9999 D_MCPC_W_220701_0001.jpg -220701 탑천(TC) 금속 I 연월일 0000~9999 D_TC_I_220701_0001.jpg -220701 만경강(MGG) 유리 G 연월일 0000~9999 D_MGG_G_220701_0001.jpg -220701 만경강(MGG) 고무 R 연월일 0000~9999 D_MGG_R_220701_0001.jpg -220701 만경강(MGG) 종이 B 연월일 0000~9999 D_MGG_B_220701_0001.jpg -220701 만경강(MGG) 기타 M 연월일 0000~9999 D_MGG_M_220701_0001.jpg -220701 ■ 라벨링 데이터 예시
{
"metaData": {
"description": "WasteImgData",
"creator": "(주)솔트룩스이노베이션",
"distributor": "(주)솔트룩스이노베이션"
},
"shoot_info": {
"equipment_name": "Mobile",
"model_name": "SM-F711N",
"file_name": "M_SC_20220817_0001.jpg",
"width": 4000,
"height": 3000,
"date": "20220817",
"region_name": "삼천",
"location_name": "전라북도 전주시 완산구 삼천동1가",
"latitude": "35.79509339972222",
"longitude": "127.1101447"
},
"annotations": [
{
"category": "비닐류",
"class": "필름형",
"detail": "제품 비닐류",
"damage": "y",
"labeling": {
"type": "polygon",
"point": [
{
"x": 1596.8499847635633,
"y": 1548.3416475591566
},
·
·
·
],
"x": 1583.2499850496654,
"y": 1534.741647845259,
"width": 135.46666262944564,
"height": 107.73333012262992 -
데이터셋 구축 담당자
수행기관(주관) : ㈜신한항업
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 배경호 02)2108-3700 khbae@shas.co.kr 사업 총괄, 데이터 수집 및 정제 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜솔트룩스이노베이션, ㈜케이테크 데이터 가공, 데이터 검사, AI 유효성 검사 군산대학교 산학협력단, 전북강살리기 추진단, ㈜시스테크 모바일 데이터 수집, 드론 데이터 수집 ㈜아와소프트 품질 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 배경호 02)2108-3700 khbae@shas.co.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.