-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-06 데이터 최종 개방 1.0 2023-05-04 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-04-22 데이터설명서, 구축업체정보 수정 담당자 정보 수정 2023-12-20 산출물 전체 공개 소개
아산시 하천부지 점유현황 구축 데이터를 기반으로 국가전반의 국.공유지의 변화를 감지하여 무단점유 의심지역을 추출하는 AI 모델을 개발하기 위한 학습용 데이터
구축목적
효과적인 하천 관리 위해 하천부지 점유현황에 대한 양질의 고해상도 이미지를 수집하여 지형정보 분석과 점유현황 분석을 위한 학습 데이터를 구축하고 제공함으로써 공간정보 분석에 용이한 AI 산업 발전을 목적으로 함
-
메타데이터 구조표 데이터 영역 재난안전환경 데이터 유형 이미지 데이터 형식 TIF 데이터 출처 직접 수집 라벨링 유형 세그멘테이션(이미지) 라벨링 형식 JSON 데이터 활용 서비스 하천부지 무단점유 행위 단속 시스템 데이터 구축년도/
데이터 구축량2022년/200,023장 -
1. 데이터 구축 규모
1. 데이터 구축 규모 데이터 수집처 원천데이터 라벨링데이터 아산시 200,023 200,023 2. 데이터 분포
가. 점유형태별 원천 데이터 수집2. 데이터 분포 가. 점유형태별 원천 데이터 수집 카테고리 분류 내용 수량 0001 물 하천, 수로 등에 흐르는 물 101,703 0002 자동차 자동차(승용차, 화물차, 건설장비, 농사용 트랙터 등) 53,214 0003 도로 하천부지 인근에 설치되어 차량이 다닐 수 있도록 포장된 길 (아스팔트, 시멘트 포장) 134,976 0004 경작지 논, 밭, 과수원 등 작물 재배지, 작물 재배를 위해 개간된 개간지 236,720 0005 비닐하우스 실내 경작 등을 위해 설치한 시설물(온실 포함) 37,631 0006 가건물 하천부지에 설치된 컨테이너, 샌드위치 패널, 정자 등 45,175 0007 곤포 사일리지 사료로 사용하기 위하여 볏짚 등 작물을 비닐 포장한 원기둥 모양의 개체 53,144 0008 천막 하천부지에 설치된 텐트, 그늘막, 파라솔 등의 천막 29,915 0009 쓰레기 하천부지에 버려진 쓰레기
(목재, 집기류 등과 같은 건축 폐기물, 쌓아둔 경작 도구, 비닐 더미 등)35,575 계 728,053 나. 촬영날씨별 데이터 분포
2. 데이터 분포 나. 촬영날씨별 데이터 분포 구분 맑음 흐림 계 수량 121,329장 78,694장 200,023장 다. 촬영각도별 데이터 분포
2. 데이터 분포 다. 촬영각도별 데이터 분포 구분 90도 80도 70도 계 수량 41,149장 75,704장 83,170장 200,023장 라. 블록별 데이터 분포
2. 데이터 분포 라. 블록별 데이터 분포 블록 이미지 수량 비율 B1 7,457장 3.70% B2 46,584장 23.30% B3 19,327장 9.70% B4 18,346장 9.20% B5 25,977장 13.00% B6 55,300장 27.60% B7 12,228장 6.10% B8 3,173장 1.60% B9 11,631장 5.80% 합계 200,023장 100% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1. 학습모델 후보
1. 학습모델 후보 학습 모델 후보 알고리즘 성능지표 선정 여부 선정 사유 인공지능 기반 하천 불법 점유물 탐지 모델 YOLO v5 불법 점유물 탐지 X mAP@0.5 85% 이상 인공지능 기반 하천 불법 점유물 탐지 모델 YOLO v7 불법 점유물 탐지 X mAP@0.5 85% 이상 인공지능 기반 하천 불법 점유물 탐지 및 분류 모델 Deeplab V3+ 불법 점유물 탐지 및 분류 O 1순위 mAP@0.5 85% 이상 (1-cycle 학습 모델 및 성능 평가에서 높은 정확도를 보임) 인공지능 기반 하천 불법 점유물 탐지 및 분류 모델 HRNet 불법 점유물 탐지 및 분류 X mAP@0.5 85% 이상 인공지능 기반 하천 불법 점유물 탐지 및 분류 모델 Unet 불법 점유물 탐지 및 분류 X mAP@0.5 85% 이상 - 탐지모델
- 탐지 및 분류 모델
구분 고려사항 설명 1 적합성 학습 데이터셋 구축 목적에 적합한 학습 모델인가
(하천 부지 불법 점유물 탐지를 위한 유용한 정보 제공)2 활용성 학습한 class를 활용하여 다른 지역 및 공간에서 활용 가능한 모델인가 3 실현 가능성 구축된 학습 데이터셋을 활용하여 실제 하천 부지의 불법 점유물 탐지에 적용하고 실현 가능성이 높은 모델인가 4 선정 절차 1) 선정기준에 적합한 후보 리스트업 2) 1-cycle 학습모델 개발 결과를 바탕으로 우선 순위 도출 3) 성능평가 4) 모델 최적화 5) 최종 학습모델 선정 후보 학습모델 적합성 활용성 실현 가능성 선정 여부 인공지능 기반 하천 불법 점유물 탐지 모델 중 상 상 X 인공지능 기반 하천 불법 점유물 탐지 및 분류 모델 상 상 상 O 2. 학습 모델 개발
가. 점유형태별 원천 데이터 수집
1) 인공지능 기반 하천 불법 점유물 탐지 및 분류 모델
- (개발 목표) 드론으로 취득한 이미지 데이터를 활용하여 하천 부지의 불법 점유물 탐지 및 분류
- (개발 내용) 드론으로 촬영한 하천 부지 이미지 중 총 9가지 유형의 대상(물, 자동차, 가건물, 쓰레기, 곤포 사일리지, 도로, 경작지, 비닐하우스, 천막)을 polygon 라벨링 가공하여 Object Detection 및 Segmentation이 가능한 Deeplab V3+ 모델 개발나. 응용 서비스
- 아산시의 하천부지에 존재하는 물, 자동차, 도로, 경작지, 비닐하우스, 가건물, 곤포 사일리지, 천막, 쓰레기 총 9가지 객체를 탐색하여 하천의 환경 변화와 하천부지를 점유하고 있는 점유형태를 분석하여 효과적인 하천부지 모니터링 응용 서비스 개발을 위한 데이터셋
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 점유물 탐지 성능 Object Detection Deeplabv3+ mAP 85 % 97.21 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 데이터 포맷
가. 데이터 포맷
- 원천데이터(tif) + 라벨링데이터(json)나. 라벨링데이터 명세
1. 데이터 포맷 나. 라벨링데이터 명세 구분 No 속성명 속성 및 내용 필수 1 Dataset.name 데이터셋 이름 필수 2 Dataset.src_path 데이터셋 폴더 위치 필수 3 Dataset.label_path 데이터셋 레이블 폴더 위치 필수 4 Images.identifier 이미지 식별자(파일명) 필수 5 Images.create_location 촬영장소 필수 6 Images.create_date 촬영일시 필수 7 Images.create_height 고도 필수 8 Images.create_angle 각도 필수 9 Images.create_direction 방향 필수 10 Images.create_weather 날씨 필수 11 Annotation.class_id 클래스 유형 필수 12 Annotation.points 좌표 리스트 선택 13 Dataset.type 데이터셋 타입 선택 14 Images.height 이미지 세로 크기(픽셀) 선택 15 Images.width 이미지 가로 크기(픽셀) 선택 16 Images.create_gsd GSD 선택 17 Annotation.object_recognition 어노테이션 유형 선택 18 Annotation.id 아이디 다. 데이터 예시
1. 데이터 포맷 다. 데이터 예시 구분 예시 데이터 항목 json 형식 하천부지
이미지대표
클래스경작지
(004)비닐하우스
(005)가건물
(006)곤포사일리지
(007)라. 구축 단계별 데이터 변환
1. 데이터 포맷 라. 구축 단계별 데이터 변환 구분 획득(수집) 단계 정제 단계 가공(라벨링) 단계 데이터 구분 원시데이터 원천데이터 최종데이터 데이터 형태 디지털 파일 → 디지털 파일 디지털 파일 → 디지털 파일 디지털 파일 형태로 산출 데이터 포멧 jpg (컬러) tif (컬러) 원천데이터 : tif (컬러)
가공데이터 : JSON2. 어노테이션 포맷
2. 어노테이션 포맷 구분 항목명 항목 Type 필수여부 길이 비고 1 Dataset 데이터셋(공통메타) 1-1 Dataset.name 데이터셋 이름 string 필수 1-2 Dataset.src_path 데이터셋 폴더 위치 string 필수 1-3 Dataset.label_path 데이터셋 레이블 폴더 위치 string 필수 1-4 Dataset.type 데이터셋 타입 string 2 Image 이미지 2-1 Images.identifier 이미지 식별자(파일명) string 필수 2-2 Images.height 이미지 세로 크기(픽셀) number 2-3 Images.width 이미지 가로 크기(픽셀) number 2-4 Images.create_location 촬영장소 string 필수 2-5 Images.create_date 촬영일시 string 필수 2-6 Images.create_height 고도 number 필수 2-7 Images.create_angle 각도 number 필수 2-8 Images.create_direction 방향 string 필수 2-9 Images.create_gsd GSD string 2-10 Images.create_weather 날씨 string 필수 3 Annotation 어노테이션 방식 3-1 Annotation.class_id 클래스 유형 number 필수 3-2 Annotation.id 아이디 number 3-3 Annotation.object_recognition 어노테이션 유형 string 3-4 Annotation.points 좌표 리스트 number 필수 3. 데이터 구성
가. 데이터 폴더 구성
- 학습데이터는 원천데이터와 라벨링데이터 폴더로 구분
- 원천데이터는 각 블록별 폴더 내에 고도 및 각도로 구분된 하위 폴더에 저장
- 라벨링데이터는 원천데이터 폴더와 동일한 구조로 되어 있음3. 데이터 구성 가. 데이터 폴더 구성 NO Field name length Meaning 1 Category 4 Asan 2 Block name 2 B1, B2, B3, B4, B5, B6, B7, B8, B9 3 Shooting condition 4 H047, H048, H049, H077, H078, H079, H159 나. 데이터 파일 체계
- 학습데이터의 체계적인 관리를 위해 촬영지역, 고도, 각도, 방향, 취득시기, 일련번호에 따라 학습 데이터명 설정
- 저장 폴더는 블록별로 촬영고도와 촬영각도를 분류하여 구성3. 데이터 구성 나. 데이터 파일 체계 구분 식별자 내용 파일구조
[A1LE100001.tif]A (1째자리) 취득한 대상지역
(A : 아산)1 (2째자리) 취득 대상 블록
(1 : B1, 2 : B2, 3 : B3, 4 : B4, 5 : B5, 6 : B6, 7 : B7, 8 : B8, 9 : B9, 0 : B10)L (3째자리) 데이터 취득 고도
(O : 150m, L : 70m, P : 40m 고도)E (4째자리) 데이터 취득 각도
(E : 90도, F : 80도, G : 70도)1 (5째자리) 데이터 취득 방향
(1 : N[북]방향, 2 : NE[북동]방향
3 : E[동]방향, 4 : SE[남동]방향
5 : S[남]방향, 6 : SW[남서]방향
7 : W[서]방향, 8 : NW[북서]방향0 (6째자리) 데이터수집 회차별 구분자
(0, 1, 2, 3, 4...)0001.tif 일련번호
데이터 일련번호다. 저장 폴더 구조
3. 데이터 구성 다. 저장 폴더 구조 저장 폴더 구조 세부 내용 Lv. 1 데이터명 촬영지역명 저장구조 설계 (Asan) Lv. 2 주제 원시데이터를 직접 수집한 하천 B1, B2, B3 … (B1 : 아산호 수로, B2 : 아산호 영인, B3 : 아산호 인주 B4 : 월랑천, B5 : 곡교천 탕정, B6 : 곡교천 배방, B7 : 봉강천 B8 : 온양천, B9 : 도고천, : B10 : 기타 하천 Lv. 3 분류 촬영 방법에 의해 구분 H159, H079, H078, H077, H049, H048, H047 (H159 : 촬영고도 150m, 각도 90도, H078 : 촬영고도 70m 각도 80도, H047 : 촬영고도 40M 각도 70도 …) 4. 라벨링 데이터 예시
"{ ""Annotation"": [
{
""class_id"": ""003"",
""id"": 7,
""object_recognition"": 1,
""points"": [0.000, 292.537, 350.226, 762.670, 600.126, 1081.886, 912.046, 1466.770, 1251.328, 1886.311, 1389.959, 2043.183, 563.645, 2045.007, 425.014, 1877.191, 31.010, 1264.296, 1.824, 1215.045]
},
{
""class_id"": ""004"",
""id"": 8,
""object_recognition"": 1,
""points"": [450.285, 438.818, 1629.954, 1072.044, 2042.722, 1297.184, 2048.000, 1456.100, 2043.896, 1851.447, 1785.331, 2015.615, 1038.365, 1285.066, 775.695, 928.000, 545.860, 653.018, 430.942, 521.683]
},
{
""class_id"": ""004"",
""id"": 9,
""object_recognition"": 1,
""points"": [2039.792, 665.331, 1305.138, 308.265, 619.735, 70.220, 439.150, 49.699, 225.731, 250.806, 311.920, 369.828, 2048.000, 1274.718]
}
],
""Dataset"": {
""label_path"": ""Asan/B6/H047"",
""name"": ""environment"",
""src_path"": ""Asan/B6/H047"",
""type"": ""image""
},
""Images"": {
""create_angle"": ""G"",
""create_date"": ""2022.07.08"",
""create_direction"": 2,
""create_gsd"": 1,
""create_height"": ""P"",
""create_location"": ""B6"",
""create_weather"": ""흐림"",
""identifier"": ""A6PG200001.tif"",
""image_height"": 2048,
""image_width"": 2048
}
}
이하생략"
-
데이터셋 구축 담당자
수행기관(주관) : 파나시아
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 박재연 031-220-3710 pjy@panasia.co.kr 데이터 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 데이터에듀 인공지능 학습 모델 쇼우테크 데이터 가공, 데이터 검수 테라픽스 데이터 수집, 데이터 검수 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 박재연 031-220-3710 pjy@panasia.co.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.