-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2021-06-25 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2022-12-21 샘플데이터 삭제 2022-10-06 저작도구 설치매뉴얼 재등록 소개
수질 및 오염원 관리 AI 활용 서비스 개발을 위한 수질 측정(수소, 수소 이온 등) 및 5대 오염원(인구, 축산, 토지, 양식장, 산업 폐수) 데이터
구축목적
민간·공공의 수요를 기반으로 양질의 AI 데이터를 대규모로 구축·공개하고 활용을 촉진하여 AI데이터 선순환 생태계 조성
-
메타데이터 구조표 데이터 영역 재난안전환경 데이터 유형 센서 , 텍스트 데이터 형식 데이터 출처 라벨링 유형 라벨링 형식 데이터 활용 서비스 데이터 구축년도/
데이터 구축량2020년/14,900만 -
구축 내용 및 제공 데이터량
구축 내용 및 제공 데이터량 표 구분 구축 내용 제공 데이터량 물환경측정망 수질측정망, 총량측정망, 자동측정망, 퇴적물측정망
방사성물질측정망, 비점오염물질측정망, KRF지형지표272,406,401 인구, 가구 및
주택 통계전국규모의 인구, 가구, 주택 통계 100,089 수질TMS 수도권, 영남권, 충청권, 호남권의 공공하수, 공공폐수,
폐수배출 시설의 방류 수질 측정89,439,324 녹조(조류)모니터링 강, 호수의 녹조 및 조류 측정 자료 14,276,928 수리, 수문, 기상 하천 수면 높이, 하천물 부피 및 강우량 측정 224,802,163 전국 오염원
조사자료생활계, 축산계, 산업계, 토지계, 양식계, 매립계,
환경기초시설현황, 기타수질오염원 조사146,547,822 기상자료(AWS) 기상관측 장비로 관측한 시간 기상자료 11,257,980 종관기상관측
(ASOS)지역 기상대의 모든 관측소에서 같은 시각에 실시하는 지상관측 2,386,937 합계 761,217,644 -
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 수질예측 (한강) Prediction RNN NSE 단위없음 0.93 단위없음 2 수질예측 (한강) Prediction RNN NSE 단위없음 0.77 단위없음 3 수질예측 (한강) Prediction RNN NSE 단위없음 0.81 단위없음 4 수질예측 (한강) Prediction RNN NSE 단위없음 0.6 단위없음 5 수질예측 (한강) Prediction RNN NSE 단위없음 0.81 단위없음 6 수질예측 (낙동강) Prediction RNN NSE 단위없음 0.58 단위없음 7 수질예측 (낙동강) Prediction RNN NSE 단위없음 0.71 단위없음 8 수질예측 (낙동강) Prediction RNN NSE 단위없음 0.83 단위없음 9 수질예측 (낙동강) Prediction RNN NSE 단위없음 0.6 단위없음 10 수질예측 (낙동강) Prediction RNN NSE 단위없음 0.6 단위없음 11 수질예측 (금강) Prediction RNN NSE 단위없음 0.91 단위없음 12 수질예측 (금강) Prediction RNN NSE 단위없음 0.79 단위없음 13 수질예측 (금강) Prediction RNN NSE 단위없음 0.61 단위없음 14 수질예측 (금강) Prediction RNN NSE 단위없음 0.83 단위없음 15 수질예측 (금강) Prediction RNN NSE 단위없음 0.3 단위없음 16 수질예측 (영산강) Prediction RNN NSE 단위없음 0.7 단위없음 17 수질예측 (영산강) Prediction RNN NSE 단위없음 0.65 단위없음 18 수질예측 (영산강) Prediction RNN NSE 단위없음 0.86 단위없음 19 수질예측 (영산강) Prediction RNN NSE 단위없음 0.4 단위없음 20 수질예측 (영산강) Prediction RNN NSE 단위없음 0.72 단위없음 21 수질예측 (한강) Prediction RNN PBIAS 단위없음 0.15 단위없음 22 수질예측 (한강) Prediction RNN PBIAS 단위없음 -0.99 단위없음 23 수질예측 (한강) Prediction RNN PBIAS 단위없음 -1.79 단위없음 24 수질예측 (한강) Prediction RNN PBIAS 단위없음 6.69 단위없음 25 수질예측 (한강) Prediction RNN PBIAS 단위없음 2.88 단위없음 26 수질예측 (낙동강) Prediction RNN PBIAS 단위없음 0.93 단위없음 27 수질예측 (낙동강) Prediction RNN PBIAS 단위없음 -3.09 단위없음 28 수질예측 (낙동강) Prediction RNN PBIAS 단위없음 4.29 단위없음 29 수질예측 (낙동강) Prediction RNN PBIAS 단위없음 9.6 단위없음 30 수질예측 (낙동강) Prediction RNN PBIAS 단위없음 -0.64 단위없음 31 수질예측 (금강) Prediction RNN PBIAS 단위없음 0.47 단위없음 32 수질예측 (금강) Prediction RNN PBIAS 단위없음 2.19 단위없음 33 수질예측 (금강) Prediction RNN PBIAS 단위없음 -1.08 단위없음 34 수질예측 (금강) Prediction RNN PBIAS 단위없음 -5.35 단위없음 35 수질예측 (금강) Prediction RNN PBIAS 단위없음 -20.96 단위없음 36 수질예측 (영산강) Prediction RNN PBIAS 단위없음 4.54 단위없음 37 수질예측 (영산강) Prediction RNN PBIAS 단위없음 3.45 단위없음 38 수질예측 (영산강) Prediction RNN PBIAS 단위없음 -0.3 단위없음 39 수질예측 (영산강) Prediction RNN PBIAS 단위없음 -3.93 단위없음 40 수질예측 (영산강) Prediction RNN PBIAS 단위없음 -2.8 단위없음
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드데이터 변경이력
수질측정 및 오염원-데이터변경이력 버전 일자 변경내용 비고 1.0 2021.06.25 데이터 최초 개방 구축 목적
- 민간·공공의 수요를 기반으로 양질의 AI 데이터를 대규모로 구축·공개하고 활용을 촉진하여 AI데이터 선순환 생태계 조성
활용 분야
- 전국 단위 수질측정 및 5대 오염원(인구, 축산, 토지, 양식장, 산업폐수) 데이터로, 수질관리와 오염원 관리 자동화 AI 서비스 개발에 활용 가능
소개
- 수질/ 자동/ 총량/ 퇴적물/ 방사성물질/ KRF 등이 포함된 물환경 측정망 수질 측정자료 및 수질 관련 측정자료와 인구·가구/ 전국오염원/ 환경기초시설의 오염원 관련 측정 자료에 대한 데이터 수집 및 정제, 가공. 수집된 데이터를 기준으로 AI학습용 데이터로 설계 및 구축하기 위해 데이터 표준화 및 정규화, 관계형 엔티티 등록 및 구축을 통해 AI 데이터 활용
구축 내용 및 제공 데이터량
구축 내용 및 제공 데이터량 표 구분 구축 내용 제공 데이터량 물환경측정망 수질측정망, 총량측정망, 자동측정망, 퇴적물측정망
방사성물질측정망, 비점오염물질측정망, KRF지형지표272,406,401 인구, 가구 및
주택 통계전국규모의 인구, 가구, 주택 통계 100,089 수질TMS 수도권, 영남권, 충청권, 호남권의 공공하수, 공공폐수,
폐수배출 시설의 방류 수질 측정89,439,324 녹조(조류)모니터링 강, 호수의 녹조 및 조류 측정 자료 14,276,928 수리, 수문, 기상 하천 수면 높이, 하천물 부피 및 강우량 측정 224,802,163 전국 오염원
조사자료생활계, 축산계, 산업계, 토지계, 양식계, 매립계,
환경기초시설현황, 기타수질오염원 조사146,547,822 기상자료(AWS) 기상관측 장비로 관측한 시간 기상자료 11,257,980 종관기상관측
(ASOS)지역 기상대의 모든 관측소에서 같은 시각에 실시하는 지상관측 2,386,937 합계 761,217,644 대표도면
- 1. 데이터셋 구성도
- 2. JSON 파일 포맷 구조 예시
필요성
- 지금까지 AI 데이터들을 이용하여 출입보안, 기계번역 등 다양한 영역에 응용되어왔으나, 본 사업을 통하여 환경오염 관리에 활용 범위를 넓힘
- 우리나라는 AI 학습용 수질 및 오염원 데이터의 축적·개방 활용 수준 미흡
- AI 서비스 기반의 수질예측 데이터의 품질 및 정확성 향상에 대한 객관적 분석 결과를 홍보하여 사용자들의 자발적 도입 및 수질관련 기관과 대학 등 연구기관에 기술 적용에 따른 객관적 분석 결과를 홍보하여 데이터 사용을 희망하는 지자체 담당자나 연구원들이 데이터를 활용할 수 있도록 데이터를 구축하고자 함
데이터 구조
- 수질측정망
수질측정망 데이터 구조 표 데이터_영문 데이터_한글 데이터 타입 항목크기 샘플데이터 해당없음 년도 VARCHAR 4 1992 월 VARCHAR 2 10 회차 VARCHAR 10 1회차 수질측정망 명 VARCHAR 100 소양강댐3 수질측정망 코드 VARCHAR 7 1012B30 위도 DECIMAL 14,6 38.034847 경도 DECIMAL 14,6 127.962744 검사일자 VARCHAR 8 19921022 항목코드 VARCHAR 10 1049 항목 명 VARCHAR 100 화학적산소요구량(COD) 값 DOUBLE 2 항목 정제 여부 VARCHAR 1 1 CAT_ID 집수구역ID VARCHAR 8 10141203 CAT_DID 분할구역ID VARCHAR 10 1014120300
- 메타데이터 구조
: 메타데이터는 측정값으로 정의되는 공통분야와 GIS정보로 정의되는 GIS 메타데이터로 구분하여 관리되고, 측정망 및 항목 기준으로 메타데이터는 정의된다
수질 데이터 메타데이터 목록 표 No 항목 길이 타입 필수여부 비고 영문명 한글명 1 공통_메타데이터_관리 COM_METDATA_MANAGE TABLE 1-1 데이터_명 DATA_NM 300 VARCHAR2 Y 1-2 데이터_정의_내용 DATA_DFN_CN 2000 VARCHAR2 1-3 데이터_분야_내용 DATA_REALM_CN 2000 VARCHAR2 Y 1-4 관리_부서_명 MANAGE_DEFT_NM 300 VARCHAR2 Y 1-5 시작_년도 BEGIN_YEAR 4 VARCHAR2 Y 1-6 종료_년도 END_YEAR 4 VARCHAR2 Y 1-7 생산_주기_구분_명 PRDCTN_CYCLE_SE_NM 300 VARCHAR2 Y 1-8 데이터_형태_내용 DATA_STLE_CN 2000 VARCHAR2 Y 1-9 데이터_크기 DATA_MG NUMBER 1-10 주요_항목_내용 MAIN_IEM_CN 2000 VARCHAR2 Y 1-11 생산_방법_내용 PRDCTN_MTH_CN 2000 VARCHAR2 Y 1-12 비고_내용 RM_CN 2000 VARCHAR2 2 공통_GIS_메타데이터_관리 COM_GIS_METDATA_MANAGE TABLE 2-1 데이터_명 DATA_NM 300 VARCHAR2 Y 2-2 주제_분류_내용 THEMA_CL_CN 2000 VARCHAR2 Y 2-3 기준계_명 REFSYS_NM 300 VARCHAR2 Y 2-4 지리_범위_내용 GRPH_SCOPE_CN 2000 VARCHAR2 Y 2-5 식별_코드 IDNTFC_CODE 10 VARCHAR2 Y 2-6 사용_언어_명 USE_LANG_NM 300 VARCHAR2 Y 2-7 문자셋_내용 CHRSET_CN 2000 VARCHAR2 Y 2-8 요약_내용 SUMRY_CN 2000 VARCHAR2 2-9 생성_일자 CREAT_DE 8 VARCHAR2 Y 2-10 생성_주기_구분_명 CREAT_CYCLE_SE_NM 300 VARCHAR2 Y 2-11 데이터_포맷_명 DATA_FRMAT_NM 300 VARCHAR2 Y 2-12 관리_주기_구분_명 MANAGE_CYCLE_SE_NM 300 VARCHAR2 Y
-
데이터셋 구축 담당자
수행기관(주관) : 시티랩스(舊 데일리블록체인)
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 조영중 031-470-4800 yjcho@citylabs.co.kr · 데이터구축 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 (주)씨이기술 · 원시데이터 확보 및 정제, 가공. 데이터구축 총괄 (주)엔지스 · 원시데이터 확보 및 정제, 가공 (주)파이텍 · 원시데이터 확보 및 정제, 가공 (주)아토스 · 원시데이터 확보 및 정제, 가공. 활용 API 개발 (주)코테크시스템 · AI 모델 및 응용서비스 개발 (주)소다시스템 · 데이터 가공 및 검수 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김대석(씨이기술) 02-6670-4600 dskim@cetech.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.