BETA 대기오염 배출원 공간 분포 데이터
- 분야재난안전환경
- 유형 이미지
- 생성 방식LMM
※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2025-04-16 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2025-04-16 산출물 전체 공개 소개
초거대 AI 기술을 적용하여 한국, 중국 일부 지역을 대상으로 대기오염 배출원(굴뚝탐지와 높이, 산업단지, 시가지)을 추정하는 데이터의 구축
구축목적
국내 대기환경에 영향을 주는 오염원 탐지를 AI로 분석하기 위한 대기오염 배출원 데이터로 굴뚝탐지 및 높이, 대규모 산업단지 및 시가지 예측 기술 개발
-
메타데이터 구조표 데이터 영역 재난안전환경 데이터 유형 이미지 데이터 형식 JPG(Kompsat 3/3A), TIF(Sentinel-2, Landsat 8/9) 데이터 출처 자체수집 : 한국항공우주연구원(Kompsat 3/3A), ESA(Sentinel-2), USGS(Landsat 8/9) 라벨링 유형 바운딩박스(굴뚝탐지), 라인(굴뚝높이), 세그멘테이션(산업단지, 시가지) 라벨링 형식 JSON(굴뚝탐지, 굴뚝높이), TIF(산업단지, 시가지) 데이터 활용 서비스 국내외 대기환경 오염물질의 주요 배출원 및 이동 경로를 파악하기 위한 중요한 기초자료로 활용 데이터 구축년도/
데이터 구축량2024년/원천데이터 25,065장, 60,000건 (Kompsat 10,065장, Sentinel-2 10,000장, Landsat 8/9 5,000장) (GEMS 위성이미지 NO2 월평균(1년) 15,000건, 대기오염측정망 오염물질데이터 NO2, SO2, CO 월평균(1년) 45,000건) 라벨링데이터 35,130장 (굴뚝탐지 10,065장, 굴뚝높이 10,065장, 산업단지 10,000장, 시가지 5,000장) -
1. 데이터 구축 규모
- 1m 이하 해상도 Kompsat 3/3A 위성영상 원천데이터를 활용하여 굴뚝탐지(바운딩박스, JSON) 10,065장, 굴뚝높이(라인, JSON) 10,065장을 구축
- 10m 해상도 Sentinel-2 위성영상 원천데이터를 활용하여 산업단지(세그멘테이션, TIF) 10,000장을 구축
- 30m 해상도 Landsat 8/9 위성영상 원천데이터를 활용하여 시가지(세그멘테이션, TIF) 5,000장을 구축1. 데이터 구축 규모 데이터종류 구분 해상도 위성영상 학습데이터크기 형식 수량 (장) 대기오염 배출원
공간 분포 데이터굴뚝탐지 1m 이하 Kompsat 3/3A 512×512 JSON 10,065 굴뚝높이 1m 이하 Kompsat 3/3A 512×512 JSON 10,065 산업단지 10m Sentinel-2 512×512 TIF 10,000 시가지 30m Landsat 8/9 256×256 TIF 5,000 총계 35,130 2. 데이터 분포
- 클래스 분포2. 데이터 분포- 클래스 분포 데이터종류 구분 수량 비율 대기오염 배출원
공간 분포 데이터굴뚝탐지 10,065 28.65% 굴뚝높이 10,065 28.65% 산업단지 10,000 28.47% 시가지 5,000 14.23% 총계 35,130 100.00% - 촬영수단 분포
2. 데이터 분포- 촬영수단 분포 데이터종류 구분 수량 비율 대기오염 배출원
공간 분포 데이터Kompsat 3/3A 10,065 40.16% Sentinel-2 10,000 39.90% Landsat 8/9 5,000 19.94% 총계 25,065 100.00% - 촬영지역 분포
2. 데이터 분포- 촬영지역 분포 데이터종류 구분 수량 비율 대기오염 배출원
공간 분포 데이터한국 3,000 11.97% 중국 22,065 88.03% 총계 25,065 100.00% - GEMS 위성영상 수집대상 분포
2. 데이터 분포- GEMS 위성영상 수집대상 분포 데이터종류 구분 수량 비율 대기오염 배출원
공간 분포 데이터중국 산업단지 8,000 53.33% 한국 산업단지 2,000 13.33% 중국 시가지 4,000 26.67% 한국 시가지 1,000 6.67% 총계 15,000 100% - 대기오염 측정망 수집대상 분포
2. 데이터 분포- 대기오염 측정망 수집대상 분포 데이터종류 구분 수량 비율 대기오염 배출원
공간 분포 데이터중국 산업단지 24,000 53.33% 한국 산업단지 6,000 13.33% 중국 시가지 12,000 26.67% 한국 시가지 3,000 6.67% 총계 45,000 100% - 산업단지 분포
2. 데이터 분포- 산업단지 분포 데이터종류 구분 수량 비율 대기오염 배출원
공간 분포 데이터제철제강 3,121 31.21% 석유화학 5,799 57.99% 발전소 985 9.85% 시멘트 95 0.95% 총계 10,000 100% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1. 모델 학습
본 사업에서는 LMM 연계방안을 고려하여 다양한 해상도의 위성영상자료를 활용하는 멀티모달 AI 알고리즘을 개발함; 1) 굴뚝의 객체를 탐지하고 탐지된 굴뚝의 높이를 추정하는 인공지능 모델 2) 대규모 산업단지를 분류하는 인공지능 모델 3) 시가지를 분류하는 인공지능 모델.1.1 굴뚝 탐지 및 높이 추론 모델 (YOLOv8 + Regression)
- 입력데이터: KOMPSAT-3/3A 위성 이미지(512×512픽셀)
- 라벨데이터 : 굴뚝 객체의 위치를 정의한 바운딩박스 데이터
- 학습데이터셋 비율 : train:val:test = 8:1:1로 분할1.1 굴뚝 탐지 및 높이 추론 모델 (YOLOv8 + Regression)(1) 굴뚝 탐지 train val test 수량 8,052 1,006 1,007 비율 80% 10% 10% 1.1 굴뚝 탐지 및 높이 추론 모델 (YOLOv8 + Regression)(2) 굴뚝 높이 train val test 수량 8,052 1,006 1,007 비율 80% 10% 10% 1.2 산업단지 분류 모델 (Modified Trans-UNet)
- 입력데이터: Sentinel-2(512×512픽셀) 이미지, GEMS(64×64픽셀) 이미지, 대기오염 측정망 데이터(64×64픽셀)
- 라벨데이터 : 산업단지 영역 분류(Semantic Segmentation)를 위해 tif 이미지로 구축
- 학습데이터셋 비율 : train:val:test = 8:1:1로 분할1.2 산업단지 분류 모델 (Modified Trans-UNet) train val test 수량 8,000 1,000 1,000 비율 80% 10% 10% 1.3 시가지 분류 모델 (Modified Trans-UNet)
- 입력데이터: Landsat 8/9(256×256픽셀) 이미지, GEMS(64×64픽셀) 이미지, 대기오염 측정망 데이터(64×64픽셀)
- 라벨데이터 : 시가지 영역 분류(Semantic Segmentation)를 위해 tif 이미지로 구축
- 학습데이터셋 비율 : train:val:test = 8:1:1로 분할1.3 시가지 분류 모델 (Modified Trans-UNet) train val test 수량 4,000 500 500 비율 80% 10% 10% 2. 서비스 활용 시나리오
- 본 사업에서 구축한 AI 학습용 데이터셋은 대기오염 현황분석 및 대기오염 관리를 위한 기반 자료로 활용 가능
- 본 사업에서 구축한 멀티모달 AI 알고리즘은 해상도가 다른 다양한 위성영상 자료를 입력데이터로 활용하여 효과적인 국내외 대기오염 배출원 정보를 구축 가능
- 우리나라 대기질에 영향을 주는 대규모 대기오염 배출원인 산업단지와 시가지, 굴뚝을 탐지하는 기술 연구에 적용 및 활용 가능 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 데이터구성
- 굴뚝탐지1. 데이터구성- 굴뚝탐지 Key Description Type Child Type file_name 파일명 string img_id 데이터 식별자 string img_height 높이 string img_width 너비 string img_resolution 원천데이터 해상도 string img_time 원천데이터 촬영일시 string img_provided 데이터 제공기관 string provided_nm 제공기관명 string chi_id 굴뚝ID string rect Bounding Box 좌표 array - 굴뚝높이
1. 데이터구성- 굴뚝높이 Key Description Type Child Type file_name 파일명 string img_id 데이터 식별자 string img_height 높이 string img_width 너비 string img_resolution 원천데이터 해상도 string img_time 원천데이터 촬영일시 string img_roll_tilt 좌우 기준 회전각 string img_pitch_tilt 상하 기준 회전각 string img_provided 데이터 제공기관 string provided_nm 제공기관명 string chi_id 굴뚝ID string rect Bounding Box 좌표 array - 산업단지 및 시가지
1. 데이터구성- 산업단지 및 시가지 Key Description Type Child Type file_name 파일명 string img_id 데이터 식별자 string height 높이 number width 너비 number coordinate_system 데이터 좌표계 string coordinates 데이터 중심점 좌표 string img_type 원천데이터 종류 string img_resolution 원천데이터 해상도 number img_time 원천데이터 촬영일시 number img_provided 데이터 제공기관 string provided_nm 제공기관명 string GEMS GEMS 파일명 string air_pollution 오염물질데이터 파일명 string ann_id 어노테이션 식별자 string ann_kind* 산업단지 유형 string ann_file_type 어노테이션 파일 유형 string 2. 어노테이션 포맷
- 굴뚝탐지2. 어노테이션 포맷- 굴뚝탐지 구분 속성명 타입 필수여부 설명 범위 비고 1 image 원천이미지 정보 1-1 file_name string Y 파일명 1-2 img_id string Y 데이터 식별자 1-3 img_height string Y 높이 512 이미지 사이즈(픽셀) 1-4 img_width string Y 너비 512 이미지 사이즈(픽셀) 1-5 img_resolution string Y 원천데이터 해상도 0.55, 0.7 0.55m 0.7m 1-6 img_time string Y 원천데이터 촬영일시 YYMMDDHH YY:촬영년도 MM:촬영월 DD:촬영일자 HH:촬영시간 1-7 img_provided string Y 데이터 제공기관 한국항공우주
연구원1-8 provided_nm string Y 제공기관명 한국지능정보
사회진흥원2 annotations 어노테이션 정보 2-1 chi_id string Y 굴뚝ID 2-2 rect array Y Bounding Box 좌표 - 굴뚝높이
2. 어노테이션 포맷- 굴뚝높이 구분 속성명 타입 필수여부 설명 범위 비고 1 image 원천이미지 정보 1-1 file_name string Y 파일명 1-2 img_id string Y 데이터 식별자 1-3 img_height string Y 높이 512 이미지 사이즈(픽셀) 1-4 img_width string Y 너비 512 이미지 사이즈(픽셀) 1-5 img_resolution string Y 원천데이터 해상도 0.55, 0.7 0.55m 0.7m 1-6 img_time string Y 원천데이터 촬영일시 YYMMDDHH YY:촬영년도 MM:촬영월 DD:촬영일자 HH:촬영시간 1-7 img_roll_tilt string Y 좌우 기준 회전각 1-8 img_pitch_tilt string Y 상하 기준 회전각 1-9 img_provided string Y 데이터 제공기관 한국항공우주
연구원1-10 provided_nm string Y 제공기관명 한국지능정보
사회진흥원2 annotations 어노테이션 정보 2-1 chi_id string Y 굴뚝 ID 2-2 chi_height_m string Y 굴뚝 높이 2-3 polyline array Y line 좌표 - 산업단지 및 시가지
2. 어노테이션 포맷- 산업단지 및 시가지 구분 속성명 타입 필수여부 설명 범위 비고 1 image 원천이미지 정보 1-1 file_name string Y 파일명 1-2 img_id string Y 데이터 식별자 1-3 height number Y 높이 256,512 이미지 사이즈(픽셀) 1-4 width number Y 너비 256,512 이미지 사이즈(픽셀) 1-5 coordinate_system string Y 데이터 좌표계 EPSG:32650, EPSG:32652 1-6 coordinates string Y 데이터 중심점 좌표 1-7 img_type string Y 원천데이터 종류 Sentinel-2, 촬영데이터 종류 Landsat8/9 1-8 img_resolution number Y 원천데이터 해상도 10, 30 산업단지 : 10m 시가지 : 30m 1-9 img_time number Y 원천데이터 촬영일시 YYMMDDHH YY:촬영년도 MM:촬영월 DD:촬영일자 HH:촬영시간 1-10 img_provided string Y 데이터 제공기관 ESA, USGS ESA:Copernicus Open Access Hub USGS:EarthExplorer 1-11 provided_nm string Y 제공기관명 한국지능정보
사회진흥원1-12 GEMS string Y GEMS 파일명 1-13 air_pollution string Y 오염물질데이터 파일명 2 annotations 어노테이션 정보 2-1 ann_id string Y 어노테이션 식별자 2-2 ann_kind* string Y 산업단지 유형 “발전소”, “제철제강”, “시멘트”, “석유화학” 2-3 ann_file_type string Y 어노테이션 파일 유형 TIF * ann_kind는 산업단지 중에서 발전소, 제철제강, 시멘트, 석유화학 유형을 나타내며, 메타데이터 정보 중에서 산업단지만 해당함
3. 데이터 포맷
- 굴뚝탐지3. 데이터 포맷- 굴뚝탐지 원천데이터 원천데이터 Bounding box 라벨 데이터(json) - 굴뚝높이
3. 데이터 포맷- 굴뚝높이 원천데이터 원천데이터 Bounding box 라벨 데이터(json) - 산업단지
3. 데이터 포맷- 산업단지 데이터정보 원천데이터 파일명 SN10_CHN_00001_230409.tif 원천데이터 식별자 SN10_CHN_00001_230409 원천데이터 높이 512 원천데이터 너비 512 데이터 좌표계 EPSG:32650 데이터 중심점 좌표 4,703,803,963,440 원천데이터 종류 Sentinel-2 원천데이터 해상도 10 원천데이터 촬영일시 23040911 데이터 제공기관 ESA 제공기관명 한국지능정보사회진흥원 GEMS 파일명 GEMS_SN10_CHN_00001_230409.tif 오염물질데이터 파일명 AIR_Pollution_CO_SN10_CHN_00001_230409.tif, AIR_Pollution_NO2_SN10_CHN_00001_230409.tif, AIR_Pollution_SO2_SN10_CHN_00001_230409.tif 어노테이션 식별자 SN10_CHN_00001_230409 산업단지 유형 시멘트 어노테이션 파일 유형 TIF - 시가지
3. 데이터 포맷- 시가지 데이터정보 원천데이터 파일명 LS30_CHN_00001_230427.tif 원천데이터 식별자 LS30_CHN_00001_230427 원천데이터 높이 256 원천데이터 너비 256 데이터 좌표계 EPSG:32650 데이터 중심점 좌표 8,671,653,476,445 원천데이터 종류 Landsat 8/9 원천데이터 해상도 30 원천데이터 촬영일시 23042711 데이터 제공기관 USGS 제공기관명 한국지능정보사회진흥원 GEMS 파일명 GEMS_LS30_CHN_00001_230427.tif 오염물질데이터 파일명 AIR_Pollution_CO_LS30_CHN_00001_230427.tif, AIR_Pollution_NO2_LS30_CHN_00001_230427.tif, AIR_Pollution_SO2_LS30_CHN_00001_230427.ti 어노테이션 식별자 LS30_CHN_00001_230427 어노테이션 파일 유형 TIF 4. 실제예시
- 굴뚝탐지4. 실제예시- 굴뚝탐지 원천데이터 라벨데이터(json) - 굴뚝높이
4. 실제예시- 굴뚝높이 원천데이터 라벨데이터(json) - 산업단지
4. 실제예시- 산업단지 원천데이터 라벨데이터(json) - 시가지
4. 실제예시- 시가지 원천데이터 라벨데이터(json) -
데이터셋 구축 담당자
수행기관(주관) : 네이버시스템㈜
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 한근혁 070-8821-1243 hyouk93@neighbor21.co.kr 총괄 책임 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜이테라 데이터 구축 ㈜올포랜드 품질검수 서울시립대학교 산학협력단 모델개발 한국환경연구원 품질검수 / 홍보 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 한근혁 070-8821-1243 hyouk93@neighbor21.co.kr 김대영 070-8094-0210 daeyoung_74@naver.com AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 공성현 02-6490-5682 gong961107@uos.ac.kr 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 한근혁 070-8821-1243 hyouk93@neighbor21.co.kr 김대영 070-8094-0210 daeyoung_74@naver.com
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.
국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.