콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#환경

BETA 대기오염 배출원 공간 분포 데이터

대기오염 배출원 공간 분포 데이터 아이콘 이미지
  • 분야재난안전환경
  • 유형 이미지
  • 생성 방식LMM
구축년도 : 2024 갱신년월 : 2025-04 조회수 : 156 다운로드 : 1 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2025-04-16 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2025-04-16 산출물 전체 공개

    소개

    초거대 AI 기술을 적용하여 한국, 중국 일부 지역을 대상으로 대기오염 배출원(굴뚝탐지와 높이, 산업단지, 시가지)을 추정하는 데이터의 구축

    구축목적

    국내 대기환경에 영향을 주는 오염원 탐지를 AI로 분석하기 위한 대기오염 배출원 데이터로 굴뚝탐지 및 높이, 대규모 산업단지 및 시가지 예측 기술 개발
  • 1. 데이터 구축 규모
     - 1m 이하 해상도 Kompsat 3/3A 위성영상 원천데이터를 활용하여 굴뚝탐지(바운딩박스, JSON) 10,065장, 굴뚝높이(라인, JSON) 10,065장을 구축
     - 10m 해상도 Sentinel-2 위성영상 원천데이터를 활용하여 산업단지(세그멘테이션, TIF) 10,000장을 구축
     - 30m 해상도 Landsat 8/9 위성영상 원천데이터를 활용하여 시가지(세그멘테이션, TIF) 5,000장을 구축

    1. 데이터 구축 규모
    데이터종류 구분 해상도 위성영상 학습데이터크기 형식 수량 (장)
    대기오염 배출원
    공간 분포 데이터
    굴뚝탐지 1m 이하 Kompsat 3/3A 512×512 JSON 10,065
    굴뚝높이 1m 이하 Kompsat 3/3A 512×512 JSON 10,065
    산업단지 10m Sentinel-2 512×512 TIF 10,000
    시가지 30m Landsat 8/9 256×256 TIF 5,000
    총계 35,130

     

    2. 데이터 분포
     - 클래스 분포

    2. 데이터 분포- 클래스 분포
    데이터종류 구분 수량 비율
    대기오염 배출원
    공간 분포 데이터
    굴뚝탐지 10,065 28.65%
    굴뚝높이 10,065 28.65%
    산업단지 10,000 28.47%
    시가지 5,000 14.23%
    총계 35,130 100.00%

     - 촬영수단 분포

    2. 데이터 분포- 촬영수단 분포
    데이터종류 구분 수량 비율
    대기오염 배출원
    공간 분포 데이터
    Kompsat 3/3A 10,065 40.16%
    Sentinel-2 10,000 39.90%
    Landsat 8/9 5,000 19.94%
    총계 25,065 100.00%

     - 촬영지역 분포

    2. 데이터 분포- 촬영지역 분포
    데이터종류 구분 수량 비율
    대기오염 배출원
    공간 분포 데이터
    한국 3,000 11.97%
    중국 22,065 88.03%
    총계 25,065 100.00%

     - GEMS 위성영상 수집대상 분포

    2. 데이터 분포- GEMS 위성영상 수집대상 분포
    데이터종류 구분 수량 비율
    대기오염 배출원
    공간 분포 데이터
    중국 산업단지 8,000 53.33%
    한국 산업단지 2,000 13.33%
    중국 시가지 4,000 26.67%
    한국 시가지 1,000 6.67%
    총계 15,000 100%

     - 대기오염 측정망 수집대상 분포

    2. 데이터 분포- 대기오염 측정망 수집대상 분포
    데이터종류 구분 수량 비율
    대기오염 배출원
    공간 분포 데이터
    중국 산업단지 24,000 53.33%
    한국 산업단지 6,000 13.33%
    중국 시가지 12,000 26.67%
    한국 시가지 3,000 6.67%
    총계 45,000 100%

     - 산업단지 분포

    2. 데이터 분포- 산업단지 분포
    데이터종류 구분 수량 비율
    대기오염 배출원
    공간 분포 데이터
    제철제강 3,121 31.21%
    석유화학 5,799 57.99%
    발전소 985 9.85%
    시멘트 95 0.95%
    총계 10,000 100%
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    1. 모델 학습
    본 사업에서는 LMM 연계방안을 고려하여 다양한 해상도의 위성영상자료를 활용하는 멀티모달 AI 알고리즘을 개발함; 1) 굴뚝의 객체를 탐지하고 탐지된 굴뚝의 높이를 추정하는 인공지능 모델 2) 대규모 산업단지를 분류하는 인공지능 모델 3) 시가지를 분류하는 인공지능 모델.

     

    1.1 굴뚝 탐지 및 높이 추론 모델 (YOLOv8 + Regression)
     - 입력데이터: KOMPSAT-3/3A 위성 이미지(512×512픽셀)
     - 라벨데이터 : 굴뚝 객체의 위치를 정의한 바운딩박스 데이터
     - 학습데이터셋 비율 : train:val:test = 8:1:1로 분할

    1.1 굴뚝 탐지 및 높이 추론 모델 (YOLOv8 + Regression)(1)
    굴뚝 탐지 train val test
    수량 8,052 1,006 1,007
    비율 80% 10% 10%
    1.1 굴뚝 탐지 및 높이 추론 모델 (YOLOv8 + Regression)(2)
    굴뚝 높이 train val test
    수량 8,052 1,006 1,007
    비율 80% 10% 10%

     

    1.2 산업단지 분류 모델 (Modified Trans-UNet)
     - 입력데이터: Sentinel-2(512×512픽셀) 이미지, GEMS(64×64픽셀) 이미지, 대기오염 측정망 데이터(64×64픽셀)
     - 라벨데이터 : 산업단지 영역 분류(Semantic Segmentation)를 위해 tif 이미지로 구축
     - 학습데이터셋 비율 : train:val:test = 8:1:1로 분할

    1.2 산업단지 분류 모델 (Modified Trans-UNet)
      train val test
    수량 8,000 1,000 1,000
    비율 80% 10% 10%

     

    1.3 시가지 분류 모델 (Modified Trans-UNet)
     - 입력데이터: Landsat 8/9(256×256픽셀) 이미지, GEMS(64×64픽셀) 이미지, 대기오염 측정망 데이터(64×64픽셀)
     - 라벨데이터 : 시가지 영역 분류(Semantic Segmentation)를 위해 tif 이미지로 구축
     - 학습데이터셋 비율 : train:val:test = 8:1:1로 분할

    1.3 시가지 분류 모델 (Modified Trans-UNet)
      train val test
    수량 4,000 500 500
    비율 80% 10% 10%

     

    2. 서비스 활용 시나리오
     - 본 사업에서 구축한 AI 학습용 데이터셋은 대기오염 현황분석 및 대기오염 관리를 위한 기반 자료로 활용 가능
     - 본 사업에서 구축한 멀티모달 AI 알고리즘은 해상도가 다른 다양한 위성영상 자료를 입력데이터로 활용하여 효과적인 국내외 대기오염 배출원 정보를 구축 가능 
     - 우리나라 대기질에 영향을 주는 대규모 대기오염 배출원인 산업단지와 시가지, 굴뚝을 탐지하는 기술 연구에 적용 및 활용 가능

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    1. 데이터구성
     - 굴뚝탐지

    1. 데이터구성- 굴뚝탐지
    Key Description Type Child Type
    file_name 파일명 string  
    img_id 데이터 식별자 string  
    img_height 높이 string  
    img_width 너비 string  
    img_resolution 원천데이터 해상도 string  
    img_time 원천데이터 촬영일시 string  
    img_provided 데이터 제공기관 string  
    provided_nm 제공기관명 string  
    chi_id 굴뚝ID string  
    rect Bounding Box 좌표 array  

     - 굴뚝높이

    1. 데이터구성- 굴뚝높이
    Key Description Type Child Type
    file_name 파일명 string  
    img_id 데이터 식별자 string  
    img_height 높이 string  
    img_width 너비 string  
    img_resolution 원천데이터 해상도 string  
    img_time 원천데이터 촬영일시 string  
    img_roll_tilt 좌우 기준 회전각 string  
    img_pitch_tilt 상하 기준 회전각 string  
    img_provided 데이터 제공기관 string  
    provided_nm 제공기관명 string  
    chi_id 굴뚝ID string  
    rect Bounding Box 좌표 array  

     - 산업단지 및 시가지

    1. 데이터구성- 산업단지 및 시가지
    Key Description Type Child Type
    file_name 파일명 string  
    img_id 데이터 식별자 string  
    height 높이 number  
    width 너비 number  
    coordinate_system 데이터 좌표계 string  
    coordinates 데이터 중심점 좌표 string  
    img_type 원천데이터 종류 string  
    img_resolution 원천데이터 해상도 number  
    img_time 원천데이터 촬영일시 number  
    img_provided 데이터 제공기관 string  
    provided_nm 제공기관명 string  
    GEMS GEMS 파일명 string  
    air_pollution 오염물질데이터 파일명 string  
    ann_id 어노테이션 식별자 string  
    ann_kind* 산업단지 유형 string  
    ann_file_type 어노테이션 파일 유형 string  

     

    2. 어노테이션 포맷
     - 굴뚝탐지

    2. 어노테이션 포맷- 굴뚝탐지
    구분 속성명 타입 필수여부 설명 범위 비고
    1 image     원천이미지 정보    
      1-1 file_name string Y 파일명    
    1-2 img_id string Y 데이터 식별자    
    1-3 img_height string Y 높이 512 이미지 사이즈(픽셀)
    1-4 img_width string Y 너비 512 이미지 사이즈(픽셀)
    1-5 img_resolution string Y 원천데이터 해상도 0.55, 0.7 0.55m
    0.7m
    1-6 img_time string Y 원천데이터 촬영일시 YYMMDDHH YY:촬영년도
    MM:촬영월
    DD:촬영일자
    HH:촬영시간
    1-7 img_provided string Y 데이터 제공기관 한국항공우주
    연구원
     
    1-8 provided_nm string Y 제공기관명 한국지능정보
    사회진흥원
     
    2 annotations     어노테이션 정보    
      2-1 chi_id string Y 굴뚝ID    
    2-2 rect array Y Bounding Box 좌표    

     - 굴뚝높이

    2. 어노테이션 포맷- 굴뚝높이
    구분 속성명 타입 필수여부 설명 범위 비고
    1 image     원천이미지 정보    
      1-1 file_name string Y 파일명    
    1-2 img_id string Y 데이터 식별자    
    1-3 img_height string Y 높이 512 이미지 사이즈(픽셀)
    1-4 img_width string Y 너비 512 이미지 사이즈(픽셀)
    1-5 img_resolution string Y 원천데이터 해상도 0.55, 0.7 0.55m
    0.7m
    1-6 img_time string Y 원천데이터 촬영일시 YYMMDDHH YY:촬영년도
    MM:촬영월
    DD:촬영일자
    HH:촬영시간
    1-7 img_roll_tilt string Y 좌우 기준 회전각    
    1-8 img_pitch_tilt string Y 상하 기준 회전각    
    1-9 img_provided string Y 데이터 제공기관 한국항공우주
    연구원
     
    1-10 provided_nm string Y 제공기관명 한국지능정보
    사회진흥원
     
    2 annotations     어노테이션 정보    
      2-1 chi_id string Y 굴뚝 ID    
    2-2 chi_height_m string Y 굴뚝 높이    
    2-3 polyline array Y line 좌표    

     - 산업단지 및 시가지

    2. 어노테이션 포맷- 산업단지 및 시가지
    구분 속성명 타입 필수여부 설명 범위 비고
    1 image     원천이미지 정보    
      1-1 file_name string Y 파일명    
    1-2 img_id string Y 데이터 식별자    
    1-3 height number Y 높이 256,512 이미지 사이즈(픽셀)
    1-4 width number Y 너비 256,512 이미지 사이즈(픽셀)
    1-5 coordinate_system string Y 데이터 좌표계 EPSG:32650,  
    EPSG:32652
    1-6 coordinates string Y 데이터 중심점 좌표    
    1-7 img_type string Y 원천데이터 종류 Sentinel-2, 촬영데이터 종류
    Landsat8/9
    1-8 img_resolution number Y 원천데이터 해상도 10, 30 산업단지 : 10m
    시가지 : 30m
    1-9 img_time number Y 원천데이터 촬영일시 YYMMDDHH YY:촬영년도
    MM:촬영월
    DD:촬영일자
    HH:촬영시간
    1-10 img_provided string Y 데이터 제공기관 ESA, USGS ESA:Copernicus Open Access Hub
    USGS:EarthExplorer
    1-11 provided_nm string Y 제공기관명 한국지능정보
    사회진흥원
     
    1-12 GEMS string Y GEMS 파일명    
    1-13 air_pollution string Y 오염물질데이터 파일명    
    2 annotations     어노테이션 정보    
      2-1 ann_id string Y 어노테이션 식별자    
    2-2 ann_kind* string Y 산업단지 유형 “발전소”, “제철제강”, “시멘트”, “석유화학”  
    2-3 ann_file_type string Y 어노테이션 파일 유형 TIF  

    * ann_kind는 산업단지 중에서 발전소, 제철제강, 시멘트, 석유화학 유형을 나타내며, 메타데이터 정보 중에서 산업단지만 해당함

     

    3. 데이터 포맷
     - 굴뚝탐지

    3. 데이터 포맷- 굴뚝탐지
    원천데이터 원천데이터 Bounding box
    굴뚝탐지 원천데이터 굴뚝탐지 원천데이터 Bounding box
    라벨 데이터(json)
    굴뚝탐지 라벨 데이터(json)

     - 굴뚝높이

    3. 데이터 포맷- 굴뚝높이
    원천데이터 원천데이터 Bounding box
    굴뚝높이 원천데이터 굴뚝높이 원천데이터 Bounding box
    라벨 데이터(json)
    굴뚝높이 라벨 데이터(json)

     - 산업단지

    3. 데이터 포맷- 산업단지
    데이터정보
    원천데이터 파일명 SN10_CHN_00001_230409.tif
    원천데이터 식별자 SN10_CHN_00001_230409
    원천데이터 높이 512
    원천데이터 너비 512
    데이터 좌표계 EPSG:32650
    데이터 중심점 좌표 4,703,803,963,440
    원천데이터 종류 Sentinel-2
    원천데이터 해상도 10
    원천데이터 촬영일시 23040911
    데이터 제공기관 ESA
    제공기관명 한국지능정보사회진흥원
    GEMS 파일명 GEMS_SN10_CHN_00001_230409.tif
    오염물질데이터 파일명 AIR_Pollution_CO_SN10_CHN_00001_230409.tif, AIR_Pollution_NO2_SN10_CHN_00001_230409.tif, AIR_Pollution_SO2_SN10_CHN_00001_230409.tif
    어노테이션 식별자 SN10_CHN_00001_230409
    산업단지 유형 시멘트
    어노테이션 파일 유형 TIF

     - 시가지

    3. 데이터 포맷- 시가지
    데이터정보
    원천데이터 파일명 LS30_CHN_00001_230427.tif
    원천데이터 식별자 LS30_CHN_00001_230427
    원천데이터 높이 256
    원천데이터 너비 256
    데이터 좌표계 EPSG:32650
    데이터 중심점 좌표 8,671,653,476,445
    원천데이터 종류 Landsat 8/9
    원천데이터 해상도 30
    원천데이터 촬영일시 23042711
    데이터 제공기관 USGS
    제공기관명 한국지능정보사회진흥원
    GEMS 파일명 GEMS_LS30_CHN_00001_230427.tif
    오염물질데이터 파일명 AIR_Pollution_CO_LS30_CHN_00001_230427.tif, AIR_Pollution_NO2_LS30_CHN_00001_230427.tif, AIR_Pollution_SO2_LS30_CHN_00001_230427.ti
    어노테이션 식별자 LS30_CHN_00001_230427
    어노테이션 파일 유형 TIF

     

    4. 실제예시
     - 굴뚝탐지

    4. 실제예시- 굴뚝탐지
    원천데이터 라벨데이터(json)
    굴뚝탐지 원천데이터(jpg) 굴뚝탐지 라벨데이터(json)

     - 굴뚝높이

    4. 실제예시- 굴뚝높이
    원천데이터 라벨데이터(json)
    굴뚝높이 원천데이터(jpg) 굴뚝높이 라벨데이터(json)

     - 산업단지

    4. 실제예시- 산업단지
    원천데이터 라벨데이터(json)
    산업단지 원천데이터(TIF) 산업단지 라벨데이터(TIF)

     - 시가지

    4. 실제예시- 시가지
    원천데이터 라벨데이터(json)
    시가지 원천데이터(TIF) 시가지 가공데이터(TIF)
  • 데이터셋 구축 담당자

    수행기관(주관) : 네이버시스템㈜
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    한근혁 070-8821-1243 hyouk93@neighbor21.co.kr 총괄 책임
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜이테라 데이터 구축
    ㈜올포랜드 품질검수
    서울시립대학교 산학협력단 모델개발
    한국환경연구원 품질검수 / 홍보
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    한근혁 070-8821-1243 hyouk93@neighbor21.co.kr
    김대영 070-8094-0210 daeyoung_74@naver.com
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    공성현 02-6490-5682 gong961107@uos.ac.kr
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    한근혁 070-8821-1243 hyouk93@neighbor21.co.kr
    김대영 070-8094-0210 daeyoung_74@naver.com
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

오프라인 데이터 이용 안내

본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.

K-ICT 빅데이터센터는 데이터 안심구역으로 지정되어
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.

데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 이용신청 탭 이미지

국방데이터 개방 안내

본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.