콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#생활폐기물 # 재활용 # 이물질 # 복합재질 # 폐기물 선별소 # 실내분류기 # 어플리케이션 # 인공지능

NEW 생활폐기물 데이터 활용·환류

생활폐기물 데이터 활용·환류 아이콘 이미지
  • 분야재난안전환경
  • 유형 이미지
구축년도 : 2022 갱신년월 : 2024-02 조회수 : 6,366 다운로드 : 352 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2024-02-28 데이터 최종 개방
    1.0 2023-05-04 데이터 개방(Beta Version)

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2023-12-22 산출물 전체 공개
    2023-11-08 어노테이션 포맷 및 데이터 구조 문구 수정 box 넓이 -> box 너비

    소개

    이물질과 다중포장재의 유무에 따른 환경 별 캔, 비닐, 종이, 종이팩, 패트, 유리병, 플라스틱, 스티로폼, 건전지 총 9가지로 분류 정의된 AI 학습용 데이터셋

    구축목적

    • 재수집 데이터를 활용한 생활폐기물 영상/이미지 데이터의 확산 및 환류
    • 생활폐기물과 관련된 인공지능 시스템 등의 기술적 활용도를 높이고 생활폐기물 인식 및 분류 인공지능 모델 개발
  • ◇ 데이터 통계 

       ⦁데이터 구축 규모

        - 최종 인공지능 데이터: 1280*720이상 이미지 551,562만 장, 어노테이션 json파일 551,562건
         > 재활용 선별장 이미지 78GB /  실내형분류기 이미지 20GB / 어플리케이션 이미지 570GB
         > bounding box 및 라벨 부착, 약 160만건의 annotation 수행

     

    구축데이터 데이터 수집 방법 목표 수량 데이터 분류 원천 데이터  라벨링 데이터
    형식 형식
    재활용 선별장 ⦁선별소를 방문하여 촬영기기 설치 200,000 222,835 영상 jpg, jepg, png json
    ⦁영상 촬영 후 이미지 분할 작업 진행
    실내형 분류기 ⦁실내용 분류기에 생활 폐기물을 직접 넣어서 촬영함 100,000 127,844 이미지
    어플리케이션 ⦁어플리케이션을 이용하여 생활 폐기물을 직접 촬영함 200,000 200,883
    Total   500,000 551,562  

     

    데이터 분포

    NO 구분 label 기준 label_count
    1 재활용 c_1 종이 64087
    2 c_2_01 종이팩 16116
    3 c_2_02 종이컵 13531
    4 c_3 캔류 68258
    5 c_4_01_02 재사용 유리 (소주병+맥주병) 8551
    6 c_4_02_01_02 갈색 유리 9153
    7 c_4_02_02_02 녹색 유리 9378
    8 c_4_02_03_02 백색 유리 9490
    9 c_4_03 기타 유리 10480
    10 c_5_02 페트 53243
    11 c_6 플라스틱 291622
    12 c_7 비닐 89334
    13 일반쓰레기 이물질 c_1_01 종이 + 이물질 10466
    14 c_2_02_01 종이컵 + 이물질 21673
    15 c_3_01 캔 + 이물질 14646
    16 c_4_03_01 기타유리 + 이물질 11521
    17 c_5_01_01 페트 + 이물질 + 다중포장재 127489
    18 c_5_02_01 페트 + 이물질 22964
    19 c_6_01 플라스틱 + 이물질 305772
    20 c_7_01 비닐 + 이물질 14197
    21 다중포장재 c_4_01_01 재사용 유리 (소주병+맥주병) + 다중포장재 12853
    22 c_4_02_01_01 갈색 유리 + 다중포장재 12529
    23 c_4_02_02_01 녹색 유리 + 다중포장재  8832
    24 c_4_02_03_01 백색 유리 + 다중포장재 11036
    25 c_5_01 페트 + 다중포장재 282538
    26 별도 c_8_01 흰색 스티로폼 10033
    27 c_8_02 컬러 스티로폼 9577
    28 c_8_01_01 스티로폼 + 이물질 11228
    29 c_9 건전지 23235
      총합 1553832

     

    데이터 분포 차트

  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    모델학습 

    - 활용품 탐지 모델 및 일반쓰레기 탐지 모델 개발

    - 데이터 : 재활용품 탐지 모델 : 366,993 set / 일반쓰레기 탐지 모델 : 372,610 set
    (1개의 set에 재활용품 탐지 모델과 일반 쓰레기 탐지 모델에 포함되는 클래스가 함께 있는 경우 각 모델에 맞춰 클래스만 추출하여 사용 진행)

     

    ● Train:Val:Test 비율은 8:1:1 (클래스 기준) 으로 분할

     

    ● 활용 모델 : Yolov7

     

    ● 실제 재활용 선별장에서 사용되는 컨베이어 벨트 등 실시간으로 재활용품 및 일반쓰레기를 탐지하기 위하여 Real-Time-Object-Detect으로 많은 활용이 되고 있으며 이미지 처리 시간 및 성능이 우수한 Yolov7 알고리즘 사용

     

    ● Yolov7은 실시간 물체 탐지에서 추론 비용을 증가시키지 않고 정확도를 향상 시킬수 있는 Trainable bag-of-freebies를 제안하고 E-ELAN(Extended Efficient Layer Aggregation Networks)와 복합 스케일링(Compound Scaling)을 활용하여 Gradient Path를 효율적으로 제어하고 네트워크를 효과적으로 학습


    ● E-ELAN : 
     1. Computational Block들에 대해 Channel 수를 Multiplier하는 Group Conv를 적용
     2. CSP로 나눠진 Feature와 Computational Block의 Output Feature들이 Shuffle 후 Concatenate
     3. Merge Cardinality 수행

    E-ELAN

     

    ● Compound Scaling: 
     1. Computational Block에만 Depth Scaling up을 적용하고 Output Channel 변경
     2. Output Channel이 늘어났으므로 Transition Layer의 Width Scaling up 적용
     3. Partial 부분의 Input은 동일하게 Width Scaling up

    Compound Scaling

     

    서비스 활용 시나리오


    ● 소스 공개를 통한 데이터 활용
     - 생활폐기물 데이터를 활용하고자 하는 개인부터 기업까지 누구나 사용 가능한 데이터셋을 구축하여 제공하고자 하며, 적절한 연구 승인을 받은 연구자에게 AI hub를 통해 필요한 데이터 및 알고리즘의 사용이 가능하도록 ㈜서르가 지원함

     

    ● 생활폐기물 관련 데이터 고도화 지원
     - 폐기물 전문가 검수를 통해 제공되는 데이터는 이전에 제공되고 있는 데이터보다 오류율을 감소시키고, 활용도가 높은 데이터로 관련 기술 개발의 고도화를 지원할 수 있음

     

    ● 생활폐기물 선별소 인공지능 기술 지원
     - 공공 및 사설 폐기물 선별소에서 관련 기술을 활용하여 새로운 기계 장치 및 서비스를 설계하는 경우, 데이터 활용 방법, 알고리즘 고도화 및 적용 등을 지원함으로서 구축된 데이터 사용의 확대를 추진함

     

    ● 기술 사업화 추진
     - 이번 구축된 데이터는 ㈜서르에서 자체적으로 추진하고 있는 폐기물 선별기 고도화에 활용하고자 하며, 해외보다 우수한 기계장치를 개발하여 기술의 국산화 및 해외 수출을 추진하고자 함
     

  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 재활용품 분류 성능 Image Classification YOLO v7 mAP 90 % 94.2 %
    2 일반 쓰레기 분류 성능 Image Classification YOLO v7 mAP 85 % 93.2 %

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    데이터 포맷

    ● 기본 포맷 : 원천데이터(jpg,jpeg,png)  / 라벨링데이터(JSON)

    구분 No 속성명 속성 및 내용
    선택 1 objects.id 라벨링 시 부여되는 이미지당 id
    선택 2 objects.class_id 라벨링 시 부여되는 어노테이션당 id
    선택 3 objects.tracking_id 이미지 번호
    필수 4 objects.class_name 클래스명
    필수 5 objects.annotation_type 어노테이션 타입
    필수 6 annotation.coord.x box의 좌측상단x좌표
    필수 7 annotation.coord.y box의 좌측상단 y 좌표
    필수 8 annotation.coord.width box의 너비
    필수 9 annotation.coord.height box의 높이
    선택 10 annotation.meta.z_index box의 생긴 순서
    선택 11 annotation.meta.visible box의 visible 여부
    선택 12 annotation.meta.alpha 특정 번호
    선택 13 annotation.meta.color box의 색상
    선택 14 objects.properties 객체의 속성
    선택 15 categories.properties box의 속성
    필수 16 Image 이미지 이름
    필수 17 Info.PLACE 실내/실외
    필수 18 Info.GPS GPS 좌표
    필수 19 Info.ADDRESS 주소
    필수 20 Info.METHOD 촬영방법
    필수 21 Info.DATE 촬영날짜 및 시간
    필수 22 Info.DAY/NIGHT 주간/야간
    필수 23 Info.DEVICE 촬영장비
    필수 24 Info.BRAND 촬영브랜드
    필수 25 Info.RESOLUTION 이미지 해상도
    필수 26 Info.COLOR 이미지 컬러값
    필수 27 Info.ROTATE 이미지 회전값
    필수 28 Info.EXPOSURE 이미지 노출값
    필수 29 Info.ISO 이미지 ISO값

     

    json형식 

    json 형식

     

    데이터 구성

    분류1 분류2 분류 3 Format
    (데이터 수집 방법) (수집날짜) (번호)
    A1~A9 / B1~B10 / C ex)20220101 ex)00001 jpg,jpeg,png
    A1~A9 / B1~B10 / C ex)20220101 ex)00001 json

     

    생활폐기물 데이터 활용·환류 데이터 파일 구조

    [생활폐기물 데이터 활용·환류 데이터 파일 구조]

     

    어노테이션 포맷

    구분 속성명 타입 필수여부 설명 범위 비고
    1 objects array Y      
      1-1 objects.id string N 라벨링 시 부여되는 이미지당 id    
    1-2 objects.class_id string N 라벨링 시 부여되는 어노테이션당 id    
    1-3 objects.tracking_id number N 이미지 번호    
    1-4 objects.class_name string Y 클래스명    
    1-5 objects.annotation_type string Y 어노테이션 타입    
    1-6 objects.annotation object Y      
      1-6-1 annotation[].coord object Y      
      1-6-1-1 annotation[].coord[].x number Y box의 좌측상단x좌표    
    1-6-1-2 annotation[].coord[].y number Y box의 좌측상단 y 좌표    
    1-6-1-3 annotation[].coord[].width number Y box의 너비    
    1-6-1-4 annotation[].coord[].height number Y box의 높이    
    1-6-2 annotation[].meta object N      
      1-6-2-1 annotation[].meta[].z_index number N box의 생긴 순서    
    1-6-2-2 annotation[].meta[].visible boolean N box의 visible 여부    
    1-6-2-3 annotation[].meta[].alpha number N 특정 번호    
    1-6-2-4 annotation[].meta[].color string N box의 색상    
    1-7 objects.properties array N 객체의 속성    
    2 categories object N      
      2-1 categories.properties array N box의 속성    
    3 Image string Y 이미지 이름    
    4 Info object Y      
      4-1 Info.PLACE string Y 실내/실외    
    4-2 Info.GPS string Y GPS 좌표    
    4-3 Info.ADDRESS string Y 주소    
    4-4 Info.METHOD string Y 촬영방법    
    4-5 Info.DATE string Y 촬영날짜 및 시간    
    4-6 Info.DAY/NIGHT string Y 주간/야간    
    4-7 Info.DEVICE string Y 촬영장비    
    4-8 Info.BRAND string Y 촬영브랜드    
    4-9 Info.RESOLUTION string Y 이미지 해상도    
    4-10 Info.COLOR number Y 이미지 컬러값    
    4-11 Info.ROTATE number Y 이미지 회전값    
    4-12 Info.EXPOSURE string Y 이미지 노출값    
    4-13 Info.ISO number Y 이미지 ISO값    

     

    실제 예시

    실제 예시

  • 데이터셋 구축 담당자

    수행기관(주관) : 주식회사 서르
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    전승혁 070-5066-0525 jeon_sh@seoreu.com 연구의 총괄 기획, 데이터 수집/정제/검수, 데이터 품질 관리
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    경북대학교 산학협력단 알고리즘 제작, 데이터셋 품질 검증
    ㈜슈퍼브에이아이 라벨링 데이터 매뉴얼 설계, 데이터 가공
    사단법인 한국폐기물협회 데이터 수집 지원, 데이터 검수
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    전승혁 070-5066-0525 jeon_sh@seoreu.com
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.