※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2025-04-16 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2025-04-16 산출물 전체 공개 소개
재사용 의류, 재활용 의류, 폐기 의류의 선별을 위한 폐의류 이미지 분류, 탐지 및 질의응답 데이터
구축목적
폐의류의 재활용율을 높이기 위한 폐의류 선별 가능한 폐의류 재활용 분류 및 선별 데이터 구축
-
메타데이터 구조표 데이터 영역 재난안전환경 데이터 유형 텍스트 , 이미지 데이터 형식 JPG 데이터 출처 직접 촬영 라벨링 유형 바운딩박스(이미지), 질의응답(자연어) 라벨링 형식 json 데이터 활용 서비스 폐의류의 분류 및 손상, 오염, 부착물 탐지 데이터 구축년도/
데이터 구축량2024년/260,000set -
◯ 데이터 구축 규모
● 총 구축 수량: 원천데이터 260,000개, 라벨링데이터 260,000개, QA 데이터 3개
● 원천데이터 100,000장 및 라벨링데이터 100,000건 데이터 구축 후 YOLOv8, RT-DETR, MDETR 각 모델별 <학습, 검증, 테스트> 데이터 분류
● 폐의류 이미지 1장에 대하여 라벨링 데이터 1개로 구성되며, QA의 경우 별도로 구성됨
● 전체 분류(클래스 구분): 폐의류의 처리 목적에 따라 3종으로 분류
● 클래스 별 수집량: 의복의 형태에 따라서 11종으로 분류◯ 데이터 구축 규모 원천데이터 라벨링데이터 폐의류 이미지 260,000개 폐의류 이미지
바운딩박스260,000개 QA 데이터 3개 ◯ 데이터 분포
◯ 데이터 분포 항목 조건 구분 비율 재사용 의류 FULL DRESS COAT 40% JUMPER COAT SHIRTS BLOUSE TSHIRTS DRESS SKIRT TAILORED PANTS CASUAL PANTS SHORTS 재활용 의류 FULL DRESS COAT 50% JUMPER COAT SHIRTS BLOUSE TSHIRTS DRESS SKIRT TAILORED PANTS CASUAL PANTS SHORTS 폐기 의류 FULL DRESS COAT 10% JUMPER COAT SHIRTS BLOUSE TSHIRTS DRESS SKIRT TAILORED PANTS CASUAL PANTS SHORTS -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드◯ YOLOv8
● 학습모델
- 모델정보: YOLOv8
- 공식홈페이지: https://docs.ultralytics.com/ko/
- 깃헙: https://github.com/ultralytics/ultralytics● 학습모델 정보
- Ultralytics의 최신 버전인 YOLOv8. 이 모델은 딥러닝과 컴퓨터 비전의 최신 발전을 바탕으로 구축되었으며, 속도와 정확성 면에서 뛰어난 성능을 제공. 간결한 설계로 인해 다양한 애플리케이션에 적합하며, 엣지 디바이스에서부터 클라우드 API에 이르기까지 다양한 하드웨어 플랫폼에 쉽게 적응 가능.● 라이센스
- Ultralytics는 다양한 사용 사례에 맞춰 두 가지 라이선스 옵션을 제공.
- AGPL-3.0 라이선스: 이 OSI 승인 오픈 소스 라이선스는 학생 및 애호가에게 이상적. 오픈 협력과 지식 공유를 촉진. 자세한 내용은 라이선스 파일을 참조.
- 기업 라이선스: 상업적 사용을 위해 설계된 이 라이선스는 Ultralytics 소프트웨어 및 AI 모델을 상업적 제품 및 서비스에 원활하게 통합할 수 있게 하여 AGPL-3.0의 오픈 소스 요건을 우회. 상업적 제공물에 솔루션을 내장하는 시나리오에 관여하는 경우 Ultralytics 라이선싱을 통해 문의 필요.
- 라이센스 가이드라인: https://github.com/ultralytics/ultralytics/blob/main/LICENSE● 사용 가이드
[모드 요약]
- Train 모드: 사용자 맞춤 또는 사전 로드된 데이터셋 위에서 모델을 튜닝.
- Val 모드: 트레이닝 후 모델 성능을 검증하기 위한 체크포인트.
- Predict 모드: 실세계 데이터에서 모델의 예측.
- Export 모드: 다양한 포맷으로 모델을 배포 준비 상태로 추출.
- Track 모드: 객체 탐지 모델을 실시간 추적 애플리케이션으로 확장.
- Benchmark 모드: 다양한 배포 환경에서 모델의 속도와 정확도를 분석.
*자세한 사항은 공식 문서 참조: https://docs.ultralytics.com/ko/modes/
◯ RT-DETR
● 학습모델
- 모델정보: RT-DETR
- 깃헙: https://github.com/lyuwenyu/RT-DETR● 학습모델 정보
- RT-DETR(Real-Time DEtection TRansformer)은 실시간 객체 탐지를 위한 엔드투엔드 트랜스포머 기반 모델로, 높은 정확도를 유지하면서도 실시간 성능을 제공. NMS(Non-Maximum Suppression) 없이도 객체를 직접 예측할 수 있어 기존 모델보다 속도와 정확도 면에서 우수한 성능 보임.
- 스케일 내 상호 작용과 스케일 간 융합을 분리하여 멀티스케일 특징을 효율적으로 처리● 라이센스
- Apache License 2.0 : 소스 코드의 사용, 수정, 배포가 허용되며, 이를 상업적 목적으로도 활용할 수 있음
- 기업 라이선스: Apache License 2.0의 조건을 준수하여 소프트웨어를 사용하고 배포. 수정된 코드나 파생 제품을 배포할 경우, 변경 사항을 명확히 하고 원저작자에 대한 크레딧을 표시. 상표 사용에 대한 권한을 부여하지 않으므로, 원저작자의 상표나 로고를 사용할 때는 별도의 허가가 필요할 수 있음
- 라이센스 가이드라인: https://olis.or.kr/images/egovframework/olisImage/common/OpensourceSW_License_Guide.pdf● 사용 가이드
[모드 요약]
- Train 모드: 사사전 준비된 실시간 데이터 또는 사전 구축된 데이터셋을 이용하여 RT-DETR 모델의 성능을 조정 및 튜닝
- Val 모드: 트학습 후 모델의 성능을 확인하기 위해 체크포인트에서 검증을 수행
- Predict 모드: 실제 데이터를 입력받아 RT-DETR 모델의 예측 결과를 출력
- Export 모드: 학습된 모델을 ONNX 등 다양한 형식으로 변환하여 배포 또는 복원 준비
- Benchmark 모드: RT-DETR 모델이 다양한 배포 환경에서 실행될 때의 속도와 성능(정확도)을 분석
- 자세한 내용은 RT-DETR 깃헙 문서 참조: https://github.com/lyuwenyu/RT-DETR
◯ MDETR
● 학습모델
- 모델정보: MDETR
- 홈페이지: https://ashkamath.github.io/mdetr_page/
- 깃헙: https://github.com/ashkamath/mdetr● 학습모델 정보
- RMDETR(Modulated Detection for End-to-End Multi-Modal Understanding)는 이미지와 텍스트의 조합을 통해 객체를 탐지하는 엔드투엔드 모델로 트랜스포머 기반 아키텍처를 활용하여 이미지와 텍스트를 초기 단계에서 융합하고, 이를 통해 다양한 멀티모달 이해 작업에서 우수한 성능을 보임
- 트랜스포머 기반 구조를 사용하여 이미지와 텍스트를 초기 단계에서 융합하며, 이를 통해 두 가지 모달리티 간의 공동 추론이 가능● 라이센스
- Apache License 2.0 : 소스 코드의 사용, 수정, 배포가 허용되며, 이를 상업적 목적으로도 활용할 수 있음
- 기업 라이선스: Apache License 2.0의 조건을 준수하여 소프트웨어를 사용하고 배포. 수정된 코드나 파생 제품을 배포할 경우, 변경 사항을 명확히 하고 원저작자에 대한 크레딧을 표시. 상표 사용에 대한 권한을 부여하지 않으므로, 원저작자의 상표나 로고를 사용할 때는 별도의 허가가 필요할 수 있음
- 라이센스 가이드라인: https://github.com/ashkamath/mdetr/blob/main/LICENSE● 사용 가이드
[모드 요약]
- Train 모드: 주어진 텍스트-이미지 쌍 데이터셋을 사용하여 MDETR 모델을 학습. 텍스트와 이미지 간의 상호 연관성을 학습하여 정확한 객체 탐지와 관계 추론을 수행
- Val 모드: 학습된 모델의 성능을 평가하기 위해 별도의 검증 데이터셋을 사용
- Predict 모드: 학습된 MDETR 모델을 사용하여 새로운 텍스트-이미지 입력에 대한 객체 탐지 및 관계 추론 결과를 생성
- Export 모드: 학습된 모델을 ONNX 등 다양한 형식으로 변환하여 배포 및 추론에 활용할 수 있도록 준비
- 자세한 사항은 깃헙 문서 참조: https://github.com/ashkamath/mdetr -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드◯ 폐의류 분류 현장에서 폐의류 이미지 촬영
[ 재사용 의류 예시 ] [ 재활용 의류 예시 ] [ 폐기 의류 예시 ] ◯ 라벨러를 통한 폐의류 이미지 바운딩박스 라벨링
[ 재사용 의류 예시 ] [ 재활용 의류 예시 ] [ 폐기 의류 예시 ] ◯ 재사용 의류 라벨링 어노테이션 포맷
◯ 재사용 의류 라벨링 어노테이션 포맷 항목명 타입 필수 구분 항목 설명 예시 meta_information Object 필수 객체 속성 정보 - big_category String 필수 카테고리 유형 reusable medium_category string 필수 2차 분류 skirt filename string 필수 원천데이터 이름 "RU_SK_00001.jpg" id number 필수 이미지 번호 1 color_type String 필수 의류 컬러 “white“,... color_rgb String 필수 의류 컬러값 [255, 255, 255],... gender string 필수 남성용/여성용/공용 female camera_id string 필수 카메라 id c01 location_id string 필수 수집 장소 id l01 date number 필수 촬영일자 2024.06.15 format string 필수 포맷 jpg width number 필수 이미지 가로길이 3000 height number 필수 이미지 세로길이 4000 device string 필수 촬영 기기 정보 galaxy s20 ultra image_caption Object 필수 캡션 속성 - caption String 필수 이미미 캡션 작성 “파란색의 여성용 스커트로 출퇴근용으로 입을 수 있다” annotations Object 필수 라벨링 속성 - bbox_clolthes array 필수 의류 영역
바운딩박스 좌표[300, 300, 500, 500] ◯ 재활용 의류 라벨링 어노테이션 포맷
◯ 재활용 의류 라벨링 어노테이션 포맷 항목명 타입 필수 구분 항목 설명 예시 meta_information Object 필수 객체 속성 정보 - big_category String 필수 카테고리 유형 recycle medium_category string 필수 2차 분류 tshirt filename string 필수 원천데이터 이름 "RC_TS_00001.jpg" id number 필수 이미지 번호 1 color_type String 필수 의류 컬러 “white“,... color_rgb String 필수 의류 컬러값 [255, 255, 255],... gender string 필수 남성용/여성용/공용 uni at_exist boolean - 부착물 유무 TRUE camera_id string 필수 카메라 id c01 location_id string 필수 수집 장소 id l01 date number 필수 촬영일자 2024.06.15 format string 필수 포맷 jpg width number 필수 이미지 가로길이 3000 height number 필수 이미지 세로길이 4000 device string 필수 촬영 기기 정보 galaxy s20 ultra image_caption Object 필수 캡션 속성 - caption String 필수 이미미 캡션 작성 “소매 부분이 찢어져 있는 흰색의 남녀 공용 티셔츠로 단추가 달려있어 후처리 공정을 거쳐 다운사이클로 재활용된다 ” annotations Object 필수 라벨링 속성 - bbox_clolthes array 필수 의류 영역
바운딩박스 좌표[300, 300, 500, 500] bbox_dm Object 필수 손상 라벨링 속성 “찢어짐” damage array 필수 손상 라벨링 바운딩박스 좌표값 [300, 300, 500, 500] bbox_at Object - 부착물 라벨링 속성 “단추” attachment array - 부착물 라벨링 바운딩박스 좌표값 [300, 300, 500, 500] ◯ 폐기 의류 라벨링 어노테이션 포맷
◯ 폐기 의류 라벨링 어노테이션 포맷 항목명 타입 필수 구분 항목 설명 예시 meta_information Object 필수 객체 속성 정보 - big_category String 필수 카테고리 유형 dipose medium_category string 필수 2차 분류 tshirt filename string 필수 원천데이터 이름 "DP_TS_00001.jpg" id number 필수 이미지 번호 1 color_type String 필수 의류 컬러 “white“,... color_rgb String 필수 의류 컬러값 [255, 255, 255],... gender string 필수 남성용/여성용/공용 uni camera_id string 필수 카메라 id c01 location_id string 필수 수집 장소 id l01 date number 필수 촬영일자 2024.06.15 format string 필수 포맷 jpg width number 필수 이미지 가로길이 3000 height number 필수 이미지 세로길이 4000 device string 필수 촬영 기기 정보 galaxy s20 ultra image_caption Object 필수 캡션 속성 - caption String 필수 이미미 캡션 작성 “남성용 핑크색 셔츠로 가슴 쪽에 외부 오염으로 인해 소각되어 폐기될 것이다” annotations Object 필수 라벨링 속성 - bbox_clolthes array 필수 의류 영역
바운딩박스 좌표[300, 300, 500, 500] bbox_po Object 필수 손상 라벨링 속성 “외부오염” pollution array 필수 손상 라벨링 바운딩박스 좌표값 [300, 300, 500, 500] ◯ QA 어노테이션 포맷
◯ QA 어노테이션 포맷 항목 항목명 타입 필수 구분 항목 설명 예시 image file_name String 필수 이미지 파일 이름 RC_TS_02312.jpg height int 필수 이미지 세로 길이 4000 width int 필수 이미지 가로 길이 3000 caption_id int 필수 caption에 부여된 고유 ID값 10 original_id int 필수 확장자를 제외한 고유 ID값 RC_TS_02312 caption String 필수 이미지 질문 캡션 이 의류에는 손상이 존재하는가? tokens_negative int 필수 토큰수 [0, 17] dataset_name String 필수 데이터셋의 이름 gqa question_type String 필수 질문의 유형 attr answer String 필수 질문에 대한 짧은 답변 네 full_answer String 필수 질문에 대한 긴 답변 찢어짐과 헤짐이 있다 questionId int 필수 질문에 부여한 고유 ID값 1 annotation area int 필수 Bbox의 면적 60000 bbox List 필수 바운딩 박스의 좌표 [100, 150, 200, 300] Image_id int 필수 이미지의 고유 ID 10 tokens_positive List 필수 이미지에서 주목해야 하는 특정 부분에 해당하는 텍스트 [7, 9] annotations_id int 필수 어노테이션 고유 식별 ID 1 iscrowd int 필수 객체가 개별인지 군집인지 여부 (0: 개별, 1: 군집) 0 category_id int 필수 객체의 유형을 나타내는 ID 1 -
데이터셋 구축 담당자
수행기관(주관) : DYETEC연구원
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 최윤성 053-350-3744 cys@dyetec.or.kr 총괄, 데이터 정제, 가공 수행기관(참여)
수행기관(참여) 기관명 담당업무 케이솔루션즈 데이터 가공, 검수, AI 모델 개발 세진플러스 데이터 수집 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김형균 02-6415-2238 hkkim@ksolution.kr 김동현 053-350-3735 dhkim@dyetec.or.kr AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 김형균 02-6415-2238 hkkim@ksolution.kr 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 김형균 02-6415-2238 hkkim@ksolution.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.
국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.