-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-06 데이터 최종 개방 1.0 2023-06-14 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-12-06 산출물 전체 공개 소개
3D 모델에 부합하는 2D 스케치 데이터 쌍
구축목적
범용성을 가진 3D 에셋 데이터 확보와 사용자 스케치를 활용하여 3D 에셋 검색 등에 활용하기 위한 3D 에셋-스케치 이미지 쌍 데이터 구축
-
메타데이터 구조표 데이터 영역 영상이미지 데이터 유형 이미지 데이터 형식 obj,blend,mtl,png 데이터 출처 자체 제작 라벨링 유형 기타(3D 에셋 데이터에 대응하는 다시점의 2D 스케치이미지 데이터 생성) 라벨링 형식 JSON 데이터 활용 서비스 스케치 기반의 3D 에셋 검색 서비스 데이터 구축년도/
데이터 구축량2022년/3D 에셋 3,180개 / 스케치 이미지 175,587장 -
데이터 규축 규모
데이터 규축 규모 과제명 데이터 구분 데이터 설명 데이터 형식 파일 수 162.3D 에셋-스케치 쌍 데이터 원천데이터 3D 모델링 통합정보 .fbx , .blend 6,360 3D 모델링 메시 .obj 3,180 3D 모델링 텍스처 .mtl , .png 22,681 2D 랜더링 이미지 png 63,600 2D 스케치 이미지 png 175,587 라벨링데이터 3D 에셋 라벨 json 3,180 2D 랜더링 라벨 json 3,180 2D 스케치 라벨 json 175,587 데이터 분포
데이터 분포 항목명 설명 분포 클래스당 스케치 이미지 분포 클래스 당 스케치 이미지 최소 30장 이상 클래스당 최소 450장
최대 960장스케치 이미지 가공자 숙련도 전문가/비전문가(expert/normal) 구분 구분 수량 비율 숙련자 75,362 42.92% 일반인 100,225 57.03% 총계 175,587 100% 클래스 종 수 212종 클래스 - 클래스 당 3D 에셋 수량 클래스에 해당하는 속성명은 라벨 구성요소의 ‘synset_id’가 해당함 클래스별 15개 에셋 (001~015) 클래스별 난이도 분포 난이도
(high-difficulty/low-difficulty)구분 수량 비율 고난이도 157 74.06% 저난이도 55 25.94% 총계 212 100% ※ 특이사항 - 원천데이터와 라벨링데이터의 구성
· 원천데이터는 원시데이터인 3D 에셋의 특성상 각 에셋에 대한 메시, 통합정보, 텍스처, 객체 메타데이터로 구성되며 거기에 20개 시점에서 추출된 렌더링 이미지 63,600개로 총합 271,408개로 구성
· 라벨링데이터는 3,180개 에셋에 대한 메타정보와 렌더링이미지 대한 메타정보 3,180개 및 에셋당 적게는 30개, 많게는 64개 이상의 스케치 이미지 175,587개로 총합 181,947개 파일로 구성되어 크게는 1:1의 비율이나 구성 파일수는 1:N의 비율을 가지고 있음
※ 원천데이터의 텍스처 파일은 3D에셋 객체 특성에 따라 빛에 따른 재질표현, 투명재질에 대한 재질 표현이 필요한 객체에는 필수요수 6개 파일에 emissive.png, opacity.png 파일을 추가하였음
※ 임의의 카메라 시점을 이용하여 스케치를 하였으므로 일반적이지 않은 각도(ex. 물병을 밑에서 바라본 모습 등)에서 제작된 스케치 존재 가능. 다양성 측면에서 활용될 수는 있으나 검색에서는 활용성이 낮을 수 있음
※ 질적 완성도가 많이 낮은 일반인 스케치는 AI모델 학습데이터로는 적합하지 않아서 배제. 하지만 일반인들의 특징을 확인하여 검색 시에는 유효데이터로서의 기능을 하므로 좀 더 정확하고 범용적인 검색시스템 개발 시 활용될 수 있을 것으로 기대
-
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드□ 스케치 이미지 기반 유사 3D DATA 검색 모델
ㅇ 개발 방안
- 스케치 이미지 기반으로 DB상의 유사한 3D 모델을 검색하기 위해 딥러닝을 기반으로 추출한 스케치 이미지 피처를 생성한 후, 데이터베이스 상의 3D 모델 fingerprint와 매칭하여 가장 유사한 모델을 검색함.
- 3d asset 데이터는 image rendering을 통해 여러 방향에서 본 가상의 이미지를 합성한 후, multi-view 기반의 CNN 모델을 사용하여 여러 방향에서 본 이미지들을 모두 반영한 embedding feature를 생성함.모델의 정확성
: ImageNet 데이터 기반의 classification model 중 예측 정확성이 높은 모델인지 검토.모델의 학습/예측 소요 시간
: 텍스트보다 용량이 무거운 이미지 데이터의 학습 용이성을 위해 모델 파라미터 수가 크지 않은 모델인지 검토. 모델의 정확성과 효율성을 모두 고려하여 EfficientNet(v2)를 최종 학습 모델로 선정
- EfficientNet은 Image classification 문제에서 기존보다 훨씬 적은 파라미터수로 더욱 좋은 성능을 내 State-Of-The-Art(SOTA)를 달성했던 모델이며, compound scaling을 통해 각 세 가지 모델 특성(width, depth, input, size)의 효율적인 조합을 찾아내어 연산 구조를 효율화한 모델임. -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 스케치 분류 성능 Image Classification EfficientNet v2 AccuracyTop-1 78 % 82.99 % 2 스케치 분류 성능 Image Classification EfficientNet v2 AccuracyTop-5 93 % 93.18 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드데이터 포맷
데이터 포맷 유형 파일포맷 비고 원시데이터 메시 obj - 통합정보 blend - 텍스쳐 mtl, png - 원천데이터 메시 obj 통합정보 blend 텍스처 mtl, AO.png, Tex.png, Basecolor.png, Metallic.png, Roughness.png, Normal.png 렌더링 이미지 png 스케치 이미지 png 라벨링데이터 3D 에셋 메타정보 json - 렌더링 메타정보 json - 스케치 메타정보 json - 어노테이션 포맷
○ 3D 에셋 데이터
- 3D 에셋 데이터 JSON 구조어노테이션 포맷○ 3D 에셋 데이터- 3D 에셋 데이터 JSON 구조 분류 속성명 속성 설명 타입 필수 작성내역 여부 물체에 대한 정보 obj_path 물체 root 경로 string 필수 “n02084071_dog/001/model/” obj_id 물체 id string 필수 “0017” category_id 물체가 속한 카테고리 id string 필수 “n02084071” (synset id) obj_name 물체 이름 string 필수 “dog” class_from 물체 클래스 출처 string 필수 “ILSVR2017” - 실제 예시
○ 렌더링 이미지 데이터
- 렌더링 이미지 데이터 JSON 구조어노테이션 포맷○ 렌더링 이미지 데이터- 렌더링 이미지 데이터 JSON 구조 분류 속성명 속성 설명 타입 필수 작성내역 여부 렌더링 파일 경로 정보 rendering_images_path 렌더링 이미지 경로 string 필수 “n02084071_dog/001/renderings/n02084071_01_001_ref.png” - 실제 예시
○ 스케치 이미지 데이터
- 스케치 이미지 데이터 JSON 구조어노테이션 포맷○ 스케치 이미지 데이터- 스케치 이미지 데이터 JSON 구조 분류 속성명 속성 설명 타입 필수 작성내역 여부 스케치 작업자 정보 sketch_id 스케치 id string 필수 “15201001” sketch_category_id 스케치 대상 클래스 id string 필수 “n02084071” (synset id) sketch_obj_id 스케치 대상 에셋 id string 필수 “2-152” sketch_obj_name 스케치 대상 에셋 이름 string 필수 “dog” sketch_obj_difficulty 스케치 난이도 분류 string 필수 “high-difficulty” (고난이도: high-difficulty 저난이도: low difficulty) sketcher_type 스케치 작업자 수준 string 필수 “expert” (normal/expert) reference_image_path 레퍼런스 이미지 경로 string 필수 “n02084071_dog/001/renderings/n02084071_01_001_ref.png” - 실제 예시
-
데이터셋 구축 담당자
수행기관(주관) : 한국과학기술원
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 강남우 042-350-1269 nwkang@kaist.ac.kr 데이터 설계 수행기관(참여)
수행기관(참여) 기관명 담당업무 이투온 데이터 가공, 검사 리빌더에이아이 데이터 수집,정제 / AI모델 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 강남우 042-350-1269 nwkang@kaist.ac.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.