-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-13 데이터 최종 개방 1.0 2023-07-31 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-12-22 산출물 전체 공개 소개
한국 상황을 잘 설명할 수 있는 한국형 객체인식 데이터셋 구축하기 위해 300만장의 이미지로와 설명문으로부터 객체 간 관계성 지도를 작성함
구축목적
한국의 지리적 요건 및 객체 특수성을 충족하는 대규모 비전 데이터를 구축하여, 객체인식 분야의 지리적 편향을 해결한 한국형 이미지를 생성하고 구축 대상기반 편향을 해결할 데이터를 확보
-
메타데이터 구조표 데이터 영역 영상이미지 데이터 유형 텍스트 , 이미지 데이터 형식 jpg 데이터 출처 자체 수집 라벨링 유형 텍스트(이미지/동영상) 라벨링 형식 JSON 데이터 활용 서비스 1) 자연어를 통한 내비게이션 경로 안내 2) 자연어를 통한 자율주행 경로 설정 데이터 구축년도/
데이터 구축량2022년/300만 이미지, 300만 라벨링 -
□ 데이터 구축 규모
□ 데이터 구축 규모 구분 개수 용량 원천데이터 3,003,848건 1540.3GB 라벨링데이터 3,003,848건 11.4GB □ 데이터 분포
ㅇ 원시 데이터
Super Category별 수집 구분□ 데이터 분포ㅇ 원시 데이터 Super Category별 수집 구분 Super Category별 수집 구분 Category 카테고리 목표수량 달성수량 퍼센트(%) person 사람 600,000 669,464 111.60% vehicle 탈것 105,000 118,749 113.10% outdoor 실외 85,000 97,983 115.30% animal 동물 45,000 50,175 111.50% accessory 액세서리 80,000 92,448 115.60% sports 스포츠 330,000 401,180 121.60% kitchen 주방 455,000 513,339 112.80% fruits 과일 180,000 212,589 118.10% vegetable 채소 325,000 364,024 112.00% food(western) 음식(서양) 90,000 108,846 120.90% food(eastern) 음식(동양) 110,000 139,833 127.10% furniture 가구 140,000 155,057 110.80% toilet 화장실 30,000 33,913 113.00% indoor 실내 65,000 71,754 110.40% electronic 전자기기 170,000 194,795 114.60% musical instrument 악기 150,000 164,800 109.90% medical equipment 의료기기 40,000 47,419 118.50% Instance별 수집 구분□ 데이터 분포ㅇ 원시 데이터 Instance별 수집 구분 Instance별 수집 구분 인스턴스 카테고리 목표수량 달성수량 001.person(person) 사람 600,000 669,464 002.bicycle(bicycle) 탈것 10,000 11,104 003.car(sedan) 탈것 5,000 6,109 004.car(suv) 탈것 5,000 6,203 005.car(pickup) 탈것 5,000 5,655 006.car(police_car) 탈것 5,000 6,431 007.car(ambulance) 탈것 20,000 21,395 008.motorcycle(motorcycle(normal)) 탈것 10,000 11,712 009.motorcycle(motorcycle(delivery)) 탈것 10,000 11,184 010.scooter(scooter) 탈것 20,000 21,261 011.bus(bus) 탈것 10,000 11,661 012.truck(truck) 탈것 5,000 6,034 013.traffic_light(traffic_light) 실외 10,000 11,190 014.fire_hydrant(fire_hydrant(outside)) 실외 5,000 6,261 015.fire_extinguisher(fire_extinguisher) 실외 10,000 11,089 016.sign(warning_sign) 실외 5,000 6,207 017.sign(direction_sign) 실외 5,000 6,111 018.sign(restriction_sign) 실외 5,000 7,054 019.trash_bin(trash_bin) 실외 20,000 21,224 020.bench(bench) 실외 5,000 7,377 021.roof(hanok_roof) 실외 20,000 21,470 022.bird(bird) 동물 10,000 11,138 023.cat(cat) 동물 10,000 11,255 024.dog(dog) 동물 5,000 6,712 025.chicken(chicken) 동물 20,000 21,070 026.backpack(backpack) 액세서리 5,000 6,431 027.umbrella(umbrella) 액세서리 10,000 11,219 028.handbag(handbag) 액세서리 5,000 6,056 029.tie(tie) 액세서리 10,000 11,100 030.suitcase(suitcase) 액세서리 10,000 11,592 031.muffler(muffler) 액세서리 20,000 24,863 032.hat(hat) 액세서리 20,000 21,187 033.ball(football) 스포츠 5,000 6,092 034.ball(golfball) 스포츠 5,000 6,760 035.ball(baseball) 스포츠 5,000 6,135 036.ball(tennisball) 스포츠 5,000 6,215 037.ball(basketball) 스포츠 5,000 6,144 038.ball(pilates_ball) 스포츠 5,000 6,025 039.ball(billiards_ball) 스포츠 5,000 7,256 040.poles(poles) 스포츠 20,000 56 041.plate(skis) 스포츠 20,000 37 042.board(board) 스포츠 5,000 28 043.drone(drone) 스포츠 10,000 12,222 044.pilates_equipment(foam_roller) 스포츠 20,000 22,525 045.pilates_equipment(band) 스포츠 10,000 11,836 046.treadmill(treadmill) 스포츠 20,000 28,640 047.dumbbell(dumbbell) 스포츠 20,000 21,780 048.golf_club(golf_club) 스포츠 20,000 23,735 049.billiards_cue(billiards_cue) 스포츠 20,000 21,890 050.skating_shoes(skating_shoes) 스포츠 20,000 20,985 051.tennis_racket(tennis_racket) 스포츠 10,000 11,149 052.badminton_racket(badminton_racket) 스포츠 20,000 21,699 053.goalpost(goalpost) 스포츠 20,000 23,601 054.basketball_hoop(basketball_hoop) 스포츠 20,000 24,182 055.carabiner(carabiner) 스포츠 20,000 21,992 056.table_tennis_racket(table_tennis_racket) 스포츠 20,000 39,974 057.rice_cooker(steamer_rice_cooker) 주방 5,000 5,909 058.rice_cooker(electric_rice_cooker) 주방 20,000 21,277 059.gas_stove(gas_stove) 주방 20,000 21,108 060.pot(pot) 주방 20,000 20,798 061.pan(pan) 주방 20,000 24,072 062.microwave(microwave) 주방 5,000 6,136 063.toaster(toaster) 주방 5,000 8,448 064.knives(knives) 주방 20,000 21,036 065.chopping_boards(chopping_boards) 주방 20,000 20,943 066.ladle(ladle) 주방 20,000 23,997 067.silicon_spatula(silicon_spatula) 주방 20,000 21,927 068.rice_spatula(rice_spatula) 주방 20,000 21,648 069.vegetable_peeler(vegetable_peeler) 주방 20,000 21,021 070.box_grater(box_grater) 주방 5,000 6,248 071.scissors(scissors) 주방 20,000 21,683 072.bowl(bowl) 주방 5,000 6,189 073.bowl(mixing_bowl) 주방 5,000 6,014 074.bowl(earthenware_bowl) 주방 5,000 6,050 075.bowl(jar) 주방 5,000 6,086 076.bowl(colander) 주방 5,000 6,082 077.cutlery(spoon) 주방 5,000 5,209 078.cutlery(chopsticks) 주방 20,000 21,496 079.cutlery(knife) 주방 5,000 6,406 080.cutlery(fork) 주방 5,000 6,565 081.plate(plate) 주방 20,000 21,062 082.side_dish(side_dish) 주방 20,000 21,086 083.tray(tray) 주방 20,000 22,605 084.mug(mug) 주방 20,000 21,476 085.refrigerator(refrigerator(normal)) 주방 5,000 5,994 086.refrigerator(gimchi_refrigerator) 주방 10,000 555 087.dish_washer(dish_washer) 주방 20,000 3,142 088.espresso_machine(espresso_machine) 주방 20,000 21,113 089.purifier(purifier) 주방 20,000 21,344 090.banana(banana) 과일 20,000 21,156 091.apple(apple) 과일 5,000 6,060 092.grape(grape) 과일 20,000 22,770 093.pear(pear) 과일 20,000 23,135 094.melon(melon) 과일 20,000 21,154 095.cucumber(cucumber) 과일 20,000 22,406 096.watermelon(watermelon) 과일 20,000 21,134 097.orange(orange) 과일 5,000 6,064 098.orange(tangerine) 과일 5,000 6,121 099.orange(hallabong) 과일 10,000 267 100.peach(peach) 과일 5,000 6,395 101.strawberry(strawberry) 과일 5,000 305 102.plum(plum) 과일 20,000 22,176 103.persimmon(persimmon) 과일 5,000 6,305 104.lettuce(lettuce) 채소 20,000 21,201 105.cabbage(cabbage) 채소 20,000 21,348 106.radish(radish) 채소 20,000 23,727 107.perilla_leaf(perilla_leaf) 채소 20,000 22,612 108.garlic(galic(normal)) 채소 10,000 11,578 109.garlic(galic(opened)) 채소 10,000 11,086 110.onion(onion) 채소 20,000 21,426 111.spring_onion(spring_onion) 채소 20,000 22,685 112.carrot(carrot) 채소 5,000 6,057 113.corn(corn) 채소 20,000 23,111 114.potato(potato) 채소 20,000 21,506 115.sweet_potato(sweet_potato) 채소 20,000 21,137 116.egg_plant(egg_plant) 채소 20,000 21,931 117.tomato(tomato) 채소 20,000 21,981 118.pumpkin(pumpkin) 채소 20,000 23,154 119.squash(squash) 채소 20,000 21,969 120.chili(chili) 채소 20,000 21,413 121.pimento(pimento) 채소 10,000 12,696 122.pimento(paprika) 채소 10,000 13,406 123.sandwich(sandwich) 음식(서양) 10,000 11,709 124.hamburger(hamburger) 음식(서양) 10,000 11,897 125.hotdog(hotdog) 음식(서양) 5,000 6,014 126.pizza(pizza) 음식(서양) 10,000 11,931 127.donut(donut) 음식(서양) 5,000 6,165 128.cake(cake) 음식(서양) 10,000 13,320 129.cake(pancake) 음식(서양) 10,000 12,598 130.cake(cupcake) 음식(서양) 10,000 12,957 131.white_bread(white_bread) 음식(서양) 10,000 11,186 132.icecream(icecream) 음식(서양) 10,000 11,069 133.ttoke(garaettoke) 음식(동양) 10,000 11,129 134.ttoke(songpyun) 음식(동양) 10,000 11,377 135.tteokbokki(tteokbokki) 음식(동양) 10,000 13,556 136.kimchi(kimchi) 음식(동양) 10,000 12,340 137.kimchi(kimchi(bachelor)) 음식(동양) 5,000 6,073 138.kimchi(kimchi(radish)) 음식(동양) 5,000 7,872 139.gimbap(gimbap) 음식(동양) 10,000 11,077 140.gimbap(triangle_gimbap) 음식(동양) 10,000 12,728 141.sushi(sushi) 음식(동양) 10,000 18,587 142.sushi(tofu_sushi) 음식(동양) 10,000 12,232 143.mandu(mandu) 음식(동양) 10,000 11,776 144.gonggibap(gonggibap) 음식(동양) 10,000 11,086 145.couch(couch) 가구 5,000 5,921 146.mirror(mirror) 가구 20,000 22,750 147.window(window) 가구 20,000 21,029 148.table(table) 가구 30,000 33,227 149.table(desk) 가구 10,000 12,764 150.lamp(lamp) 가구 20,000 21,660 151.door(door) 가구 20,000 20,932 152.chair(chair) 가구 5,000 6,138 153.bed(bed) 가구 10,000 10,636 154.toilet_bowl(toilet_bowl) 화장실 10,000 12,621 155.washstand(washstand) 화장실 20,000 21,292 156.book(book) 실내 5,000 5,515 157.clock(clock(table)) 실내 5,000 6,059 158.clock(clock(wall)) 실내 5,000 5,981 159.doll(doll) 실내 20,000 21,160 160.hair_drier(hair_drier) 실내 5,000 6,214 161.toothbrush(toothbrush) 실내 5,000 5,741 162.hair_brush(hair_brush) 실내 20,000 21,084 163.tv(tv) 전자기기 5,000 6,237 164.laptop(laptop) 전자기기 10,000 11,003 165.mouse(mouse) 전자기기 5,000 6,136 166.keyboard(keyboard) 전자기기 10,000 11,388 167.cell_phone(cell_phone) 전자기기 40,000 40,970 168.watch(watch(normal)) 전자기기 10,000 11,063 169.watch(smartwatch) 전자기기 10,000 11,182 170.camera(camera) 전자기기 20,000 26,142 171.speaker(speaker) 전자기기 20,000 21,303 172.fan(fan(stand)) 전자기기 5,000 6,139 173.fan(fan(wall)) 전자기기 5,000 6,084 174.fan(fan(fanless)) 전자기기 5,000 8,168 175.fan(fan(handy)) 전자기기 5,000 6,216 176.air_conditioner(air_conditioner(stand)) 전자기기 10,000 11,001 177.air_conditioner(air_conditioner(ceiling)) 전자기기 10,000 11,763 178.piano(piano) 악기 20,000 21,320 179.tambourine(tambourine) 악기 5,000 6,066 180.castanets(castanets) 악기 5,000 6,101 181.guitar(guitar) 악기 20,000 21,020 182.violin(violin) 악기 20,000 20,994 183.flute(flute) 악기 20,000 21,499 184.recorder(recorder) 악기 20,000 23,615 185.xylophone(xylophone) 악기 20,000 21,920 186.ocarina(ocarina) 악기 20,000 22,265 187.thermometer(thermometer) 의료기기 20,000 22,045 188.sphygmomanometer(sphygmomanometer) 의료기기 5,000 6,161 189.blood_glucose_meter(blood_glucose_meter) 의료기기 5,000 6,657 190.defibrillator(defibrillator) 의료기기 5,000 6,524 191.massage_gun(massage_gun) 의료기기 5,000 6,032 040.shuttlecock(shuttlecock) 스포츠 20,000 21,381 041.hulahoop(hulahoop) 스포츠 20,000 22,618 042.gripper(gripper) 스포츠 5,000 6,223 086.whisk(whisk) 주방 10,000 12,097 087.tongs(tongs) 주방 20,000 26,517 099.jujube(jujube) 과일 10,000 16,819 101.chestnuts(chestnuts) 과일 5,000 10,322 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드□ 활용 모델
ㅇ MSDN (Multi-level Scene Description Network)
- 동작: 입력은 이미지이고, 출력은 Relation Graph
ㅇ 이미지를 이용한 Scene Graph 생성 과정1) Region Proposal에서는 Feature와 Bounding box, 예측된 label을 CNN을 통해 추론
2) Feature Specialization에서는 위에서 추출한 정보로 specialized feature 획득
3) Dynamic Graph 구축에서는 Region, Phrase, Object간의 관계 graph를 동적구성
4) Feature Refining에서는 생성된 Graph의 Feature를 정제, 특징들을 공동으로 세분화
5) 마지막으로, 앞선 단계에서 분석한 결과로 Scene Graph를 생성
6) 생성된 Scene Graph를 통해 LSTM을 이용하여 이미지에 부합하는 Caption을 제작ㅇ 위 과정을 기반으로 생성된 모델은 Multi-level Scene Description Network(MSDN)이며 학습 과정은 이하와 같음
1) RPN을 이용한 객체, 위치 추정
2) HDN(Hierarchical Descriptive Network)을 통한 Scene Graph와 캡션 생성ㅇ 세부 평가 결과 지표
PredCls 객체 사이의 위치정보 바탕의 관계 예측 정도 PhrCls 객체 사이의 위치정보 바탕의 객체의 클래스와 관계 예측 정도 SGGen Scene 내의 객체 위치와 객체간의 관계 예측 정도 □ 활용 서비스 분야
ㅇ 장면 인식을 통한 NUI(Natural User Interface) 구현
- 자연어를 통한 내비게이션 경로 안내
- 자연어를 통한 자율주행 경로 설정 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드□ 라벨링 데이터 명세□ 라벨링 데이터 명세 항목 설명 데이터셋 정보 description 데이터셋명칭 version 데이터셋버전 year 데이터셋생성년도 카테고리 정보 supercategory 카테고리 대분류 id 카테고리 아이디 name 카테고리 소분류(이름) 이미지 정보 id 이미지식별자 width 이미지너비 height 이미지높이 file_name 이미지파일명 어노테이션 정보 id 어노테이션ID image_id 이미지ID category_id 카테고리ID iscrowd 객체끼리의그룹 bbox 객체 Bounding Box 정보 text 설명문정보 english 영어 설명문 텍스트 korean 한글 설명문 텍스트 entity1 객체1 entity2 객체2 verb 동사 relation 관계성 matrix 관계성 지도 정보 source entity1의 객체명 target entity2의 객체명 m_relation 관계성 라벨링 데이터 실제 예시
□ 관계성 시각화
ㅇ 관계성 정보 중 객체1(entity1), 객체2(entity2)를 점(node)로 설정하고 관계성(relation)을 선(edge)로 설정하여 시각화 진행
ㅇ 객체는 한글 설명문에서 확인된 수퍼카테고리 또는 핵심 객체를 기준을 하며, 한글 문장에서 핵심 객체를 추출함하며, 한글 설명문에서 객체에 대한 설명으로 인해 한 개만 존재하는 경우 확인된 객체를 객체 1,2로 연속해서 작성
ㅇ 다음으로 객체와 객체 간의 단어의 관계성을 기준으로 선을 설정함
ㅇ 관계성 시각화는 networkx 라이브러리를 활용하여 검수가 가능하도록 하며, 관계성은 선 위에 표기하여 객체 간 관계를 확인할 수 있도록 제공함관계성 정보 중 주어(subject), 목적어(object)를 점(node)로 설정하고 관계성(relation)을 선(edge)로 설정하여 시각화□ 관계성 시각화 설명문 관계성 시각화 예시 컵이 테이블 위에 놓여있다 The cup is on the table 칼이 테이블 위에 놓여있다 The knife is on the table ... ... ... ... -
데이터셋 구축 담당자
수행기관(주관) : ㈜메트릭스
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 박두진 02-6244-0791 dale@metrix.co.kr 과제 총괄 책임자 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜더바이럴 수집/정제 ㈜오피니온라이브 가공/검수 ㈜어반유니온 모델링 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 박두진 02-6244-0791 dale@metrix.co.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.