생활 및 거주환경 기반 VQA

생활 및 거주환경 기반 VQA

데이터셋명 생활 및 거주환경 기반 VQA
데이터 분야 음성/자연어 데이터 유형 이미지, 텍스트
구축기관 유클리드소프트 데이터 관련 문의처 담당자명 나현우(유클리드소프트)
가공기관 유클리드소프트, 심스리얼리티 전화번호 042-488-6589
검수기관 유클리드소프트, 공주대학교 이메일 hwna@euclidsoft.co.kr
구축 데이터량 719만 구축년도 2020년
버전 1.0 최종수정일자 2021.06.25
소개 (대전시 유성구)국내 환경에 맞는 다양한 VQA 기반 AI서비스 개발을 위한 생활 및 거주환경 VQA AI데이터
주요 키워드 KVQA, 시각지능, RCNN, GQA
저작권 및 이용정책 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기]
데이터설명서 자료보기 구축활용가이드 자료보기
샘플데이터 다운로드 교육활용동영상 영상보기
저작도구 다운로드 AI모델
데이터 변경이력
버전 일자 변경내용 비고
1.0 2021.06.25 데이터 최초 개방  
구축 목적
  • 어린이, 노인, 개인의 일상생활을 촬영한 이미지에 대하여 시각정보에 대한 객관적인 상황이나 추론 가능한 질문에 대해 스스로 답변이 가능한 인공지능을 훈련하기 위한 데이터 셋
활용 분야
  • 시각 정보에 대한 인공지능 자유 묘사, 이미지를 통한 상황 유추 등이 가능한 한국형 AI 시각지능 모델 개발
소개
  • 한국인의 실생활 속에서 다양한 이미지를 촬영하고, 연관된 질의응답 데이터를 생성하여 인공지능이 생활환경 속 물체나 위험요소 등에 대하여 답변할 수 있도록 훈련할 수 있는 데이터셋. 이미지에 대한 비식별화 및 정제 처리 후 가공, 검증을 진행하여 촬영된 사진에서 개인정보 침해 문제를 해결하고 가공을 수행하였음
     
ig
< 데이터 유효성 검증 및 피드백 >

 

구축 내용 및 제공 데이터량
  • 일상생활 속 이미지 1,063,340장(일반 촬영 961,068장 / 3D 공간 스캔 기반 추출 이미지 102,272장)
  • 이미지별 질의응답 텍스트 총 7,119,756건(이미지당 평균 7건)
     
    구축 내용 및 제공 데이터량 표
      어린이 생활 거주환경 개인 생활환경 노인 생활 거주환경 실내 가전 및 가구배치
    슈퍼헤더 수집이미지 슈퍼헤더 수집이미지 슈퍼헤더 수집이미지 슈퍼헤더 수집이미지 3D이미지
    슈퍼헤더별
    수량
    번화가 8,902 번화가 11,272 번화가 23,936 사무공간 693 16,141
    골목 11,912 골목 26,993 골목 15,437 개인공간 8,876  
    차량 16,946 차량 19,127 차량 20,657 휴게공간 7,663  
    야외 16,977 야외 43,868 야외 23,002 가전 9,741  
    가전(가구) 7,591 가전(가구) 7,817 가전(가구) 16,918 가구 34,822  
    공공장소 42,997 공공장소 34,169 공공장소 31,994 공공장소 8,475  
    여가공간 7,995 여가공간 7,507 여가공간 7,541 여가공간 23,967  
    음식 6,893 음식 8,253 음식 7,518 음식 7,501  
    실내 43,576 실내 22,503 실내 23,825 실내 913 44,131
    생활 39,922 생활 20,931 생활 21,271 생활 45,635  
    물건 15,864 물건 23,693 물건 21,506 물건 1,622 42,000
    매장 38,258 매장 33,897 매장 37,134 매장 42,558  
    합계 257,833 합계 260,030 합계 250,739 합계 192,466 102,272
대표도면

-1(대표 이미지)

-2(JSON 구조 예시 이미지)

필요성
  • 해외에서 활발하게 연구되고 있는 영어 기반의 시각정보 질의응답 데이터와 달리 한국형 데이터는 학습용 데이터가 거의 전무한 상황
  • 해외에서는 영어를 기반으로 시각정보 질의응답 데이터를 공개하고 매년 모델링 대회를 개최하고 있음. 영어로 된 데이터를 활용한 세계 대회에서 국내 기업이 선두를 달리고 있는 상황에도 한국형 질의응답 학습용 데이터는 거의 전무한 상황임
  • 기존 20년도 사업에서 시각정보 질의응답 데이터셋을 구축한 바가 있으나, 대부분의 원천 데이터를 해외 공개이미지로 사용하였기에 국내 환경에 맞지 않는 요소가 있었음
  • 이에 한국적인 사물과 상황을 이해하여 질문과 답변을 제시하며 새로운 가치를 창출할 수 있는 시각정보 질의응답 AI 기술개발을 위하여 검증된 학습용 데이터를 구축하고자 함
데이터 구조
  • 1. 데이터 구성

 

데이터 구성
분류 세분류 데이터 타입 한글설명
info   object  
  year int 연도
  version str 버전
  description str 상세설명
  contributor str 기여자
  url str 주소
  date_created datetime 생성일자
data_type   str 이미지 소스
data_subtype   str 데이터 하위 유형
images   object 이미지 정보
  image_id int 이미지 식별키
  image string 슈퍼 헤더 카테고리
  category string 이미지 식별키
  weather string 날씨

 

  • 2. 어노테이션 포맷

 

어노테이션 포맷
분류 세분류 데이터 타입 한글설명
question   object 질의응답 정보
  question_id int 질문 식별키
  image_id int 이미지 식별키
  description str 상세설명
  question string 질문 텍스트
  answer string 답변 텍스트
  answer_type string 답변 판별
데이터셋 구축 담당자
수행기관(주관) : 유클리드소프트
수행기관 (주관)
책임자명 전화번호 대표이메일 담당업무
나현우 042-488-6589 hwna@euclidsoft.co.kr · 데이터구축 총괄
· 원천데이터 수집, 정제
· 질의응답 생성, 가공
· AI VQA 모델개발
수행기관(참여)
수행기관(참여)
기관명 담당업무 기관명 담당업무
심스리얼리티 · 3D 공간 스캔 및 이미지 추출
· 3D 기반 실내 가전 및 가구 가상 배치 서비스 개발
공주대학교 · 결과물 검수 및 검증