공개 데이터 게시판

Open 데이터 국내·외 AI 개발을 위해 공개된 Open 데이터를 소개합니다.

  • - 통제된 환경이 아닌 복잡한 실제 생활에서의 scene을 수집하여, 상황 이해를 통한 사물 인지 기술이 가능함
    - 이전의 사물 인식 데이터 셋은 이미지 분류/로컬라이제이션/세그멘테이션 등에 집중했으나, MS-CO-CO는 대용량의 풍부한 annotation 데이터 셋을 구축 보유함
    -4세 이상 아동이 인지할 수 있는 91개의 사물 사진 데이터,  총 250만 라벨링된 인스턴스(328K 이미지), 80개 카테고리 

      바로가기  
  • - 세계 최다량의 자율 주행을 위한 데이터 셋으로 다양한 형태의 도로 및 물체 인식 하기 위하여, 동영상 데이터 활용
    - 약 5만명의 드라이버로 부터 촬영된 주행 비디오를 수집하였으며, 뉴욕, 샌프란시스코 등 다양한 지역에서 드라이버를 고용
    - 100,000개(1,100시간)주행 비디오를 수집하였으며, 동영상은 각각 40초씩 단위로 나뉘어 있음

      바로가기  
  • - ImageNet 대규모 시각 인식 챌린지에서 사용된 라벨링된 이미지 데이터 베이스
    - 제공 이미지는 Copyright 으로 인해 URL만 제공
    - 14,197,122개의 이미지, 1,034,908개의 주석 바운딩 박스, 1,000개의 SIFT표시 Sysset, 1,200,000개의 SIFT 표시 이미지

      바로가기  
  • - 현존하는 object location annotation 데이터 셋 중 최대 규모
    - 이미지 / 바운딩박스/ 라벨링으로 구성됨
    - 920만개 이미지, (600개 카테고리에의 )1500 만개 박스 ,(약 2만개 카테고리에의) 300만개 이미지-레벨 라벨 

      바로가기  
  • - 숫자 필기체 인식을 위한 데이터 베이스
    - NIST의 오리지널 데이터셋에서 250여명의 필기체의 샘플을 재 혼합하여 제작
    - NIST의 20*20 픽셀 흑백 그림을 28*28 픽셀로 수정 및 안티앨리어싱 처리하여 그레이스케일 포함

      바로가기  
  • - 허리케인 이후, 항공 및 위성 사진을 통한 건물 파손 탐지 데이터셋
    - 2017년 허리케인 Harvey 이후, Greatre Houston 지역 건물 파손 결과에 대한 공유물
    - 이미지에서 실제 건물 아웃라인 인식, 가공을 위한 이미지 사이즈 축소, 실제 건물 바운딩 박스 처리 등의 전처리 수행

      바로가기  
  • - 기존 역사적 문서 판독을 위한 필체 및 문자 인식 이미지 데이터
    - 유럽 국립, 저명 도서관 내 도서 및 문서 이미지 602,630
    - 유럽 의회의 지원을 받는 문서 디지털화 프로젝트인 IMPACT (Improving Access to Text)의 일환

      바로가기  
  • - 미국 수화 ASL (American Sign Language) 사전 영상 데이터셋
    - 미국 ASL을 구사하는 원어민의 수어 동작 영상 QuickTime video 및 무손실 압축 동영상 수집
    - 영상 시퀀스, 시작/종료 프레임 및 수화 클래스 라벨링

      바로가기