공개 데이터 게시판

Open 데이터 국내·외 AI 개발을 위해 공개된 Open 데이터를 소개합니다.

  • - 옷을 입은 각 40명의 남녀가 70가지 동작을 하는 200만 장의 이미지로 구성된 3D 액션 데이터셋
    - 모든 액션은 4개의 카메라로 촬영되었고, RGB, 3D 스켈레톤, 옷의 세그멘테이션 마스크,  body part, depth map, optical flow, camera parameters 등이 labeling

      바로가기  
  • - 뤼이드에서 교육 분야 AI 학습 데이터베이스 구축
    - 2017년부터 산타토익을 통해 축적한 약 78만 학습자의 1억3천만건 이상의 학습 행동 데이터를 공개
    - 문제 데이터 정보와 각각의 정오답, 풀이 소요 시간, 각 유저의 목표 점수와 실제 점수, 강의 구매 시점 등의 정보 제공

      바로가기  
  • - Google이 공개한 8백 만개, 5만 시간의 유튜브 동영상 데이터 베이스
    - 3,862 개의 시각적 개체에 대한 주석 포함
    - 유튜브 주석시스템을 활용하여 전처리

      바로가기  
  • - 딥러닝을 통한 대규모 이미지 분류 데이터셋 벤치마크
    - Google Images search을 통한 이미지 URL 수집
    - Annotation: Binary Classifier를 학습하여 주석의 정확성을 높임

      바로가기  
  • - You Tube에서 다운로드 받은 영상으로 구성된 안면 인식 영상 데이터 셋
    - 동영상에서의 통제되지 않은 안면 인식의 문제 해결을 위해 디자인되었으며, 사람의 특징을 indicate 해줄 수 있는 라벨을 produce 하는 것이 목적임. 두개의 인물 영상이 동일인이지 여부를 판별
    - 1,595명, 3,425 동영상 (1인당 2.15의 동영상)

      바로가기  
  • - 안면 사진 데이터셋으로 통제되지 않는 환경에서의 안면 인식 문제를 연구하기 위해 디자인됨
    인물의 이름이 라벨링된 13,000 개의 이미지(웹 다운로드)

      바로가기  
  • - 통제되지 않은 실내 환경에서 5개의 CCTV 로 촬영, 현실 환경과 최대한 유사한 환경 구현
    -CCTV로 촬영된 정지된 상태(static)의 사람의 안면 이미지 데이터 베이스
    130명, 4160 개의 static 이미지로 구성
    - 각기 다른 화질의 5개 카메라로 조명이 통제되지 않은 상황에서 다양한 거리로 9개의 다른 자세를 촬영  

      바로가기  
  • - 미국 국방부에서 구축한 안면 인식 기술의 표준
    - 1,199명의 11,338 이미지
    - 안면 인식 기술(FERET) 프로그램은 미국 방위고등연구계획국(DARPA)과 국립표준기술연구소(NIST)가 관리

      바로가기  
  • -독일 및 인근 국가, 50개 도시의 거리 환경에 대한 이해를 목적으로, 비디오 프레임에 고급 주석과 단순 주석 처리하여 물체 탐지 벤치마크로 활용
    - 5,000개의 고급 주석 처리한 이미지와 20,000개의 단순 주석 처리한 이미지 수집
    - 지리학적, 인구 규모, 시계열 별로 도시 선정 다양성 분류

      바로가기  
  • - 통제된 환경이 아닌 복잡한 실제 생활에서의 scene을 수집하여, 상황 이해를 통한 사물 인지 기술이 가능함
    - 이전의 사물 인식 데이터 셋은 이미지 분류/로컬라이제이션/세그멘테이션 등에 집중했으나, MS-CO-CO는 대용량의 풍부한 annotation 데이터 셋을 구축 보유함
    -4세 이상 아동이 인지할 수 있는 91개의 사물 사진 데이터,  총 250만 라벨링된 인스턴스(328K 이미지), 80개 카테고리 

      바로가기