AI데이터 소개

Body

AI데이터

  • AI Hub의 AI데이터는 국내 중소벤처기업, 연구소, 개인 등이 높은 비용과 투입시간으로 인해 자체적으로 확보하기 어려운 양질의 대용량 인공지능 학습용 데이터를 누구에게나 공개하여 지능 정보사회와 인공지능 산업생태계를 조성하는데 기여합니다.
  • AI Hub는 지능정보산업인프라조성 사업으로 추진한 AI 학습용 데이터와 국내외 기관/기업에서 보유한 AI 학습용 데이터를 공개합니다.

데이터 분류

개요

  • 기업, 소셜미디어, 정부 기관 등에서는 다양한 형태의 정형, 비정형 텍스트 데이터가 있으며 인공지능 기술을 통하여 자연어 처리, 정보검색, 문서 요약 및 분류, 특성 추출, 번역, 챗봇 등 다양한 비즈니스 영역에서 활용되어집니다.

데이터 형식

  • Excel 형식, CVS 형식, TXT 형식, JSON형식, N-Triple 형식

종류

  • 한국어-영어 번역말뭉치
  • 한국어대화
  • 한국어음성
  • 기계독해

개요

  • 해외 주요국가에서는 시각지능 분야에서 인공지능(AI) 기술개발을 위한 기계학습 데이터 구축 등 관련 인프라를 확보하여 개방하고 있으며 미국 ImageNet은 22,000개의 범주로 분류된 약 1,500만장의 이미지를 무료로 개방하여 시각 지능 기술 발전의 기초를 제공하고 있습니다. 특히 대표적인 시각지능인 객체 인식의 경우 산업을 막론하고 다양하게 활용가능한 분야이기도 합니다.

데이터 형식

  • PNG 등 이미지 파일 형식, 기타 Annotation

종류

  • 한국형 사물이미지
  • 한국어 글자체 이미지
  • 위해물품 엑스레이 이미지
  • 질병진단(안저) 이미지
  • 질병진단(유방암) 이미지
  • 이미지(차량, 얼굴, 음식)
  • 한국인 안면 이미지

개요

  • 영상 AI의 경우 객체인식, 상황인식, 모션인식 등 이미지 AI 기술의 확장으로 볼 수 있습니다. 특히 AR,VR과 결합하거나 실시간 영상을 통해 자율주행 개발과 CCTV 범죄인식, 영상을 통한 제품의 공정 불량을 인식하거나 하는 실시간 인지 기술이 가능함에 따라 많은 영역에서 영상 AI 기술을 확장하고 있습니다.

데이터 형식

  • 동영상 파일 형식, 기타 Annotation

종류

  • 멀티모달
  • 인도 보행 영상
  • 멀티모달영상
  • 사람동작 영상
  • 이상행동CCTV 영상

개요

  • 지식베이스는 전문가 시스템의 구성 요소의 하나로서, 인공지능 에이전트가 사용될 분야와 관련된 지적 활동과 경험을 통해서 축적한 전문 지식 그리고 문제 해결에 필요한 사실과 규칙 등이 저장되어 있는 데이터베이스이다.

데이터 형식

  • N-triple 형식, owl 형식, JSON 형식, TXT 형식, Excel 형식, Csv형식, PNG 등 이미지 파일 형식

종류

  • 법률
  • 특허
  • 일반상식
  • 관광
  • 농업