안내 로봇 인터렉션 멀티모달

안내 로봇 인터렉션 멀티모달

데이터셋명 안내 로봇 인터렉션 멀티모달
데이터 분야 비전 데이터 유형 이미지, 텍스트
구축기관 서울대학교 데이터 관련 문의처 담당자명 장병탁(서울대학교)
가공기관 서울대학교 AI연구원, 유탑소프트, 퓨처로봇, 오픈링크시스템, 로보쓰리 전화번호 02-880-4258
검수기관 서울대학교 AI연구원, 유탑소프트, 퓨처로봇, 오픈링크시스템, 로보쓰리 이메일 btzhang@snu.ac.kr
구축 데이터량 100만 구축년도 2020년
버전 1.1 최종수정일자 2021.07.13
소개 안내 서비스를 수행하는 로봇시점 영상 및 음성 데이터
주요 키워드 안내로봇, 인터랙션, 로봇시점, 1인칭시점, 자연어, 표정, 발화
저작권 및 이용정책 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기]
데이터설명서 자료보기 구축활용가이드 자료보기
샘플데이터 교육활용동영상 영상보기
저작도구 다운로드 AI모델
데이터 변경이력
버전 일자 변경내용 비고
1.1 2021.07.13 데이터 추가 개방  
1.0 2021.06.30 데이터 최초 개방  
구축 목적
  • 안내 로봇이 사람과 보다 자연스러운 인터랙션을 하기 위한 1인칭 시점에서 사람과의 인터랙션하는 데이터셋
활용 분야
  • 수집한 데이터셋을 통해 학습한 로봇은 다양한 시나리오에 접목 가능
    1. 안내 서비스 AI연구원, 대형 마켓, 회사 등 고객들 대상으로 안내 서비스 수행
    2. 돌봄 서비스 사회적 약자 돌봄 서비스 수행 및 일반 가사 서비스 수행
    3. 교육 서비스 유아 교육 및 아동 영어 교육 서비스 등 수행
소개
  • 본 데이터셋은 일반적으로 영상, 음성, 멀티모달 데이터로 구성되며, 라벨별 데이터 구축은 인물, 발화 그리고 사용자와 로봇간 인터랙션으로 나눌 수 있다. 이 데이터셋은 인물 ID 100만 8천개, 발화자 ID 21만 6천개 그리고 사용자와 로봇간 인터랙션으로 구축된다.

    4개의 안내 시나리오에서 positive sample의 분류 정확도를 멀티모달 평가지표로 정의할 수 있다. 1~4의 안내 시나리오는 각각 40%, 30%, 20%, 10%의 분포로 데이터를 수집한다.

    1. 영상에서 사람이 등장하고 음성 정보 또한 로봇에게 안내와 관련된 발화를 한 경우 (positive sample)
    2. 영상에서 사람이 등장하지만, 음성 정보가 안내와 무관한 노이즈 (ex. 주변 소음, 사람 간의 대화)일 경우 (negative sample)
    3. 영상에 사람이 등장하지 않고 안내와 관련된 발화를 한 경우 (positive sample)
    4. 영상에 사람이 등장하지 않고 음성 정보가 안내와 무관할 경우 (negative sample)

    시나리오를 크게 상기와 같이 1~4 시나리오로 분류하였고, 정상적인 안내 상황인 시나리오 1번은 아래 6가지 세부 시나리오로 분류한다. 안내 요청 (20%), 기타 요청 (10%), 인사 (30%), 진술 (10%), 위치 질문 (20%), 기타 정보 질문 (10%)로 세분화한다.
     

 소개자료 소개 수정 0

구축 내용 및 제공 데이터량
  • 1) 영상
    - 원시데이터: 로봇 관점 영상 500시간 (mp4 포맷), 음성 300시간 (멀티모달 데이터의 특성상, 음성은 영상에 포함되어 있음)
    - 정제데이터: 로봇 관점 영상 클립 216,000개 (mp4 포맷) (사용자가 발화하는 시간외 영상 제거, 필요시 비식별화 처리)
    - 가공 후 데이터: 이미지 기준 1,008,000장에 대한 bounding boxw정보, 사용자의 표정, 시선 정보, 발화의도, 발화 어조, 시선 (json포맷)
     
  • 2) 멀티모달 데이터
    - 원시데이터: 위 영상 데이터
    - 정제데이터: 위 영상 데이터
    - 가공 후 데이터: 시각/음성/텍스트 정보를 기반으로 사용자가 안내 로봇과 인터랙션을 수행하는지 여부에 대한 라벨링
       (이미지 1,008,000에 대한 라벨링, json 포맷)

final

필요성
  • 안내 로봇시장의 세계 시장규모가 점점 커짐에 따라 세계 시장을 선도할 필요성이 대두됨
  • 하지만, 현재 안내 로봇의 경우 사용자와 인터랙션을 하지 못하면서 일방적인 정보만을 전달하는 안내 로봇의 현실
  • 인공지능 기술과 데이터 구축을 통해 돌파가 가능하며, 인간 수준의 사회적 기능을 수행하는 안내 로봇 기술을 실현하기 위해서는 데이터 기반(Data-driven)의 학습 및 추론 기술이 필요
  • 본 과제에서는 안내 로봇의 글로벌 시장을 선도할 수 있는 성능을 갖출 수 있도록 인공지능 학습을 위한 멀티모달(Multi-Modal) 데이터 수집을 목표로 함
데이터 구조
  • 1. 데이터 구성

 소개자료 데이터구조

- 데이터는 가능한 클래스의 조합 총 3600개 (성별 2 x 시선 6 x 감정 5 x 의도 6 x 어조 5 x 인터랙션 여부 2)의 디렉토리로 구성. 라벨링된 클래스가 같은 데이터는 동일한 디렉토리에 저장됨
- 파일명은(날짜)-(시간)-(장소)-(구분자1)-(시점)-(구분자2)-(클립순서)-(추출 time step)의 규칙을 따름
 

  • 2. 어노테이션 포맷
     
    어노테이션 포맷 표
    데이터 타입 속성 값(예시) 값 타입 설명
    영상
    (이미지,
    오디오)
    from_name 'bbox' 문자열 바운딩박스 라벨 이름
    id 'MBfmwFbIkh' 문자열 이미지 ID
    image_rotation 0 정수 이미지 회전
    original_height 1080 정수 이미지 높이
    original_width 1920 정수 이미지 너비
    parent_id None None 해당 항목의 부모 라벨 ID
    (사용되지 않음)
    source '$image' 문자열 데이터 타입
    to_name 'image' 문자열 라벨링 원천이 되는 데이터 타입
    type 'rectanglelabels' 문자열 라벨 타입(바운딩 박스를 그리는 형식)
    value {'height': 20.2323,
    'rectanglelabels': ['man'],
    'roatation': 0,
    'width': 9.19,
    'x': 48.4
    'y': 38.1}
    사전 하위항목 사전화
    height 20.2323 실수 바운딩 박스 높이
    rectanglelabels ['man'] 리스트 안의
    문자열
    바운딩 박스된 인물 성별 라벨값
    rotation 0 정수 바운딩 박스 회전
    width 9.19 실수 바운딩 박스 너비
    x 48.4 실수 x축 좌표
    y 38.1 실수 y축 좌표
    from_name 'gaze' 문자열 인물을 바라보는 카메라 시선 라벨 이름
    id 'Mm9Vm1HvYP' 문자열 해당 라벨 ID
    to_name 'image' 문자열 라벨링 원천이 되는 데이터 타입
    type 'choices' 문자열 라벨 타입
    (여러 개 클래스 중 하나를 선택하는 형식)
    value {'choices': ['back']} 사전 하위항목 사전화
    choices ['back'] 리스트 안의
    문자열
    바운딩 박스된 인물을 바라보는 카메라의 시선값
    from_name 'emotion' 문자열 인물의 감정 라벨 이름
    id 'Zo7YdW0I3S' 문자열 해당 라벨 ID
    to_name 'image' 문자열 라벨링 원천이 되는 데이터 타입
    type 'choices' 문자열 라벨 타입
    (여러 개 클래스 중 하나를 선택하는 형식)
    value {'choices': ['angry']} 사전 하위항목 사전화
    choices ['angry'] 리스트 안의
    문자열
    바운딩 박스된 인물의 감정 값
    from_name 'text' 문자열 인물의 발화 텍스트 라벨
    to_name 'video' 문자열 라벨 타입
    type 'textarea' 문자열 라벨 타입(텍스트를 입력하는 형식)
    value {'text': ['안녕하세요']} 사전 하위항목 사전화
    text ['안녕하세요'] 리스트 안의
    문자열
    바운딩 박스된 인물의 발화 텍스트 값
    from_name 'tone' 문자열 인물의 발화 어조 라벨
    id 'mnFOCjI944' 문자열 해당 라벨 ID
    to_name 'video' 문자열 라벨링 원천이 되는 데이터 타입
    type 'choices' 문자열 라벨 타입
    (여러 개 클래스 중 하나를 선택하는 형식)
    value {'choices': ['angry']} 사전 하위항목 사전화
    choices ['angry'] 리스트 안의
    문자열
    바운딩 박스된 인물의 발화 어조 값
    from_name 'intent' 문자열 인물의 발화 의도 라벨
    id 'mnFOCjI944' 문자열 해당 라벨 ID
    to_name 'video' 문자열 라벨링 원천이 되는 데이터 타입
    type 'choices' 문자열 라벨 타입
    (여러 개 클래스 중 하나를 선택하는 형식)
    value {'choices': ['statement']} 사전 하위항목 사전화
    choices ['statement'] 리스트 안의
    문자열
    바운딩 박스된 인물의 발화 의도 값
    from_name 'multimodel' 문자열 바운딩 박스된 인물의 인터랙션 여부 라벨
    id 'zgxtbjoOgK' 문자열 해당 라벨 ID
    to_name 'video' 문자열  
    type 'choices' 문자열 라벨 타입
    (여러 개 클래스 중 하나를 선택하는 방식)
    value {'choices': ['no']} 사전 하위항목 사전화
    choices ['no'] 리스트 안의
    문자열
    바운딩 박스된 인물의 인터랙션 여부 값
데이터셋 구축 담당자
수행기관(주관) : 서울대학교
수행기관(주관)
책임자 전화번호 대표이메일 담당업무
장병탁 02-880-4258 btzhang@snu.ac.kr · 데이터구축 총괄
· 데이터 정의 및 설계
· 데이터 가공 웹서비스 개발
· 데이터 수집, 정제, 가공, 검수 총괄
· 데이터 배포 (API 기반 배포)
· 로봇 응용서비스 개발
수행기관(참여)
수행기관(참여)
기관명 담당업무 기관명 담당업무
유탑소프트 · 데이터 가공 웹서비스 개발 및 가공 툴 개발
· 데이터 수집, 저장, 정제, 가공, 검수 지원 로봇 응용서비스 개발
오픈링크 시스템 · 데이터 수집, 저장, 정제, 가공, 검수 지원
· 데이터 가공 툴 개발
퓨처로봇 · 데이터 수집, 저장, 정제, 가공, 검수 지원
· 로봇 활용
로보쓰리 · 데이터 수집, 저장, 정제, 가공, 검수 지원
· 로봇 응용서비스 개발
· 로봇 활용