AI-Hub

#안내로봇 # 인터랙션 # 로봇시점 # 1인칭시점 # 자연어 # 표정 # 발화

안내 로봇 인터랙션 멀티모달

분야영상이미지
유형 텍스트 , 이미지

구축년도 : 2020 갱신년월 : 2022-09 조회수 : 20,493 다운로드 : 277 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용
1.2	2022-09-28	Training, Validation > 원천데이터, 라벨링데이터 재개방
1.1	2021-07-13	데이터 추가 개방
1.0	2021-06-30	데이터 최초 개방

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2023-12-04	저작도구 소스코드 등록
2022-10-12	신규 샘플데이터 개방

소개

안내 서비스를 수행하는 로봇시점 영상 및 음성 데이터

- 데이터 영역 : 영상이미지

- 데이터 유형 : 텍스트 , 이미지

- 구축년도 : 2020년

- 구축량 : 100만

구축목적

안내 로봇이 사람과 보다 자연스러운 인터랙션을 하기 위한 1인칭 시점에서 사람과의 인터랙션하는 데이터셋

구축 내용 및 제공 데이터량
- 1) 영상
  - 원시데이터: 로봇 관점 영상 500시간 (mp4 포맷), 음성 300시간 (멀티모달 데이터의 특성상, 음성은 영상에 포함되어 있음)
  - 정제데이터: 로봇 관점 영상 클립 216,000개 (mp4 포맷) (사용자가 발화하는 시간외 영상 제거, 필요시 비식별화 처리)
  - 가공 후 데이터: 이미지 기준 1,008,000장에 대한 bounding boxw정보, 사용자의 표정, 시선 정보, 발화의도, 발화 어조, 시선 (json포맷)
- 2) 멀티모달 데이터
  - 원시데이터: 위 영상 데이터
  - 정제데이터: 위 영상 데이터
  - 가공 후 데이터: 시각/음성/텍스트 정보를 기반으로 사용자가 안내 로봇과 인터랙션을 수행하는지 여부에 대한 라벨링
  (이미지 1,008,000에 대한 라벨링, json 포맷)
저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드
AI 모델 상세 설명서 다운로드
AI 모델 다운로드

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	발화의도 분류	Image Classification	CNNs, Transformer	Accuracy	70 %	71.5 %
2	객체검출	Object Detection	CNNs, Transformer	mAP	70 %	85.2 %

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2021.07.13	데이터 추가 개방
1.0	2021.06.30	데이터 최초 개방

구축 목적

안내 로봇이 사람과 보다 자연스러운 인터랙션을 하기 위한 1인칭 시점에서 사람과의 인터랙션하는 데이터셋

활용 분야

수집한 데이터셋을 통해 학습한 로봇은 다양한 시나리오에 접목 가능
1. 안내 서비스 AI연구원, 대형 마켓, 회사 등 고객들 대상으로 안내 서비스 수행
2. 돌봄 서비스 사회적 약자 돌봄 서비스 수행 및 일반 가사 서비스 수행
3. 교육 서비스 유아 교육 및 아동 영어 교육 서비스 등 수행

소개

본 데이터셋은 일반적으로 영상, 음성, 멀티모달 데이터로 구성되며, 라벨별 데이터 구축은 인물, 발화 그리고 사용자와 로봇간 인터랙션으로 나눌 수 있다. 이 데이터셋은 인물 ID 100만 8천개, 발화자 ID 21만 6천개 그리고 사용자와 로봇간 인터랙션으로 구축된다.

4개의 안내 시나리오에서 positive sample의 분류 정확도를 멀티모달 평가지표로 정의할 수 있다. 1~4의 안내 시나리오는 각각 40%, 30%, 20%, 10%의 분포로 데이터를 수집한다.

1. 영상에서 사람이 등장하고 음성 정보 또한 로봇에게 안내와 관련된 발화를 한 경우 (positive sample)
2. 영상에서 사람이 등장하지만, 음성 정보가 안내와 무관한 노이즈 (ex. 주변 소음, 사람 간의 대화)일 경우 (negative sample)
3. 영상에 사람이 등장하지 않고 안내와 관련된 발화를 한 경우 (positive sample)
4. 영상에 사람이 등장하지 않고 음성 정보가 안내와 무관할 경우 (negative sample)

시나리오를 크게 상기와 같이 1~4 시나리오로 분류하였고, 정상적인 안내 상황인 시나리오 1번은 아래 6가지 세부 시나리오로 분류한다. 안내 요청 (20%), 기타 요청 (10%), 인사 (30%), 진술 (10%), 위치 질문 (20%), 기타 정보 질문 (10%)로 세분화한다.

안내 로봇 인터렉션 멀티모달- 소개

구축 내용 및 제공 데이터량

1) 영상
- 원시데이터: 로봇 관점 영상 500시간 (mp4 포맷), 음성 300시간 (멀티모달 데이터의 특성상, 음성은 영상에 포함되어 있음)
- 정제데이터: 로봇 관점 영상 클립 216,000개 (mp4 포맷) (사용자가 발화하는 시간외 영상 제거, 필요시 비식별화 처리)
- 가공 후 데이터: 이미지 기준 1,008,000장에 대한 bounding boxw정보, 사용자의 표정, 시선 정보, 발화의도, 발화 어조, 시선 (json포맷)
2) 멀티모달 데이터
- 원시데이터: 위 영상 데이터
- 정제데이터: 위 영상 데이터
- 가공 후 데이터: 시각/음성/텍스트 정보를 기반으로 사용자가 안내 로봇과 인터랙션을 수행하는지 여부에 대한 라벨링
(이미지 1,008,000에 대한 라벨링, json 포맷)

안내 로봇 인터렉션 멀티모달- 대표 도면

필요성

안내 로봇시장의 세계 시장규모가 점점 커짐에 따라 세계 시장을 선도할 필요성이 대두됨
하지만, 현재 안내 로봇의 경우 사용자와 인터랙션을 하지 못하면서 일방적인 정보만을 전달하는 안내 로봇의 현실
인공지능 기술과 데이터 구축을 통해 돌파가 가능하며, 인간 수준의 사회적 기능을 수행하는 안내 로봇 기술을 실현하기 위해서는 데이터 기반(Data-driven)의 학습 및 추론 기술이 필요
본 과제에서는 안내 로봇의 글로벌 시장을 선도할 수 있는 성능을 갖출 수 있도록 인공지능 학습을 위한 멀티모달(Multi-Modal) 데이터 수집을 목표로 함

데이터 구조

1. 데이터 구성

안내 로봇 인터렉션 멀티모달- 데이터 구조- 데이터 구성

- 데이터는 가능한 클래스의 조합 총 3600개 (성별 2 x 시선 6 x 감정 5 x 의도 6 x 어조 5 x 인터랙션 여부 2)의 디렉토리로 구성. 라벨링된 클래스가 같은 데이터는 동일한 디렉토리에 저장됨
- 파일명은(날짜)-(시간)-(장소)-(구분자1)-(시점)-(구분자2)-(클립순서)-(추출 time step)의 규칙을 따름

2. 어노테이션 포맷

어노테이션 포맷 표
데이터 타입	속성	값(예시)	값 타입	설명
영상 (이미지, 오디오)	from_name	'bbox'	문자열	바운딩박스 라벨 이름
	id	'MBfmwFbIkh'	문자열	이미지 ID
	image_rotation	0	정수	이미지 회전
	original_height	1080	정수	이미지 높이
	original_width	1920	정수	이미지 너비
	parent_id	None	None	해당 항목의 부모 라벨 ID (사용되지 않음)
	source	'$image'	문자열	데이터 타입
	to_name	'image'	문자열	라벨링 원천이 되는 데이터 타입
	type	'rectanglelabels'	문자열	라벨 타입(바운딩 박스를 그리는 형식)
	value	{'height': 20.2323, 'rectanglelabels': ['man'], 'roatation': 0, 'width': 9.19, 'x': 48.4 'y': 38.1}	사전	하위항목 사전화
	height	20.2323	실수	바운딩 박스 높이
	rectanglelabels	['man']	리스트 안의 문자열	바운딩 박스된 인물 성별 라벨값
	rotation	0	정수	바운딩 박스 회전
	width	9.19	실수	바운딩 박스 너비
	x	48.4	실수	x축 좌표
	y	38.1	실수	y축 좌표
	from_name	'gaze'	문자열	인물을 바라보는 카메라 시선 라벨 이름
	id	'Mm9Vm1HvYP'	문자열	해당 라벨 ID
	to_name	'image'	문자열	라벨링 원천이 되는 데이터 타입
	type	'choices'	문자열	라벨 타입 (여러 개 클래스 중 하나를 선택하는 형식)
	value	{'choices': ['back']}	사전	하위항목 사전화
	choices	['back']	리스트 안의 문자열	바운딩 박스된 인물을 바라보는 카메라의 시선값
	from_name	'emotion'	문자열	인물의 감정 라벨 이름
	id	'Zo7YdW0I3S'	문자열	해당 라벨 ID
	to_name	'image'	문자열	라벨링 원천이 되는 데이터 타입
	type	'choices'	문자열	라벨 타입 (여러 개 클래스 중 하나를 선택하는 형식)
	value	{'choices': ['angry']}	사전	하위항목 사전화
	choices	['angry']	리스트 안의 문자열	바운딩 박스된 인물의 감정 값
	from_name	'text'	문자열	인물의 발화 텍스트 라벨
	to_name	'video'	문자열	라벨 타입
	type	'textarea'	문자열	라벨 타입(텍스트를 입력하는 형식)
	value	{'text': ['안녕하세요']}	사전	하위항목 사전화
	text	['안녕하세요']	리스트 안의 문자열	바운딩 박스된 인물의 발화 텍스트 값
	from_name	'tone'	문자열	인물의 발화 어조 라벨
	id	'mnFOCjI944'	문자열	해당 라벨 ID
	to_name	'video'	문자열	라벨링 원천이 되는 데이터 타입
	type	'choices'	문자열	라벨 타입 (여러 개 클래스 중 하나를 선택하는 형식)
	value	{'choices': ['angry']}	사전	하위항목 사전화
	choices	['angry']	리스트 안의 문자열	바운딩 박스된 인물의 발화 어조 값
	from_name	'intent'	문자열	인물의 발화 의도 라벨
	id	'mnFOCjI944'	문자열	해당 라벨 ID
	to_name	'video'	문자열	라벨링 원천이 되는 데이터 타입
	type	'choices'	문자열	라벨 타입 (여러 개 클래스 중 하나를 선택하는 형식)
	value	{'choices': ['statement']}	사전	하위항목 사전화
	choices	['statement']	리스트 안의 문자열	바운딩 박스된 인물의 발화 의도 값
	from_name	'multimodel'	문자열	바운딩 박스된 인물의 인터랙션 여부 라벨
	id	'zgxtbjoOgK'	문자열	해당 라벨 ID
	to_name	'video'	문자열
	type	'choices'	문자열	라벨 타입 (여러 개 클래스 중 하나를 선택하는 방식)
	value	{'choices': ['no']}	사전	하위항목 사전화
	choices	['no']	리스트 안의 문자열	바운딩 박스된 인물의 인터랙션 여부 값

데이터셋 구축 담당자

수행기관(주관) : 서울대학교

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
장병탁	02-880-4258	btzhang@snu.ac.kr	· 데이터구축 총괄 · 데이터 정의 및 설계 · 데이터 가공 웹서비스 개발 · 데이터 수집, 정제, 가공, 검수 총괄 · 데이터 배포 (API 기반 배포) · 로봇 응용서비스 개발

수행기관(참여)

수행기관(참여)
기관명	담당업무
유탑소프트	· 데이터 가공 웹서비스 개발 및 가공 툴 개발 · 데이터 수집, 저장, 정제, 가공, 검수 지원 로봇 응용서비스 개발
퓨처로봇	· 데이터 수집, 저장, 정제, 가공, 검수 지원 · 로봇 활용
오픈링크 시스템	· 데이터 수집, 저장, 정제, 가공, 검수 지원 · 데이터 가공 툴 개발
로보쓰리	· 데이터 수집, 저장, 정제, 가공, 검수 지원 · 로봇 응용서비스 개발 · 로봇 활용

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
장병탁(서울대학교)	02-880-4258	btzhang@snu.ac.kr

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의