AI-Hub

#로보틱스 # 소셜로봇 # 로봇인공지능 # 행동분석 # 질의응답

소셜로봇 고객응대 데이터

분야로보틱스
유형 비디오 , 이미지

구축년도 : 2022 갱신년월 : 2023-12 조회수 : 28,487 다운로드 : 329 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2023-12-22	데이터 최종 개방
1.0	2023-07-31	- 클래스별 분포 데이터 개방(Beta Version)

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2023-12-22	산춞울 전체 공개

소개

소셜 로봇이 고객의 속성과 상태, 서비스 상황을 이해하고 적절한 서비스 
행동을 수행하기 위한 인공지능 모델 구축을 위한 데이터 수집

구축목적

본 세부과제에서는 소셜로봇이 고객의 속성과 상태, 서비스 상황을 이해하고 적절한 서비스 행동을 수행하기 위한 인공지능 모델을 구축하고자 함

메타데이터 구조표
데이터 영역	로보틱스	데이터 유형	비디오 , 이미지
데이터 형식	mp4, png	데이터 출처	자체 수집
라벨링 유형	바운딩박스(이미지), 키포인트(이미지), 고객행동설명문(자연어)	라벨링 형식	json, csv
데이터 활용 서비스	소셜로봇 서비스, 소셜로봇 상황인식과 표현 서비스	데이터 구축년도/ 데이터 구축량	2022년/mp4 : 301,435개, json : 301,435개

1. 데이터구축 수량
영상 : 301,435개

2. 데이터 분포
2-1 고객 성별 분포

2. 데이터 분포 2-1 고객 성별 분포
구분	구성비	수량(건)
남자	40.92%	12.361
여자	58.90%	177.544
알 수 없음	0.18%	530
총 계	100.00%	301.435

2-2 고객 연령 분포

2. 데이터 분포 2-2 고객 연령 분포
구분	구성비	수량(건)
20세 미만	0.31%	924
20세 이상 30세 미만	47.75%	143,944
30세 이상 40세 미만	48.26%	145,483
40세 이상 50세 미만	3.47%	10,455
50세 이상	0.21%	629
총 계	100.00%	301,435

2-3 고객 발화의도별 분포

2. 데이터 분포 2-3 고객 발화의도별 분포
구분	구성비	수량(건)
요청	48.43%	145975
인사	6.38%	19227
질문	22.21%	66960
약속	11.60%	34958
수락	6.27%	18893
예약	5.12%	15422
총 계	100.00%	301.435

2-4 로봇 행위별 분포

2. 데이터 분포 2-4 로봇 행위별 분포
구분	구성비	수량(건)
정보접수	41.82%	182400
정보확인	28.58%	124689
정보탐색	13.38%	58359
물건전달	6.63%	28909
동반주행	9.59%	41848
총 계	100.00%	436205

2-5 고객 표정별 분포

2. 데이터 분포 2-5 고객 표정별 분포
구분	구성비	수량(건)
기쁨	13.31%	400201
화남	10.16%	305432
놀람	6.08%	182676
무표정	66.73%	2005745
모름	3.72%	111847
총 계	100.00%	3005901

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드

AI 모델 상세 설명서 다운로드

AI 모델 상세 설명서 다운로드 AI 모델 다운로드

o 학습모델
• 고객 얼굴 표정 분류 모델
- 얼굴 표정 분류 모델은 비디오 및 이미지에서 사람의 감정이 비교적 잘 드러나는 얼굴을 통해 어떤 표정(감정)인지 분류하는 모델이다.
- 데이터 셋 분할

o 학습모델• 고객 얼굴 표정 분류 모델
구분	학습(Learning)	검증(Validation)	시험(Test)
데이터 역할	모델 학습	모델 과적합 방지	모델 검증
건수 및 비율	58,925 (80%)	7,216 (10%)	7,270 (10%)

고객 얼굴 표정 분류 모델 데이터 사용 단계

<데이터 사용 단계>

고객얼굴표정 모델 학습 예시

<모델 학습 예시>

• 고객 행동 설명문 생성 모델
- DVC(Dense-Video-Captioning) 분야는 영상에 대한 캡션을 생성하는 Video-Captioning 분야보다 고도화된 분야로, 비디오 내의 행동들에 대한 시간적 위치 및 캡션을 생성한다.

- 데이터 셋 분할

o 학습모델• 고객 행동 설명문 생성 모델
구분	학습(Learning)	검증(Validation)	시험(Test)
데이터 역할	모델 학습	모델 과적합 방지	모델 검증
건수 및 비율	241,400 (80%)	30,018 (10%)	30,018 (10%)

고객 행동 설명문 생성 모델 데이터 사용 단계

<데이터 사용 단계>

고객 행동 설명문 생성 모델 학습 예시

<모델 학습 예시>

• 소셜 로봇 질의 응답 모델
- 비디오 내의 사람의 행동과 표정, 발언을 입력받아 적절한 답변을 생성 할 수 있는 모델로, 많은 딥러닝 모델들의 기본 구조로 사용되는 Transformer 모델을 선정했다.
- 데이터 셋 분할

o 학습모델• 소셜 로봇 질의 응답 모델
구분	학습(Learning)	검증(Validation)	시험(Test)
데이터 역할	모델 학습	모델 과적합 방지	모델 검증
건수 및 비율	241,400 (80%)	30,018 (10%)	30,018 (10%)

소셜 로봇 질의 응답 모델 데이터 사용 단계

<데이터 사용 단계>

소셜 로봇 질의 응답 모델 학습 예시

<모델 학습 예시>

o 활용서비스
• 소셜 로봇 플랫폼
- 감성표현을 위한 로봇 얼굴 기술
· 하드웨어 장치, 아바타, 프로젝션 등 다양한 접근 방법을 기반으로 사용자, 환경 및 상호작용 상황에 따라 풍부한 감정을 표현할 수 있는 로봇 얼굴의 디자인, 제작 및 제어 기술
- 유연한 제스처와 자세 표현 기술
· 고개 움직임, 팔 동작, 몸체 자세 등 상호작용 상황에 적합한 다양한 자세와 동작을 유연하고 효율적으로 표현 할 수 있는 하드웨어 제작 및 제어 기술

• 상황인식과 표현
- 로봇 영상 기반 사용자 행동 인식 기술
· 사용자의 제스처, 자세, 활동을 인식하는 기술
- 멀티모달 신호 기반 사용자 감정 인식 기술
· 영상과 음성 신호를 기반으로 표정, 말투, 음운 등의 정보를 검출하여 사용자의 감정을 인식하는 기술
- 멀티모달 감정 표현 기술
· 상황 변화에 따라 감정 상태를 제어하는 로봇 감정 모델과 이를 기반으로 로봇의 다양한 표현 메커니즘을 융합하여 효과적으로 감정을 표현하는 기술

• 콘텐츠/서비스 통합운영
- 멀티모달 대화 시나리오 저작 기술
· 로봇의 멀티모달 표현 기능을 활용하는 대화 기반의 상호작용 시나리오를 효율적으로 저작할 수 있는 언어 체계와 저작 도구
- 멀티모달 상호작용 실행 엔진 기술
· 저작된 시나리오를 해석하여 상호작용 상황에 적합한 로봇 행위를 결정하고 실행하는 실행 엔진 기술
- 멀티모달 인식제어 통합
· 소셜 로봇의 상호작용 능력을 실현하는데 필요한 다수의 SW 모듈을 대상으로 연동 체계, 처리 흐름, 자원 관리 등을 통합 제어하는 기술
- IoT 및 클라우드 서비스 연동 기술
· 로봇 자체 플랫폼뿐 아니라 환경 내 IoT 장치와 클라우드로부터 정보를 획득하여 활용하고 제어함으로써 서비스의 양과 질을 향상하고, 클라우드를 통해 로봇 간의 정보 공유와 협업을 이룩하는 연동 기술

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	고객 얼굴 표정 분류 성능	Image Classification	EfficientNet-B0	Accuracy	63 %	79.24 %
2	고객 행동 설명문 생성 성능	Image Generation	PDVC	BLEU	0.75 점	0.3895 점
3	소셜 로봇 질의 응답 성능	Question Answering	Transformer	BLEU	0.5 점	0.8842 점

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

1. 데이터 설명

1. 데이터 설명
구분	분류	설명
원천데이터	카테고리	1. 식당/카페 :
		① 입장 및 이용안내
		② 자리안내
		③ 메뉴추천
		④ 메뉴주문
		⑤ 식음료 서빙
		⑥ 결제 및 할인/포인트 적립안내
		2. 전시관 :
		① 티켓구매
		② 티켓확인 및 입장안내
		③ 위치안내
		④ 분실물 안내
		⑤ 이벤트 및 행사안내
		⑥ 부대시설 안내
		3. 공공기관 :
		① 입장 및 민원서비스 이용안내
		② 민원별 번호표 발급 및 창구번호 안내
		③ 준비서류 확인
		④ 민원신청서 작성안내
		⑤ 민원 신청서 용어 질문
		⑥ 관내 복지/지원금 정보 질문
		4. 쇼핑활동 :
		① 입장 및 소개
		② 가이드 필요 유무 질문
		③ 이벤트 상품 정보안내
		④ 세일 정보안내
		⑤ 재고 현황 안내
		⑥ 피팅룸 안내
		⑦ 수선 및 배송 서비스 안내
		⑧ 결제 및 주차등록 안내
		5. 건강/의료 :
		① 진료접수 안내
		② 증상 상담
		③ 대기실 및 진료실 위치안내
		④ 약국 위치 문의
		⑤ 수납 방법 안내
		⑥ 증빙서류 발급
		⑦ 다음 진료일 예약
	영상시간	15초
	파일명	도메인번호_촬영회차_상황번호_촬영날자_sound.파일명
	RS0001_01_R01_1104_sound.mp4	도메인번호_촬영회차_상황번호_촬영날자_sound.파일명
라벨링데이터	카테고리	원천데이터와 동일
	json 파일	RS0001_01_R01_1104_sound.json
	json 파일	(원천데이터 1개에 대한 json 구성)

2. 라벨링 데이터 어노테이션 포맷

2. 라벨링 데이터 어노테이션 포맷
No	항목		타입	필수여부	비고
	한글명	영문명
	video	video	object	Y
1	비디오 파일명	video_id	string	Y
2	비디오 총 프레임 개수	video_frames	number	Y
3	초당 프레임 개수	video_fps	number	Y
4	동영상 전체 길이	video_duration	number	Y
5	동영상 넓이	video_width		Y
6	동영상 높이	video_height		Y
7	비디오 파일 이름 및 위치	video_file_name		Y
8	비디오 생성 시기	date_captured		Y
9	비디오 촬영 장소	location		Y
10	고객 성별	client_gender		Y
11	고객 나이	client_age		Y
12	고객 악세서리	client_accessory		Y
13	고객 외형	client_appearance		Y
14	고객 인원 수	client_number		Y
15	데이터 전체 정보	interactions		Y
15-1	고객 발화 및 행동 전체 정보	human_event		Y
15-1-1	고객 발화 및 행동 시점 중 최소값	start		Y
15-1-2	고객 발화 및 행동 시점 중 최대값	end		Y
15-1-3	고객 행동 클래스 정보	actions		Y
15-1-3-1	고객 행동 클래스 분류	action_class		Y
15-1-3-2	고객 행동 설명문	action_discription	string	Y
15-1-3-3	고객 행동 시작 시점	action_start		Y
15-1-3-4	고객 행동 종료 시점	action_end		Y
15-1-4	고객 발화 클래스 정보	utterances		Y
15-1-4-1	고객 발화 의도 클래스 분류	utterance_intend		Y
15-1-4-2	고객 발화 내용	utterance_cap		Y
15-1-4-3	고객 발화 시작 시점	utterance_start		Y
15-1-4-4	고객 발화 종료 시점	utterance_end		Y
15-2	바운딩 박스 전체 정보	faces			전체 영상 중 얼굴표정 라벨링 작업은 일부에 해당함. 바운딩 박스 작업에 해당하지 않은 데이터는 faces 값 값을 갖지 않음
15-2-1	프레임 추출 시점	time
15-2-2	고객 바운딩박스 좌표	face_bbox
15-2-3	고객 표정 클래스 분류	face_class
15-3	로봇 발화 전체 정보	robot_response		Y
15-3-1	로봇 발화 내용	answer		Y
15-3-2	로봇 발화 시작 시점	start		Y
15-3-3	로봇 발화 종료 시점	end		Y
15-3-4	로봇 행동 클래스 분류	action_class		Y

3. 라벨링 데이터 실제 예시
{
"video": {
"video_id": "ES001_10_E07_1027_color",
"video_frames": 419,
"video_fps": 30.0,
"video_duration": 14.0,
"video_width": 1280,
"video_height": 720,
"video_file_name": "02.전시관/07.티켓구매/mp4/ES001_10_E07_1027",
"date_captured": "2022-10-27",
"location": "방그레",
"client_gender": 2,
"client_age": 33,
"client_accessory": "['모자', '목걸이']",
"client_appearance": "[1, 6, 10]",
"client_number": 1,
"interactions": [
{
"human_event": {
"start": "00:02.4000",
"end": "00:06.7700",
"actions": [
{
"action_class": "[1]",
"action_start": "00:02.4000",
"action_end": "00:06.7700"
}
],
"utterances": [
{
"utterance_intend": "[1]",
"utterance_cap": "요 앞에서 보니까 KT 쓰면 50% 할인된다는데, 여기서 핸드폰 보여드리면 돼요?",
"utterance_start": "00:02.4000",
"utterance_end": "00:06.7700"
}
]
},
"faces": [
{
"face_bbox": null,
"face_class": null
}
],
"robot_response": [
{
"answer": "휴대폰의 KT 멤버십 어플에서 팸플릿의 안내에 따라 선예매 후 저희에게 보여주시면 이용안내 도와드리겠습니다.",
"start": "00:07.1000",
"end": "00:13.7100",
"action_class": "[1]"
}
]
}
]
}
}

데이터셋 구축 담당자

수행기관(주관) : 스파크엑스

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
최지민		jm.choi@teamsparkx.com	품질관리실무자

수행기관(참여)

수행기관(참여)
기관명	담당업무
국민대	데이터 품질관리
브릭메이트	데이터 가공
서랩	데이터 수집
코테크시스템	AI 모델 개발

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
최지민		jm.choi@teamsparkx.com

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

파일 목록

전체 다운로드 AI 허브 Shell 다운로드 AI 허브 오픈 API 이용안내

오프라인 데이터 이용 안내

본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.

K-ICT 빅데이터센터는 데이터 안심구역으로 지정되어
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.

데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

K-ICT 빅데이터센터 이동

연관 데이터

배송로봇 비도로 운행 데이터

로봇 관점 주행 영상(고도화) - 소셜 내비게이션 로봇 주행

보행보조 착용형 로봇 모션 데이터

로봇 핸드용 객체 특성 식별 데이터

손∙팔 협조에 의한 파지-조작 동작 데이터

로봇 행동 데이터(소형객체 파지)

가려진 객체 추론 데이터

로봇 행동 데이터 (3D 물건 파지)

소셜로봇 고객응대 데이터

데이터 개요

데이터 변경이력

데이터 히스토리

소개

구축목적

메타데이터 구조표

데이터 통계

교육활용 동영상

저작도구

저작도구 설명서 및 저작도구 다운로드

활용 AI 모델 및 코드

AI 모델 상세 설명서 다운로드

데이터 성능 지표

데이터 성능 점수

데이터 성능 지표

어노테이션 포맷 및 데이터 구조

설명서 및 활용가이드 다운로드

구축 업체

데이터셋 구축 담당자

수행기관(주관) : 스파크엑스

수행기관(참여)

데이터 관련 문의처

안심존 소개

안심존 이용절차

안심존사용신청서 및 첨부서류목록

안심존 이용문의

파일 목록

오프라인 데이터 이용 안내

연관 데이터