-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.2 2024-12-04 서브라벨링 추가 개방 1.1 2024-10-30 데이터 최종 개방 1.0 2024-07-05 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-07-05 산출물 공개 Beta Version 소개
- 국내를 수도권/동부권/서부권/제주및도서권 등 4개의 권역으로 나누어 각각3,200명 씩 총 12,800명의 여행객들을 대상으로 활동내역, 방문지, 소비내역 등 데이터를 구축
구축목적
- 관광업계 자체적으로 수집하기 어려운 양질의 AI데이터 제공 - AI기술을 활용한 관광산업 혁신 생태계 구축 - AI기술 기반의 개인화된 서비스로 관광객들의 경험 향상
-
메타데이터 구조표 데이터 영역 문화관광 데이터 유형 텍스트 , 이미지 데이터 형식 CSV, JPG, JSON 데이터 출처 여행자 전용 앱 (여행로그 앱)을 통하여 직접 데이터 수집 라벨링 유형 여행로그 데이터 (텍스트) 라벨링 형식 CSV, JSON 데이터 활용 서비스 국내 여행지 추천 및 숙박지 추천 서비스 데이터 구축년도/
데이터 구축량2023년/3,200set -
- 데이터 구축 규모
데이터 구축 규모 구분 구축실적 [119-147] 서부권 여행자 정보 (여행자 패널 데이터) 3,200 SET 동선 정보 (GPS 데이터 ) 3,200 SET 활동정보 (여행기록 데이터 ) 3,200 SET 소비 내역 (소비내역 데이터 ) 3,200 SET 여행지 사진 데이터 18,367 장 이미지캡션 데이터 3,089 장 ※ Other : POI Master 데이터 1Set
- 데이터 분포(단위:명)
데이터 분포 구분 서부권 성별 남 1,403 44% 여 1,797 56% 연령별 20대 1,117 35% 30대 995 31% 40대 608 19% 50대↑ 480 15% 여행
기간별당일 1,604 50% 1박2일 1,169 37% 2박3일↑ 427 13% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 학습모델 Input/Output 데이터 정의
학습모델 Input/Output 데이터 정의 AI학습 모델 Input 데이터 Output 데이터 여행로그
장소 추천
고도화- 여행자 정보
(연령대, 소득 구간, 여행 성향,
여행 스타일, 여행 목적, 동반자
정보, 동반자 수, 여행 페르소나,
주요 이동 수단 등 )
- 여행지 정보
(위치정보, 여행지명)- 여행 장소
추천 5개여행객 선호도
기반 관광지
숙박유형 추천- 여행자 정보
(연령대, 소득 구간, 여행 성향,
여행 스타일, 여행 목적, 동반자
정보, 동반자 수, 여행 페르소나,
주요 이동 수단 등 )
- 여행지 정보
(위치정보, 여행지명)- 관광지 숙박 장소
추천 5개- 모델개발을 위한 적용 알고리즘
모델개발을 위한 적용 알고리즘 AI 학습 모델 알고리즘 대분류 활용 예정 알고리즘 후보 여행로그
장소 추천
고도화만족도 예측
Ensemble 모형을
제작하여 추천Light Gradient Boosting Machine Extreme Gradient Boosting Machine categorical boosting Machine 추천 시스템 알고리즘 Collaborative Filtering Catboost 여행객 선호도
기반 관광지
숙박장소 추천만족도 예측
잠재요인 기반의
협업 필터링 모형을
제작하여 추천Latent Factor-based Collaborative Filtering 추천 시스템 알고리즘 Collaborative Filtering □ recall@R ( user ) 출처
: “Variational Autoencoders for Collaborative Filtering” 694 page
□ recall@R ( user ) 출처
: “Variational Autoencoders for Collaborative Filtering” 694 page -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 테이블 정의
테이블 정의 한글테이블명 영문테이블명 설명 여행객 Master TN_TRAVELLER_MASTER 여행객에 대한 정보 POI Master TN_POI_MASTER POI 정보 여행 TN_TRAVEL 여행 기본 정보 동반자정보 TN_COMPANION_INFO 동반자 정보 이동내역 TN_MOVE_HIS 여행기간동안 이동한 내역 GPS좌표 TN_GPS_COORD 이동한 GPS 좌표 정보 이동수단소비내역 TN_MVMN_CONSUME_HIS 교통비 숙박소비내역 TN_LODGE_CONSUME_HIS 숙박비 사전소비내역 TN_ADV_CONSUME_HIS 여행 가기 전에 소비내역 방문지정보 TN_VISIT_AREA_INFO 여행 방문지 정보 관광사진 TN_TOUR_PHOTO 여행 중 촬영한 여행 사진 활동내역 TN_ACTIVITY_HIS 여행기간동안 활동한 내역 활동소비내역 TN_ACTIVITY_CONSUME_HIS 여행기간동안 소비한 내역 시군구 TC_SGG 시군구 코드 테이블 코드A TC_CODEA 코드 리스트 테이블 코드B TC_CODEB 코드 상세 테이블 - 여행로그 데이터 구축
여행로그 데이터 구축 경로 구분 정보 파일 원천
데이터photo 여행객ID + 순번.jpg (데이터 구성 및 구분정보 참조) 라벨링
데이터csv c_codea_코드A.csv
tc_codeb_코드B.csv
tc_sgg_시군구코드.csv
tn_activity_consume_his_활동소비내역_H.csv
tn_activity_his_활동내역_H.csv
tn_adv_consume_his_사전소비내역_H.csv
tn_companion_info_동반자정보_H.csv
tn_lodge_consume_his_숙박소비내역_H.csv
tn_move_his_이동내역_H.csv
tn_mvmn_consume_his_이동수단소비내역_H.csv
tn_tour_photo_관광사진_H.csv
tn_traveller_master_여행객 Master_H.csv
tn_travel_여행_H.csv
tn_visit_area_info_방문지정보_H.csvPOIMaster tn_poi_master_POIMaster.csv gps_data tn_gps_coord_{}.csv (권역별 3,200개) ( {} = 여행객 ID ) 서브라벨링/json 여행객ID + 순번. json (데이터 구성 및 구분정보 참조) - csv 파일
csv 파일 예시 세부 구성 설명 tn_activity_consume_his_활동소비내역_G.csv
{tn_activity_consume_his}_{활동소비내역}_{G}.csv{영문테이블명}_{한글테이블명}_{권역정보}.csv
※ 권역정보
E : 수도권
F : 동부권
G : 서부권
H : 제주도 및 도서지역- gps_data 파일
gps_data 파일 예시 세부 구성 설명 tn_gps_coord_e_e005168.csv
{tn_gps_coord}_{e_e005168}.csv{영문테이블명}_{여행객아이디}.csv
- 관광사진 파일관광사진 파일 예시 세부 구성 설명 e00083201004p0003.jpg
{e000832}{01}{004}{p}{00}{03}.jpg{여행자계정}{여행일순번}{경로번호}{사진구분}{활동번호}{사진번호}.jpg 여행자
계정여행일
순번경로
번호사진
구분활동
번호사진
번호(7) (2) (3) (1) (2) (2) 권역
+
6자리1일~
n일001
~
099P=
관광
사진사진
구분
P이면,
00값
입력사진
번호
- json 파일 (이미지캡션)json 파일 (이미지캡션) 예시 세부 구성 설명 e00083201004p0003.json
{e000832}{01}{004}{p}{00}{03}.json{여행자계정}{여행일순번}{경로번호}{사진구분}{활동번호}{사진번호}.jpg 여행자
계정여행일
순번경로
번호사진
구분활동
번호사진
번호(7) (2) (3) (1) (2) (2) 권역
+
6자리1일~
n일001
~
099P=
관광
사진사진
구분
P이면,
00값
입력사진
번호
- 데이터 예시• 여행자 정보[ ※이미지 파일(119.여행로그 데이터_여행자정보_예시.jpg) 별첨 ]
• 여행 동선 [ ※이미지 파일(119.여행로그 데이터_여행동선_예시.jpg) 별첨 ]• 소비내역 [ ※이미지 파일(119.여행로그 데이터_소비내역_예시.jpg) 별첨 ]
• 활동 기록
- 활동내역 [ ※이미지 파일(119.여행로그 데이터_활동내역_예시.jpg) 별첨 ]
- 방문지 데이터 [ ※이미지 파일(119.여행로그 데이터_방문지데이터_예시.jpg) 별첨 ]• 여행지 사진
- 원천 데이터원천 데이터 조형물 사진 음식 사진 가게 사진 - 메타 데이터 [ ※이미지 파일(119.여행로그 데이터_여행지사진메타데이터_예시.jpg) 별첨 ]
• 이미지 캡션
- 원천 데이터원천 데이터 <사진 예시1>
<사진 예시 2>
- 라벨 데이터
{
"Info": {
"DATASET_NM": "2023년 여행로그 관광사진 데이터",
"DATASET_DETAIL": "2023년 국내 여행로그 데이터수집으로 구축된 관광사진 데이터"
},
"images": {
"PHOTO_FILE_ID": "e00029601002p0002",
"PHOTO_FILE_NM": "e00029601002p0002.jpg",
"PHOTO_FILE_SAVE_PATH": "/photo/",
"PHOTO_FILE_RESOLUTION": "4032x3024",
"PHOTO_FILE_DT": "2023-05-23 11:57:51",
"PHOTO_FILE_X_COORD": "127.06820555556",
"PHOTO_FILE_Y_COORD": "37.488922222222",
"VISIT_AREA_NM": "백년교동짬뽕 개포점",
"LANDMARK": ""
},
"caption": {
"IMG_CAPTION": "열려있는 식당 출입구 좌측에 화분이 있고 뒤에 빗자루가 있습니다",
"TOKEN": "9",
"TIME_STAMP": "2023-05-23 11:57:51"
},
"licenses": {
"ID": "CC-BY-SA-4.0",
"NAME": "(주)데이터웨이"
}
}• POI 데이터
- 메타데이터 [ ※이미지 파일(119.여행로그 데이터_POI메타데이터_예시.jpg)로 별첨 ]
-
데이터셋 구축 담당자
수행기관(주관) : ㈜데이터웨이
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김정남 02-2205-4500 33823698@data-way.co.kr 데이터검수 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜케이스탯리서치 데이터수집 ㈜올포랜드 데이터정제, 가공 에이드리븐㈜ 여행객모집 와비이에스에듀 사회적협동조합 여행객관리 ㈜지디에스컨설팅그룹 데이터정제, 가공 고려대학교 산학협력단 AI모델 개발 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 엄익현 02-2205-4500 33823698@data-way.co.kr 김정남 02-2205-4500 33823698@data-way.co.kr AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 이영환 02-3290-4015 js2fred@korea.ac.kr 이종서 02-3290-4015 js2fred@korea.ac.kr 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 이상훈 02-2135-8895 madjeus1@gdscounsulting.co.kr 손경락 02-2135-8895 madjeus1@gdscounsulting.co.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.