콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#여행 # 여행로그 #관광

NEW 국내 여행로그 데이터(서부권)

국내 여행로그 데이터 서부권 아이콘 이미지
  • 분야문화관광
  • 유형 텍스트 , 이미지
구축년도 : 2022 갱신년월 : 2023-12 조회수 : 2,129 다운로드 : 125 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2023-12-06 데이터 최종 개방
    1.0 2023-07-20 데이터 개방(Beta Version)

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2023-12-06 산출물 전체 공개

    소개

    전국을 수도권, 동부권, 서부권, 제주 및 도서지역 각 권역별로 4천세트 씩, 총 16,000세트의 여행로그 데이터를 구축

    구축목적

    - 여행자의 이동패턴과 소비내역, 활동 내역 등 데이터 수집
    - 관광업계 자체적으로 수집하기 어려운 양질의 AI데이터 제공
    - AI기술을 활용한 관광산업 혁신 생태계 구축
    - AI기술 기반의 개인화된 서비스로 관광객들의 경험 향상
  • 1. 데이터 구축 규모

    구분 구축실적
    [3-005-279] 서부권 여행자 정보 (여행자 패널 데이터) 4,000 SET
    동선 정보 (GPS 데이터 ) 4,000 SET
    활동정보 (여행기록 데이터 ) 4,000 SET
    활동정보 (여행지 사진 데이터) 161,444 장
    소비 내역 (소비내역 데이터 ) 4,000 SET
    POI 데이터  1 Set

     

    2. 데이터 분포

      서부권
    성별 1,524 38%
    2,476 62%
    연령별 20대 1,382 35%
    30대 1,376 34%
    40대 613 15%
    50대↑ 629 16%
    여행 기간별 당일 1,895 47%
    1박2일 1,551 39%
    2박3일이상 554 14%
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드
    학습 모델  알고리즘  성능지표  선정 사유
    여행객 정보 기반 고지출 여행객 예측 모델 Pycaret F1-score 0.70이상 - Data Leakage를 막기 위해 여행객의 사전 정보, 페르소나, 소득 수준, 호텔 예약 정보 등 여행 출발 이전부터 알 수 있는 정보를 정제한 후 선정
    - EDA를 통해 각 변수별 특성을 파악하고 소비 지출에 영향을 주는 변수에 무엇이 있는지 1차적으로 확인 
    - 2D Tensor Data의 분류 예측 문제는 일반적으로 트리 기반 부스팅 모형이 가장 좋은 성능을 보이나 데이터 전체 데이터 개수가 크지 않은 경우 Over fitting의 문제를 고려해야 함
    - 앙상블 이외의 모형이 더 좋은 성능을 보일 가능성을 배제할 수 없기 때문에 데이터 전처리 이후 Pycaret 알고리즘을 통해 Validation Data Set에 가장 높은 성능을 보이는 모델을 선정하고 추가 작업하여 최종 모델 선정
    여행객 선호도기반 여행 장소 추천 알고리즘 Essemble model  Recall@10 0.25 - 추천시스템은 전통적으로 협력필터링, 컨텐츠 기반 시스템 그리고 이 둘의 장점을 합친 하이브리드 모델이 존재
    - 최근 인공지능 분야의 비약적인 발전과 더불어 오토인코더와 같은 딥러닝 모델들이 추천시스템에 적용
    - 그러나 본 개발 모델의 경우 추천 성능 못지않게 이후 확장 가능성 및 모델 결과에 대한 분석 그 자체가 중요함
    - 따라서 기존 추천시스템에서 사용되던 딥러닝 기반 모델보다 사용자 정보를 넣었을 때 선호도를 예측하는 Regression 기반의 모델을 사용하여 추천 장소를 선정하는 방식을 선택
    - 일반적으로 2D Tensor 데이터에서 가장 좋은 성능을 보이는 Random Forest, Cat Boost, LGBM, XG Boost등의 모델을 후보 모델로 선정함

     

    1. 여행객 정보 기반 고지출 예측 모델 
    ◦ 모델 목적
    - 여행객들의 사전 정보를 토대로 여행 출발 전, 여행지에서 지출을 많이하는 여행객을 미리 예측하여 분류
    ◦ 사용 모델 및 선정 이유
    - 본 과제에서 활용할 수 있는 여행객 사전 정보에 범주형 데이터가 다수 존재하여 범주형 데이터를 효율적으로 처리하기 위해 Categorical Boosting Machine(Cat Boost)을 후보군 선정
    - 또한 데이터 특성과 모델 목적상 과적합 최소화를 위해 Cat Boost가 오버피팅을 줄이는 데 이점이 있고 자체적으로 feature importance를 제공하기에 예측 결과에 대한 사후 분석(feature 관련)에 유리하다는 점을 고려
    - 본 과제 1차 샘플 데이터를 활용하여 다른 모델들과 Cat Boost의 성능을 비교했을 때 Cat Boost가 우수한 성능을 보였고, 최종적으로 사용 모델로 선정
    ◦ 사용 데이터
    - 여행객 데이터 중 지출 예측에 유의미하다고 판단되는 데이터를 통합하고, data leakage가 없는 데이터를 선별하여 사용
    - 거주지시군구코드, 성별, 최종학력이수여부, 혼인상태, 가족현황, 직업_기타, 본인소득, 가구소득, 여행빈도_기간, 여행빈도, 선호여행_시도(3개), 여행스타일(8개), 여행현황(거주지, 목적지, 동반현황), 여행 동기, 주요이동수단, 여행 페르소나, 사전 소비내역
    ◦ 전처리 작업
    - 여행일수 전처리 : 여행 시작 및 종료 날짜 정보를 추출하고 총 여행 일수를 계산
    - 사전 숙박 예약 정보 : 숙박 데이터 결제 정보 중, 여행 일자 이전에 미리 예약한 내역만을 추출하여 ‘사전 숙소 예약 금액’을 0과 1사이 bin으로 처리
    - 동반자 연령대 : 구체적 연령대를 알 수 없어, 동반자 연령대의 평균을 추출하여 사용
    - feature 내부 데이터 전처리 : 데이터 중 라벨 인코더로 부여할 수 없는 정보들을 추출하고, 각 데이터 형태에 맞게 범주형 변수로 변경
        ex) 3개의 column에 나눠 있는 범주형 형태의 여행 동기를 binary 형태의 data로 
           바꿈
    ◦ 학습 모델 설계
    - Smote 적용
    - Imbalanced data model pipeline 구축
    - grid search와 random search를 조합한 Hyper parameter 탐색
    - 최종 모델 적합


    고지출 예측모델 학습 스크린샷

    [고지출 예측모델 학습 스크린샷]

    ◦ 성능 평가
    - 이진 분류를 평가하기에 적합한 f1_score을 기준으로 사용
    - 학습결과는 f1_score 성능 목표를 넘겼으며 test data set을 활용하여 검증한 결과는 아래와 같음

    F1-Score precision recall 목표 달성 여부
    0.8067 0.8286 0.7829 O

               - confusion matrix: 

    confusion matrix:

     

    2. 여행객 선호도 기반 여행 장소 추천 모델
    ◦ 모델 목적
    - 유저 정보와 여행지역(시/도) 정보가 주어지면 10개의 여행지를 추천하는 모델
    ◦ 사용 모델 및 선정 이유
    - [Cat Boost] 특성변수가 범주형일 때 일반적으로 사용하는 one-hot encoding 대신 실수인 순서목표통계량(ordered target statistic)으로 전환하여 사용하는 방식 
    - 범주형 특성변수가 많을 때 적합한 모델임. 본 과제에서는 범주형 데이터인 여행지명, 시/도, 군/구 정보를 학습하기에 용이하기 때문에 CatBoost를 모델로 선정
    ◦ 사용 데이터 (사용 변수)
    - (Input data) 유저 정보 및 여행지 정보
    - (output) 추천 여행지 10군데
    - 데이터 중 활용 변수는 유저 정보와 여행지 정보로 구분하여 사용

    유저 정보 : 유저 미션, 성별, 연령대, 소득, 여행스타일(8개 항목), 여행동기(1개 항목), 동반자 수
    여행지 정보 : 여행지명, 여행지 시/도 및 군/구 정보, 여행지 종류, 해당 여행지 체류시간 평균, 추천 의향 점수 평균, 재방문 의향 점수 평균, 재방문 여부 비율, 동반자 수 평균 만족도

    ◦ 전처리 작업
    - 여행지 선별 : 방문지 유형코드 중 1-자연관광지, 2-역사/유적/종교 시설 (문화재, 박물관, 촬영지, 절 등), 3-문화시설(공연장, 영화관, 전시관 등), 4-상업지구(거리, 시장, 쇼핑시설), 5-레저/스포츠 관련 시설(스키, 카트, 수상레저), 6-테마시설(놀이공원, 워터파크), 7-산책로, 둘레길 등, 8-지역축제, 행사에 해당하는 방문지를 여행지로 파악해 데이터 사용
    - 시/도 변수, 군/구 변수 생성 : 여행지의 주소에서 시/도와 군/구 변수 생성
          예시) 인천 강화군 삼산면 매음리 629 → 시/도 변수: 인천, 군/구 변수: 강화군
    - 학습데이터에서 여행지에 대한 평균 변수 생성 : 학습데이터에서 각각의 여행지마다 체류시간 평균, 추천의향 점수의 평균, 재방문 비율, 동반자 수의 평균, 재방문의향 점수의 평균을 산출해 변수 생성

    ◦ 학습모델 설계
    - Random Search를 활용한 초모수 조절 
     · K-Fold Cross Validation를 병행하여 가장 검증된 초모수 값 확보
     · 데이터셋에 고유한 관광지가 많아 학습 시 최대한 많은 데이터를 보존하기 위해 K=10, 10개의 fold로 교차검증 진행
    - CatBoost Regressor를 적용해 만족도 예측
     · 만족도: 1(매우 불만족), 2(불만족), 3(보통), 4(만족), 5(매우 만족)
    - 모델이 예측한 여행지의 만족도가 4.5이상이면 추천 항목에 포함
           ※ 추천의 기준으로 설정한 4.5는 도메인에 따라 조정이 가능하며 본과제에서는 사용자가 관광지에 대한 만족도를 4점, 5점으로 주는 경향이 높아 보수적으로 4.5를 임계값으로 설정
    ◦ 성능 평가
    - Recall@10

    Recall@10 수식

    ※ 사용자가 만족하는 모든 아이템 중에서 모델이 추천한 아이템 10개가 얼마나 포함되는지 비율을 의미하며 각 사용자마다의 recall@10 값을 구하여 그 평균을 최종 recall@10 값으로 산정

    - 최종 성능 : 0.3745 (목표 성능 이상)

  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 여행객 정보 기반 고지출 여행객 예측 성능 Prediction Cat Boost Classifier F1-Score 0.7 0.7465
    2 여행객 선호도 기반 여행 장소 추천 성능 Extraction Cat Boost Recall@10 25 % 37.1 %

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    1. 데이터 구축 ERD

    국내여행로그데이터수집 ERD

    [ 3-005_국내여행로그데이터수집_ERD.png ]

     

    2. 데이터 구성

    데이터구분 데이터 데이터 명 수량
    [3-005-279] 서부권 여행로그 데이터 tc_codea_코드A.csv 각csv 파일별 4,000Set 구성
    tc_codeb_코드B.csv 
    tc_sgg_시군구코드.csv 
    tn_activity_consume_his_활동소비내역_C.csv
    tn_activity_his_활동내역_C.csv
    tn_adv_consume_his_사전소비내역_C.csv
    tn_companion_info_동반자정보_C.csv 
    tn_lodge_consume_his_숙박소비내역_C.csv
    tn_move_his_이동내역_C.csv
    tn_mvmn_consume_his_이동수단소비내역C.csv
    tn_tour_photo_관광사진_C.csv
    tn_traveller_master_여행객 Master_C.csv
    tn_travel_여행_C.csv
    tn_visit_area_info_방문지정보_C.csv
    tn_poi_master_POIMaster.csv POI Master
    gps_Data n_gps_coord_*.csv [ * = 여행객 ID ] 4,000개
    photo 여행객ID + 순번. jpg  161,444개
  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜데이터웨이
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    김정남 02-2205-4500 33823698@data-way.co.kr 사업 실무 책임자
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜데이터웨이 데이터 설계, 검사
    ㈜케이스탯리서치 데이터 획득(수집)
    ㈜올포랜드 데이터 정제
    ㈜지디에스컨설팅그룹 데이터 가공, 저작도구 개발
    에이드리븐(주) 크라우드 소싱
    ㈜티지360테크놀로지스 크라우드 소싱
    고려대학교 산학협력단 AI모델 개발
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    김정남 02-2205-4500 33823698@data-way.co.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.