콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#여행 # 여행로그 #관광

NEW 국내 여행로그 데이터(동부권)

국내 여행로그 데이터(동부권) 아이콘 이미지
  • 분야문화관광
  • 유형 텍스트 , 이미지
구축년도 : 2022 갱신년월 : 2023-12 조회수 : 4,342 다운로드 : 267 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2023-12-06 데이터 최종 개방
    1.0 2023-07-20 데이터 개방(Beta Version)

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2023-12-06 산출물 전체 공개

    소개

    전국을 수도권, 동부권, 서부권, 제주 및 도서지역 각 권역별로 4천세트 씩, 총 16,000세트의 여행로그 데이터를 구축

    구축목적

    - 여행자의 이동패턴과 소비내역, 활동 내역 등 데이터 수집
    - 관광업계 자체적으로 수집하기 어려운 양질의 AI데이터 제공
    - AI기술을 활용한 관광산업 혁신 생태계 구축
    - AI기술 기반의 개인화된 서비스로 관광객들의 경험 향상
  • 1. 데이터 구축 규모

    구분 구축실적
    [3-005-278] 동부권 여행자 정보 (여행자 패널 데이터) 4,000 SET
    동선 정보 (GPS 데이터 ) 4,000 SET
    활동정보 (여행기록 데이터 ) 4,000 SET
    활동정보 (여행지 사진 데이터) 160,237 장
    소비 내역 (소비내역 데이터 ) 4,000 SET
    POI 데이터  1 Set

     

    2. 데이터 분포

      동부권
    성별 1,563 39%
    2,437 61%
    연령별 20대 1,335 33%
    30대 1,321 33%
    40대 652 16%
    50대↑ 692 17%
    여행 기간별 당일 1,792 45%
    1박2일 1,532 38%
    2박3일이상 676 17%
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드
    학습 모델  알고리즘  성능지표  선정 사유
    여행객 정보 기반
    고지출 여행객
    예측 모델
    Pycaret F1-score 0.70이상 - Data Leakage를 막기 위해 여행객의 사전 정보, 페르소나, 소득 수준, 호텔 예약 정보 등 여행 출발 이전부터 알 수 있는 정보를 정제한 후 선정
    - EDA를 통해 각 변수별 특성을 파악하고 소비 지출에 영향을 주는 변수에 무엇이 있는지 1차적으로 확인 
    - 2D Tensor Data의 분류 예측 문제는 일반적으로 트리 기반 부스팅 모형이 가장 좋은 성능을 보이나 데이터 전체 데이터 개수가 크지 않은 경우 Over fitting의 문제를 고려해야 함
    - 앙상블 이외의 모형이 더 좋은 성능을 보일 가능성을 배제할 수 없기 때문에 데이터 전처리 이후 Pycaret 알고리즘을 통해 Validation Data Set에 가장 높은 성능을 보이는 모델을 선정하고 추가 작업하여 최종 모델 선정
    여행객 선호도 기반
    여행 장소 추천
    알고리즘
    Essemble model Recall@10 0.25 - 추천시스템은 전통적으로 협력필터링, 컨텐츠 기반 시스템 그리고 이 둘의 장점을 합친 하이브리드 모델이 존재
    - 최근 인공지능 분야의 비약적인 발전과 더불어 오토인코더와 같은 딥러닝 모델들이 추천시스템에 적용
    - 그러나 본 개발 모델의 경우 추천 성능 못지않게 이후 확장 가능성 및 모델 결과에 대한 분석 그 자체가 중요함
    - 따라서 기존 추천시스템에서 사용되던 딥러닝 기반 모델보다 사용자 정보를 넣었을 때 선호도를 예측하는 Regression 기반의 모델을 사용하여 추천 장소를 선정하는 방식을 선택
    - 일반적으로 2D Tensor 데이터에서 가장 좋은 성능을 보이는 Random Forest, Cat Boost, LGBM, XG Boost등의 모델을 후보 모델로 선정함

     

    1. 여행객 정보 기반 고지출 예측 모델 
    ◦ 모델 목적
        - 여행객들의 사전 정보를 토대로 여행 출발 전, 여행지에서 지출을 많이하는 여행객을 미리 예측하여 분류
    ◦ 사용 모델 및 선정 이유
        - 본 과제에서 활용할 수 있는 여행객 사전 정보에 범주형 데이터가 다수 존재하여 범주형 데이터를 효율적으로 처리하기 위해 Categorical Boosting Machine(Cat Boost)을 후보군 선정
        - 또한 데이터 특성과 모델 목적상 과적합 최소화를 위해 Cat Boost가 오버피팅을 줄이는 데 이점이 있고 자체적으로 feature importance를 제공하기에 예측 결과에 대한 사후 분석(feature 관련)에 유리하다는 점을 고려
        - 본 과제 1차 샘플 데이터를 활용하여 다른 모델들과 Cat Boost의 성능을 비교했을 때 Cat Boost가 우수한 성능을 보였고, 최종적으로 사용 모델로 선정
    ◦ 사용 데이터
        - 여행객 데이터 중 지출 예측에 유의미하다고 판단되는 데이터를 통합하고, data leakage가 없는 데이터를 선별하여 사용
        - 거주지시군구코드, 성별, 최종학력이수여부, 혼인상태, 가족현황, 직업_기타, 본인소득, 가구소득, 여행빈도_기간, 여행빈도, 선호여행_시도(3개), 여행스타일(8개), 여행현황(거주지, 목적지, 동반현황), 여행 동기, 주요이동수단, 여행 페르소나, 사전 소비내역
    ◦ 전처리 작업
        - 여행일수 전처리 : 여행 시작 및 종료 날짜 정보를 추출하고 총 여행 일수를 계산
        - 사전 숙박 예약 정보 : 숙박 데이터 결제 정보 중, 여행 일자 이전에 미리 예약한 내역만을 추출하여 ‘사전 숙소 예약 금액’을 0과 1사이 bin으로 처리
        - 동반자 연령대 : 구체적 연령대를 알 수 없어, 동반자 연령대의 평균을 추출하여 사용
        - feature 내부 데이터 전처리 : 데이터 중 라벨 인코더로 부여할 수 없는 정보들을 추출하고, 각 데이터 형태에 맞게 범주형 변수로 변경
        ex) 3개의 column에 나눠 있는 범주형 형태의 여행 동기를 binary 형태의 data로 
           바꿈
    ◦ 학습 모델 설계
        - Smote 적용
        - Imbalanced data model pipeline 구축
        - grid search와 random search를 조합한 Hyper parameter 탐색
        - 최종 모델 적합

    고지출 예측모델 학습 스크린샷 이미지

                                         [고지출 예측모델 학습 스크린샷]

     

    ◦ 성능 평가
        - 이진 분류를 평가하기에 적합한 f1_score을 기준으로 사용
        - 학습결과는 f1_score 성능 목표를 넘겼으며 test data set을 활용하여 검증한 결과는 아래와 같음

    유저 정보 : 유저 미션, 성별, 연령대, 소득, 여행스타일(8개 항목), 여행동기(1개 항목), 동반자 수
    여행지 정보 : 여행지명, 여행지 시/도 및 군/구 정보, 여행지 종류, 해당 여행지 체류시간 평균, 추천 의향 점수 평균, 재방문 의향 점수 평균, 재방문 여부 비율, 동반자 수 평균 만족도

               - confusion matrix: 

    성능평가 이미지

     

    2. 여행객 선호도 기반 여행 장소 추천 모델
    ◦ 모델 목적
        - 유저 정보와 여행지역(시/도) 정보가 주어지면 10개의 여행지를 추천하는 모델
    ◦ 사용 모델 및 선정 이유
        - [Cat Boost] 특성변수가 범주형일 때 일반적으로 사용하는 one-hot encoding 대신 실수인 순서목표통계량(ordered target statistic)으로 전환하여 사용하는 방식 
        - 범주형 특성변수가 많을 때 적합한 모델임. 본 과제에서는 범주형 데이터인 여행지명, 시/도, 군/구 정보를 학습하기에 용이하기 때문에 CatBoost를 모델로 선정
    ◦ 사용 데이터 (사용 변수)
        - (Input data) 유저 정보 및 여행지 정보
        - (output) 추천 여행지 10군데
        - 데이터 중 활용 변수는 유저 정보와 여행지 정보로 구분하여 사용
    ◦ 전처리 작업
        - 여행지 선별 : 방문지 유형코드 중 1-자연관광지, 2-역사/유적/종교 시설 (문화재, 박물관, 촬영지, 절 등), 3-문화시설(공연장, 영화관, 전시관 등), 4-상업지구(거리, 시장, 쇼핑시설), 5-레저/스포츠 관련 시설(스키, 카트, 수상레저), 6-테마시설(놀이공원, 워터파크), 7-산책로, 둘레길 등, 8-지역축제, 행사에 해당하는 방문지를 여행지로 파악해 데이터 사용
        - 시/도 변수, 군/구 변수 생성 : 여행지의 주소에서 시/도와 군/구 변수 생성
          예시) 인천 강화군 삼산면 매음리 629 → 시/도 변수: 인천, 군/구 변수: 강화군
    - 학습데이터에서 여행지에 대한 평균 변수 생성 : 학습데이터에서 각각의 여행지마다 체류시간 평균, 추천의향 점수의 평균, 재방문 비율, 동반자 수의 평균, 재방문의향 점수의 평균을 산출해 변수 생성

    ◦ 학습모델 설계
        - Random Search를 활용한 초모수 조절 
          · K-Fold Cross Validation를 병행하여 가장 검증된 초모수 값 확보
          · 데이터셋에 고유한 관광지가 많아 학습 시 최대한 많은 데이터를 보존하기 위해 K=10, 10개의 fold로 교차검증 진행
        - CatBoost Regressor를 적용해 만족도 예측
          · 만족도: 1(매우 불만족), 2(불만족), 3(보통), 4(만족), 5(매우 만족)
        - 모델이 예측한 여행지의 만족도가 4.5이상이면 추천 항목에 포함
           ※ 추천의 기준으로 설정한 4.5는 도메인에 따라 조정이 가능하며 본과제에서는 사용자가 관광지에 대한 만족도를 4점, 5점으로 주는 경향이 높아 보수적으로 4.5를 임계값으로 설정
    ◦ 성능 평가
        - Recall@10

    성능 평가 Recall@10 수식 이미지
        ※ 사용자가 만족하는 모든 아이템 중에서 모델이 추천한 아이템 10개가 얼마나 포함되는지 비율을 의미하며 각 사용자마다의 recall@10 값을 구하여 그 평균을 최종 recall@10 값으로 산정
        - 최종 성능 : 0.3745 (목표 성능 이상)

  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 여행객 정보 기반 고지출 여행객 예측 성능 Prediction Cat Boost Classifier F1-Score 0.7 0.8294
    2 여행객 선호도 기반 여행 장소 추천 성능 Extraction Cat Boost Recall@10 25 % 25.05 %

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    1. 데이터 구축 ERD

    국내여행로그데이터수집_ERD 이미지
                                                                                  [ 3-005_국내여행로그데이터수집_ERD.png ]

     

    2. 데이터 구성

    데이터구분 데이터 데이터 명 수량
    [3-005-278] 동부권 여행로그
    데이터
    tc_codea_코드A.csv 각csv 파일별 4,000Set 구성
    tc_codeb_코드B.csv 
    tc_sgg_시군구코드.csv 
    tn_activity_consume_his_활동소비내역_B.csv
    tn_activity_his_활동내역_B.csv 
    tn_adv_consume_his_사전소비내역_B.csv 
    tn_companion_info_동반자정보_B.csv 
    tn_lodge_consume_his_숙박소비내역_B.csv 
    tn_move_his_이동내역_B.csv 
    tn_mvmn_consume_his_이동수단소비내역_B.csv 
    tn_tour_photo_관광사진_B.csv 
    tn_traveller_master_여행객 Master_B.csv 
    tn_travel_여행_B.csv 
    tn_visit_area_info_방문지정보_B.csv 
    tn_poi_master_POIMaster.csv POI Master
    gps_Data n_gps_coord_*.csv [ * = 여행객 ID ] 4,000개
    photo 여행객ID + 순번. jpg  160,237개
  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜데이터웨이
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    김정남 02-2205-4500 33823698@data-way.co.kr 사업 실무 책임자
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜데이터웨이 데이터 설계, 검사
    ㈜케이스탯리서치 데이터 획득(수집)
    ㈜올포랜드 데이터 정제
    ㈜지디에스컨설팅그룹 데이터 가공, 저작도구 개발
    에이드리븐(주) 크라우드 소싱
    ㈜티지360테크놀로지스 크라우드 소싱
    고려대학교 산학협력단 AI모델 개발
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    김정남 02-2205-4500 33823698@data-way.co.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.