KETI 지능정보 플래그십 R&D

여행 정보 데이터셋

외부 데이터는 해당 기관의 이용정책과 다운로드 절차를 따라야 하며 AI 허브와 관련이 없음을 알려 드립니다. [저작권 및 이용정책 상세보기]

구축량
  • 국내 여행 정보 11,400개
대표 도면
image

 

필요성
  • 해외 주요 국가에서는 챗봇 기술개발을 위한 텍스트 데이터 구축 등 관련 인프라를 확보하여 개방
  • 국내·외 여행정보 에이전트 개발을 위해서는 국내·외 여행에 특화된 데이터의 확보가 중요
  • 온라인에서 국내·외 여행과 관련된 빅데이터를 수집하고 데이터의 정제 및 이벤트 추출을 통한 여행 데이터셋 구축 필요
구축 내용
  • 여행 에이전트 연계를 위한 Web(네이버 포탈, 구글 및 국내·외 여행정보 제공 사이트), SNS(Twiter, Facebok)의 여행정보 데이터 수집기 개발
  • 온라인 빅데이터의 유용성을 높이기 위한 분석용 데이터 추출, 불용어 제거 등 데이터 정제를 위한 빅데이터 마이닝 기법 개발
  • 수집된 온라인 빅데이터에서 국내·외 여행 관련 주요 정보 추출을 위한 개체명 인식기를 개발하고 개체명 및 이벤트 분류
  • 국내·외 여행 에이전트 개발을 위한 24,557개의 이벤트, 위치, 시작일, 종료일의 정보 태깅 및 템플릿 구축
  • 구축 결과
    - 국내 전국(주요 시·도) 11,400건 구축
    - 국외 라스베가스, 로스앤젤레스 한정 13,157건 구축
데이터 구조
  • Excel(xlsx) 파일로 여행 관련 정보 제공 (ANSI)
  • 국내 데이터셋 구조

 

Column명 구조 설명
type 3종류의 텍스트 데이터 여행 정보 유형 분류 구분
City 17종류의 텍스트 데이터 여행 정보 해당 도시 명
Title 텍스트 데이터 여행 정보 제목
start date YYYYMMDD형식의 데이터 행사 또는 축제 시작 날짜
start time HHMI형식의 데이터 행사 또는 축제 시작 시간
end date YYYYMMDD형식의 데이터 행사 또는 축제 종료 날짜
place 텍스트 데이터 여행 정보 상세 주소
  • 국외 데이터셋 구조

 

Column명 구조 설명
type 3종류의 텍스트 데이터 여행 정보 유형 분류 구분
City 2종류의 텍스트 데이터 여행 정보 해당 도시 명
Title 텍스트 데이터 여행 정보 제목
url url형식의 데이터 여행 관련 링크
start date YYYYMMDD형식의 데이터 행사 또는 축제 시작 날짜
start time 12시간제 HHMI형식의 데이터 행사 또는 축제 시작 시간
am_pm 2종류의 텍스트 데이터 행사 또는 축제 오전 오후
end date YYYYMMDD형식의 데이터 행사 또는 축제 종료 날짜
place 텍스트 데이터 여행 정보 상세 주소

 

데이터 구축 담당자 표 (담당기관, 책임자명, 전화번호, 대표이메일)
담당기관 책임자명 전화번호 대표이메일
더아이엠씨 손기준 · kjson@theimc.co.kr
다운로드 폴더 구성정보

데이터 다운로드는 PC에서만 가능합니다.