여행 정보 데이터셋
외부 데이터는 해당 기관의 이용정책과 다운로드 절차를 따라야 하며 AI 허브와 관련이 없음을 알려 드립니다. [저작권 및 이용정책 상세보기]
구축량
- 국내 여행 정보 11,400개
대표 도면

필요성
- 해외 주요 국가에서는 챗봇 기술개발을 위한 텍스트 데이터 구축 등 관련 인프라를 확보하여 개방
- 국내·외 여행정보 에이전트 개발을 위해서는 국내·외 여행에 특화된 데이터의 확보가 중요
- 온라인에서 국내·외 여행과 관련된 빅데이터를 수집하고 데이터의 정제 및 이벤트 추출을 통한 여행 데이터셋 구축 필요
구축 내용
- 여행 에이전트 연계를 위한 Web(네이버 포탈, 구글 및 국내·외 여행정보 제공 사이트), SNS(Twiter, Facebok)의 여행정보 데이터 수집기 개발
- 온라인 빅데이터의 유용성을 높이기 위한 분석용 데이터 추출, 불용어 제거 등 데이터 정제를 위한 빅데이터 마이닝 기법 개발
- 수집된 온라인 빅데이터에서 국내·외 여행 관련 주요 정보 추출을 위한 개체명 인식기를 개발하고 개체명 및 이벤트 분류
- 국내·외 여행 에이전트 개발을 위한 24,557개의 이벤트, 위치, 시작일, 종료일의 정보 태깅 및 템플릿 구축
- 구축 결과
- 국내 전국(주요 시·도) 11,400건 구축
- 국외 라스베가스, 로스앤젤레스 한정 13,157건 구축
데이터 구조
- Excel(xlsx) 파일로 여행 관련 정보 제공 (ANSI)
- 국내 데이터셋 구조
Column명 | 구조 | 설명 |
---|---|---|
type | 3종류의 텍스트 데이터 | 여행 정보 유형 분류 구분 |
City | 17종류의 텍스트 데이터 | 여행 정보 해당 도시 명 |
Title | 텍스트 데이터 | 여행 정보 제목 |
start date | YYYYMMDD형식의 데이터 | 행사 또는 축제 시작 날짜 |
start time | HHMI형식의 데이터 | 행사 또는 축제 시작 시간 |
end date | YYYYMMDD형식의 데이터 | 행사 또는 축제 종료 날짜 |
place | 텍스트 데이터 | 여행 정보 상세 주소 |
- 국외 데이터셋 구조
Column명 | 구조 | 설명 |
---|---|---|
type | 3종류의 텍스트 데이터 | 여행 정보 유형 분류 구분 |
City | 2종류의 텍스트 데이터 | 여행 정보 해당 도시 명 |
Title | 텍스트 데이터 | 여행 정보 제목 |
url | url형식의 데이터 | 여행 관련 링크 |
start date | YYYYMMDD형식의 데이터 | 행사 또는 축제 시작 날짜 |
start time | 12시간제 HHMI형식의 데이터 | 행사 또는 축제 시작 시간 |
am_pm | 2종류의 텍스트 데이터 | 행사 또는 축제 오전 오후 |
end date | YYYYMMDD형식의 데이터 | 행사 또는 축제 종료 날짜 |
place | 텍스트 데이터 | 여행 정보 상세 주소 |