-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.2 2024-12-04 서브라벨링 추가 개방 1.1 2024-10-30 데이터 최종 개방 1.0 2024-06-28 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-06-28 산출물 공개 Beta Version 소개
- 관광 필수정보, 부가정보가 포함된 객관적 속성과 긍정, 중립, 부정 분류체계를 따르는 주관적 감성 표현 어절을 포함한 관광 분야 언어모델 고도화를 위한 데이터 셋
구축목적
- 관광지에 대한 객관적 속성과 주관적 감성 표현이 태깅된 어절을 제공하여 관광 연계 온라인 서비스 지원 및 시스템 구축에 필요한 기초 데이터로 활용 가능함
-
메타데이터 구조표 데이터 영역 문화관광 데이터 유형 텍스트 데이터 형식 CSV 데이터 출처 지자체별 공공 관광 사이트, 가이드북, 관광백서 라벨링 유형 개체명/속성명/감성명 태깅(텍스트) 라벨링 형식 json 데이터 활용 서비스 검색 및 추천 서비스, 언어모델 고도화로 활용 가능 데이터 구축년도/
데이터 구축량2023년/1,014,455건 문서 -
- 데이터 구축 규모
편향성 없는 데이터 구축을 위하여 한국관광공사와 전국 지자체별 관광 플랫폼에 준하여 소분류 8개로 세분화하고 총 1,014,455건 데이터를 구축함- 데이터 분포
● 카테고리별카테고리별 구분 가공(건) 비율(%) 라벨링 데이터(어절) 대분류 중분류 소분류 관광콘텐츠 관광지 자연관광 203,173 20 개체명 7,419,247 역사관광 300,214 30 체험관광 91,263 9 문화관광 150,138 15 속성명 5,741,433 문화활동 축제/공연/행사 30,146 3 레저스포츠 30,899 3 관광서비스 편의시설 숙박/쇼핑 100,120 10 감성명 4,873,685 음식점 음식 108,502 10 총계 1,014,455 100 총계 18,034,365 ● 지역별
지역별 구분 구축(건) 비율(%) 수도권 265,417 26.16 동부권 296,680 29.25 서부권 425,416 41.94 제주도 및 산간지역 26,942 2.65 총계 1,014,455 100% ● 속성별
속성별 구분 라벨링 데이터(어절) 개체명 7,419,247 속성명 5,741,433 감성명 4,873,685 총계 18,034,365 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 모델학습
- 개체명 인식 모델 개발을 위해 KoELECTRA-BiGRU를 결합하고, 모델 학습을 위해 검증용 데이터와 시험용 데이터 각각 전체 말뭉치의 10%로 제시함모델학습 학습(learning) 검증(validation) 시험(test) 개요 KoELECTRA-BiGRU에 학습 학습도중 모델 성과 평가 및 비교 모델 학습 완료 후 모델 테스트 필요
데이터전체 데이터 80% 전체 데이터 10% 전체 데이터 10% < 학습 검증 시험표 >
< 모델 계발 단계 >
- 서비스 활용 시나리오
◯ 구축한 모델은 문서 분류에 활용하거나 감성 분석 및 시장 조사에활용될 수 있음
◯ 문서 자동 분류 및 요약
- 관광 유형의 문서에서 핵심 개체명을 식별하여 문서의 주제나 내용을 자동으로 분류하고 요약하는 데 사용될 수 있음
◯ 감성 분석 및 시장 조사
- 이 모델을 사용하여 대량의 텍스트 데이터에서 중요한 정보를 추출하고, 이를 구조화된 데이터베이스에 저장할 수 있음.
- 관광 관련 감성 어절 기반의 관광 추천 상품이나 개인 맞춤 관광 서비스를 제공하여 관광객 유치를 위한 관광 AI 서비스로 활용 가능
- 모바일 앱, 관광 안내 키오스크, OTA 등 관광 서비스 플랫폼 뿐만 아니라 스마트 관광도시, 메타버스 관광, 랜선투어 등 미래형 스마트 관광 서비스까지 분야를 넓혀 폭넓게 활용 가능함 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 데이터 구성
데이터 구성 No 구분 타입 필수 예시 항목명 설명 여부 1 file_name 파일명 string Y 관광콘텐츠 _관광지_역사관광__온라인_대한민국구석구석_경복궁_S_1_230701 2 Main_cate 대분류 string Y 관광콘텐츠 3 2nd_cate 중분류 string Y 관광지 4 3rd_cate 소분류1 string Y 역사관광 5 method 수집방법 string Y 온/오프라인 6 source 수집 출처 string Y 대한민국구석구석 7 content 수집장소 string Y 경복궁 8 location 지역 string Y S 9 docu_num 문서넘버 string Y 1 10 source_date 수집날짜 number Y 230701 - 어노테이션 포맷
어노테이션 포맷 구분 속성명 타입 필수여부 설명 범위 1 info 정보 1-1 creator string Y 데이터 생산자 세명소프트 1-2 description string Y 과제명 관광 특화 말뭉치 2 tour_info 2-1 file_name string Y 파일명 2-2 Main_cate string Y 대분류 “관광 콘텐츠”, “관광 서비스” 2-3 2nd_cate string Y 중분류 “관광지”,“문화활동”, “편의시설”, “음식점” 2-4 3rd_cate string Y 소분류 “자연관광”, “역사관광”,“체험관광”,“문화관광”,“축제/공연/행사”,“레저스포츠”,“편의시설”, “음식점” 2-5 method string Y 수집방식 “온라인“, “오프라인” 2-6 source string Y 출처 관광컨텐츠랩 2-7 Tourist Spot string Y 관광지명 함창명주테마파크공원(명주테마공원) 2-8 location string Y 지역 “S”,“E”,“W”,“I” 2-9 docu_num string Y 문서 숫자 1~999999 2-10 date string Y 수집날짜 “230821” 3 docu_info 문서정보 3-1 content string Y 관광지명 “함창명주테마파크공원(명주테마공원)“ 3-2 contains string Y 문서 내용 “관광지명 창명주테마파크공원 개요 함창명주 테마파크 공원은⋯ ” 3-3 count number Y 문서 내 총 어절수 1~999 3-4 sentences array 문장 정보 3-4-1 sentcenceId string Y 문장 아이디 “0001” 3-4-2 sentence string Y 문장 내용 관광지명 함창명주테마파크공원(명주테마공원) 3-4-3 annotations array 라벨링 정보 3-4-3-1 TagText string N 라벨링 텍스트 함창명주테마파크공원 3-3-3-2 TagId string N 태깅 아이디 “001“ 3-3-3-3 Tagclass string N 개체/속성/감성 분류 “O”,“A”,“E” 3-3-3-4 TagCode string N 세부 분류 코드 “PS”, “LC”, “OG”, “AF”, “DT”, “CV”, “AM”, “PT”, “QT”, “TR”, “EV”, “AD”, “TR”, “DA”, “TM”, “TE”, “PO”, “TI”, “PR”, “UN”, “ET” , “P”, “NA“, ”N“ 3-3-3-5 startPos string N 시작하는 위치 0~9999 3-3-3-6 endPos string N 끝나는 위치 0~9999 3-4-4 sentence_Tagclass string N 문장 감성 태그 "P","N","NA" 3-5 TagCount array 태깅 어절 수 3-5-1 T_TagCount number Y 라벨링 총 어절 수 1~999 3-5-2 O_TagCount number Y 개체명 총 어절 수 1~999 3-5-3 A_TagCount number Y 속성명 총 어절 수 1~999 3-5-4 E_TagCount number Y 감성 총 어절 수 1~999 - 데이터 포맷
데이터 포맷 원문 구분 내용 관광지명 38해변 개요 38해변은 38(휴게소) 근처에 있어서 7번 국도변을 따라 쉽게 접근할 수 있는 해변이다 이 곳은 신선한 해산물을 즐길 수 있는 식당과 함께 모든 레벨의 서퍼들이 선호하는 최고의 서핑 스팟으로 알려져 있다.윈드 파인더를 기준으로 파도가 최대 3m까지 형성되며, 바람에 따라 큰 파도와 강한 조류가 발생하기 때문에 초보자는 주의가 필요하다. 전처리 구분 내용 관광지명 38해변 개요 38해변은 38(휴게소) 근처에 있어서 7번 국도변을 따라 쉽게 접근할 수 있는 해변이다. 이 곳은 신선한 해산물을 즐길 수 있는 식당과 함께 모든 레벨의 서퍼들이 선호하는 최고의 서핑 스팟으로 알려져 있다. 윈드 파인더를 기준으로 파도가 최대 3m까지 형성되며, 바람에 따라 큰 파도와 강한 조류가 발생하기 때문에 초보자는 주의가 필요하다. - 실제예시
{
"info": {
"creator": "세명소프트",
"description": "관광 특화 말뭉치"
},
"tour_info": {
"file_name": "관광 콘텐츠_관광지_체험관광_온라인_다음_영천 목재문화체험장_E_54_231031.csv",
"Main_cate": "관광 콘텐츠",
"2nd_cate": "관광지",
"3rd_cate": "체험관광",
"method": "온라인",
"source": "다음",
"Tourist Spot": "영천 목재문화체험장",
"location": "E",
"docu_num": "54",
"date": "231031"
},
"docu_info": {
"content": "영천 목재문화체험장",
"contains": "관광지명 영천 목재문화체험장 개요 보현산 자연휴양림에 위치한 목재문화체험장은 산림생태와 교육, 문화를 체험할 수 있는 곳입니다 가족 모두가 참여할 수 있는 다양한 프로그램을 제공하며, 친환경적인 목재로 생활용품을 만들 수 있습니다 어린이는 나무망치를 사용해 다양한 제품을 만들어볼 수 있고, 14세 이상은 색칠까지 할 수 있어 개성 있는 작품을 만들기도 가능합니다.",
"count": "46",
"sentences": [
{
"sentcenceId": "0001",
"sentence": "관광지명 영천 목재문화체험장",
"annotations": [
{
"TagText": "영천",
"TagId": "001",
"Tagclass": "O",
"TagCode": "LC",
"startPos": 5,
"endPos": 6
},
{
"TagText": "목재문화체험장",
"TagId": "002",
"Tagclass": "O",
"TagCode": "LC",
"startPos": 8,
"endPos": 14
}
],
"sentence_Tagclass": ""
},
{
"sentcenceId": "0002",
"sentence": "개요 보현산 자연휴양림에 위치한 목재문화체험장은 산림생태와 교육, 문화를 체험할 수 있는 곳입니다",
"annotations": [
{
"TagText": "보현산",
"TagId": "001",
"Tagclass": "O",
"TagCode": "LC",
"startPos": 3,
"endPos": 5
},
{
"TagText": "목재문화체험장",
"TagId": "002",
"Tagclass": "O",
"TagCode": "LC",
"startPos": 18,
"endPos": 24
}
],
"sentence_Tagclass": ""
},
{
"sentcenceId": "0003",
"sentence": "가족 모두가 참여할 수 있는 다양한 프로그램을 제공하며, 친환경적인 목재로 생활용품을 만들 수 있습니다",
"annotations": [
{
"TagText": "다양한",
"TagId": "001",
"Tagclass": "E",
"TagCode": "P",
"startPos": 16,
"endPos": 18
}
],
"sentence_Tagclass": "P"
},
{
"sentcenceId": "0004",
"sentence": "어린이는 나무망치를 사용해 다양한 제품을 만들어볼 수 있고, 14세 이상은 색칠까지 할 수 있어 개성 있는 작품을 만들기도 가능합니다.",
"annotations": [
{
"TagText": "다양한",
"TagId": "001",
"Tagclass": "E",
"TagCode": "P",
"startPos": 15,
"endPos": 17
}
],
"sentence_Tagclass": "P"
}
],
"TagCount": {
"T_TagCount": 6,
"O_TagCount": 4,
"A_TagCount": 0,
"E_TagCount": 2
}
}
} -
데이터셋 구축 담당자
수행기관(주관) : ㈜세명소프트
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 신병일 031-792-3328 smsoft@smsoft.kr 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜올림커뮤니케이션즈 데이터 수집 ㈜유핏 데이터 가공 ㈜드위치 데이터 품질검사 경남대학교 산학협력단 데이터 모델 학습 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 신병일 031-792-3328 smsoft@smsoft.kr 노을 031-792-3328 smsoft@smsoft.kr AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 신병주 055-249-2256 bjshin@kyungnam.ac.kr 안홍조 055-249-2256 hongjo999@naver.com 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 신병일 031-792-3328 smsoft@smsoft.kr 노을 031-792-3328 smsoft@smsoft.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.