콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#문화

BETA 관광 특화 말뭉치 데이터

관광 특화 말뭉치 데이터 아이콘 이미지
  • 분야문화관광
  • 유형 텍스트
구축년도 : 2023 갱신년월 : 2024-06 조회수 : 124 다운로드 : 5 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2024-06-28 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-06-28 산출물 공개 Beta Version

    소개

    - 관광 필수정보, 부가정보가 포함된 객관적 속성과 긍정, 중립, 부정 분류체계를 따르는 주관적 감성 표현 어절을 포함한 관광 분야 언어모델 고도화를 위한 데이터 셋

    구축목적

    - 관광지에 대한 객관적 속성과 주관적 감성 표현이 태깅된 어절을 제공하여 관광 연계 온라인 서비스 지원 및 시스템 구축에 필요한 기초 데이터로 활용 가능함
  • - 데이터 구축 규모
    ­ 편향성 없는 데이터 구축을 위하여 한국관광공사와 전국 지자체별 관광 플랫폼에 준하여 소분류 8개로 세분화하고 총 1,014,455건 데이터를 구축함

     

    - 데이터 분포
    ● 카테고리별

    구분 가공(건) 비율(%) 라벨링 데이터(어절)
    대분류 중분류 소분류
    관광콘텐츠 관광지 자연관광 203,173 20 개체명 7,419,247
    역사관광 300,214 30
    체험관광 91,263 9
    문화관광 150,138 15 속성명 5,741,433
    문화활동 축제/공연/행사 30,146 3
    레저스포츠 30,899 3
    관광서비스 편의시설 숙박/쇼핑 100,120 10 감성명 4,873,685
    음식점 음식 108,502 10
    총계 1,014,455 100 총계 18,034,365

     

    카테고리별 분포도 차트

     

    ● 지역별

    구분 구축(건) 비율(%)
    수도권 265,417 26.16
    동부권 296,680 29.25
    서부권 425,416 41.94
    제주도 및 산간지역 26,942 2.65
    총계 1,014,455 100%

    지역별 분포도 차트

     

    ● 속성별

    구분 라벨링 데이터(어절)
    개체명 7,419,247
    속성명 5,741,433
    감성명 4,873,685
    총계 18,034,365

    속성별 분포도 차트

  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    - 모델학습
      - 개체명 인식 모델 개발을 위해 KoELECTRA-BiGRU를 결합하고, 모델 학습을 위해 검증용 데이터와 시험용 데이터 각각 전체 말뭉치의 10%로 제시함

      학습(learning) 검증(validation) 시험(test)
    개요 KoELECTRA-BiGRU에 학습 학습도중 모델 성과 평가 및 비교 모델 학습 완료 후 모델 테스트
    필요
    데이터
    전체 데이터 80% 전체 데이터 10% 전체 데이터 10%

    < 학습 검증 시험표 >

    모델 계발 단계

    < 모델 계발 단계 >

     

    - 서비스 활용 시나리오

    ◯ 구축한 모델은 문서 분류에 활용하거나 감성 분석 및 시장 조사에활용될 수 있음
    ◯ 문서 자동 분류 및 요약
      - 관광 유형의 문서에서 핵심 개체명을 식별하여 문서의 주제나 내용을 자동으로 분류하고 요약하는 데 사용될 수 있음
    ◯ 감성 분석 및 시장 조사
      - 이 모델을 사용하여 대량의 텍스트 데이터에서 중요한 정보를 추출하고, 이를 구조화된 데이터베이스에 저장할 수 있음.
      - 관광 관련 감성 어절 기반의 관광 추천 상품이나 개인 맞춤 관광 서비스를 제공하여 관광객 유치를 위한 관광 AI 서비스로 활용 가능
      - 모바일 앱, 관광 안내 키오스크, OTA 등 관광 서비스 플랫폼 뿐만 아니라 스마트 관광도시, 메타버스 관광, 랜선투어 등 미래형 스마트 관광 서비스까지 분야를 넓혀 폭넓게 활용 가능함

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    - 데이터 구성

    No 구분 타입 필수 예시
    항목명 설명 여부
    1 file_name 파일명 string Y 관광콘텐츠 _관광지_역사관광__온라인_대한민국구석구석_경복궁_S_1_230701
    2 Main_cate 대분류 string Y 관광콘텐츠
    3 2nd_cate 중분류 string Y 관광지
    4 3rd_cate 소분류1 string Y 역사관광
    5 method 수집방법 string Y 온/오프라인
    6 source 수집 출처 string Y 대한민국구석구석 
    7 content 수집장소 string Y 경복궁
    8 location 지역 string Y
    9 docu_num 문서넘버 string Y 1
    10 source_date 수집날짜 number Y 230701

     

    - 어노테이션 포맷

    구분 속성명 타입 필수여부 설명 범위
    1 info     정보  
      1-1 creator string Y 데이터 생산자 세명소프트
    1-2 description string Y 과제명 관광 특화 말뭉치
    2 tour_info        
      2-1 file_name string Y 파일명  
    2-2 Main_cate string Y 대분류 “관광 콘텐츠”, “관광 서비스”
    2-3 2nd_cate string Y 중분류 “관광지”,“문화활동”, “편의시설”, “음식점”
    2-4 3rd_cate string Y 소분류 “자연관광”, “역사관광”,“체험관광”,“문화관광”,“축제/공연/행사”,“레저스포츠”,“편의시설”, “음식점”
      2-5 method string Y 수집방식 “온라인“, “오프라인”
      2-6 source string Y 출처 관광컨텐츠랩
      2-7 Tourist Spot string Y 관광지명 함창명주테마파크공원(명주테마공원)
      2-8 location string Y 지역 “S”,“E”,“W”,“I”
      2-9 docu_num string Y 문서 숫자 1~999999
      2-10 date string Y 수집날짜 “230821”
    3 docu_info     문서정보  
      3-1 content string Y 관광지명 “함창명주테마파크공원(명주테마공원)“
    3-2 contains string Y 문서 내용 “관광지명 창명주테마파크공원 개요 함창명주 테마파크 공원은⋯ ”
    3-3 count number Y 문서 내 총 어절수 1~999
      3-4 sentences array   문장 정보  
        3-4-1 sentcenceId string Y 문장 아이디  “0001”
        3-4-2 sentence string Y 문장 내용 관광지명 함창명주테마파크공원(명주테마공원)
        3-4-3 annotations array    라벨링 정보  
          3-4-3-1 TagText string N 라벨링 텍스트 함창명주테마파크공원
          3-3-3-2 TagId string N 태깅 아이디 “001“
          3-3-3-3 Tagclass string N 개체/속성/감성 분류 “O”,“A”,“E”
          3-3-3-4 TagCode string N 세부 분류 코드 “PS”, “LC”, “OG”, “AF”, “DT”, “CV”, “AM”, “PT”, “QT”, “TR”, “EV”, 
    “AD”, “TR”, “DA”, “TM”, “TE”, “PO”, “TI”, “PR”, “UN”, “ET”
    , “P”, “NA“, ”N“
          3-3-3-5 startPos string N 시작하는 위치 0~9999
          3-3-3-6 endPos string N 끝나는 위치 0~9999
        3-4-4 sentence_Tagclass string  N 문장 감성 태그 "P","N","NA"
      3-5 TagCount array   태깅 어절 수  
        3-5-1 T_TagCount number Y 라벨링 총 어절 수 1~999
        3-5-2 O_TagCount number Y 개체명 총 어절 수 1~999
        3-5-3 A_TagCount number Y 속성명 총 어절 수 1~999
        3-5-4 E_TagCount number Y 감성 총 어절 수 1~999

     

    - 데이터 포맷

    원문
    구분 내용
    관광지명 38해변
    개요 38해변은 38(휴게소) 근처에 있어서 7번 국도변을 따라 쉽게 접근할 수 있는 해변이다 이 곳은 신선한 해산물을 즐길 수 있는 식당과 함께 모든 레벨의 서퍼들이 선호하는 최고의 서핑 스팟으로 알려져 있다.윈드 파인더를 기준으로 파도가 최대 3m까지 형성되며, 바람에 따라 큰 파도와 강한 조류가 발생하기 때문에 초보자는 주의가 필요하다.
    전처리
    구분 내용
    관광지명 38해변
    개요 38해변은 38(휴게소) 근처에 있어서 7번 국도변을 따라 쉽게 접근할 수 있는 해변이다. 이 곳은 신선한 해산물을 즐길 수 있는 식당과 함께 모든 레벨의 서퍼들이 선호하는 최고의 서핑 스팟으로 알려져 있다. 윈드 파인더를 기준으로 파도가 최대 3m까지 형성되며, 바람에 따라 큰 파도와 강한 조류가 발생하기 때문에 초보자는 주의가 필요하다.

     

    - 실제예시

    {
        "info": {
            "creator": "세명소프트",
            "description": "관광 특화 말뭉치"
        },
        "tour_info": {
            "file_name": "관광 콘텐츠_관광지_체험관광_온라인_다음_영천 목재문화체험장_E_54_231031.csv",
            "Main_cate": "관광 콘텐츠",
            "2nd_cate": "관광지",
            "3rd_cate": "체험관광",
            "method": "온라인",
            "source": "다음",
            "Tourist Spot": "영천 목재문화체험장",
            "location": "E",
            "docu_num": "54",
            "date": "231031"
        },
        "docu_info": {
            "content": "영천 목재문화체험장",
            "contains": "관광지명 영천 목재문화체험장 개요 보현산 자연휴양림에 위치한 목재문화체험장은 산림생태와 교육, 문화를 체험할 수 있는 곳입니다 가족 모두가 참여할 수 있는 다양한 프로그램을 제공하며, 친환경적인 목재로 생활용품을 만들 수 있습니다 어린이는 나무망치를 사용해 다양한 제품을 만들어볼 수 있고, 14세 이상은 색칠까지 할 수 있어 개성 있는 작품을 만들기도 가능합니다.",
            "count": "46",
            "sentences": [
                {
                    "sentcenceId": "0001",
                    "sentence": "관광지명 영천 목재문화체험장",
                    "annotations": [
                        {
                            "TagText": "영천",
                            "TagId": "001",
                            "Tagclass": "O",
                            "TagCode": "LC",
                            "startPos": 5,
                            "endPos": 6
                        },
                        {
                            "TagText": "목재문화체험장",
                            "TagId": "002",
                            "Tagclass": "O",
                            "TagCode": "LC",
                            "startPos": 8,
                            "endPos": 14
                        }
                    ],
                    "sentence_Tagclass": ""
                },
                {
                    "sentcenceId": "0002",
                    "sentence": "개요 보현산 자연휴양림에 위치한 목재문화체험장은 산림생태와 교육, 문화를 체험할 수 있는 곳입니다",
                    "annotations": [
                        {
                            "TagText": "보현산",
                            "TagId": "001",
                            "Tagclass": "O",
                            "TagCode": "LC",
                            "startPos": 3,
                            "endPos": 5
                        },
                        {
                            "TagText": "목재문화체험장",
                            "TagId": "002",
                            "Tagclass": "O",
                            "TagCode": "LC",
                            "startPos": 18,
                            "endPos": 24
                        }
                    ],
                    "sentence_Tagclass": ""
                },
                {
                    "sentcenceId": "0003",
                    "sentence": "가족 모두가 참여할 수 있는 다양한 프로그램을 제공하며, 친환경적인 목재로 생활용품을 만들 수 있습니다",
                    "annotations": [
                        {
                            "TagText": "다양한",
                            "TagId": "001",
                            "Tagclass": "E",
                            "TagCode": "P",
                            "startPos": 16,
                            "endPos": 18
                        }
                    ],
                    "sentence_Tagclass": "P"
                },
                {
                    "sentcenceId": "0004",
                    "sentence": "어린이는 나무망치를 사용해 다양한 제품을 만들어볼 수 있고, 14세 이상은 색칠까지 할 수 있어 개성 있는 작품을 만들기도 가능합니다.",
                    "annotations": [
                        {
                            "TagText": "다양한",
                            "TagId": "001",
                            "Tagclass": "E",
                            "TagCode": "P",
                            "startPos": 15,
                            "endPos": 17
                        }
                    ],
                    "sentence_Tagclass": "P"
                }
            ],
            "TagCount": {
                "T_TagCount": 6,
                "O_TagCount": 4,
                "A_TagCount": 0,
                "E_TagCount": 2
            }
        }
    }

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜세명소프트
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    신병일 031-792-3328 smsoft@smsoft.kr 총괄
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜올림커뮤니케이션즈 데이터 수집
    ㈜유핏 데이터 가공
    ㈜드위치 데이터 품질검사
    경남대학교 산학협력단 데이터 모델 학습
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    신병일 031-792-3328 smsoft@smsoft.kr
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    신병주 055-249-2256 bjshin@kyungnam.ac.kr
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    신병일 031-792-3328 smsoft@smsoft.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.