콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#관광

BETA 관광분야 이미지-텍스트 쌍 데이터

관광분야 이미지-텍스트 쌍 데이터 아이콘 이미지
  • 분야문화관광
  • 유형 이미지
구축년도 : 2023 갱신년월 : 2024-06 조회수 : 98 다운로드 : 7 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2024-06-28 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-06-28 산출물 공개 Beta Version

    소개

    - 관광분야 설명문 생성을 위해 다양한 관광분야의 요금표, 시간표, 안내도, 이정표 등 다양한 표, 도표 이미지와 라벨링 쌍 데이터

    구축목적

    - 다양한 관광분야 표, 도표 이미지의 내용 정보를 구조화된 요약문 및 설명문으로 자동 추출하기 위한 목적으로 구축된 데이터셋
  • - 데이터 통계

    항목 수량 분표
    메인 카테고리 서브 카테고리
    요금표 13,360건  4.77%
    시간표 24,768건  8.85%
    요금/시간 통합표 5,368건  1.92%
    관광정보 및 프로그램표 13,256건  4.73%
    도표 안내도 94,400건  33.71%
    이정표 48,915건  17.47%
    입장권 51,584건  18.42%
    기타 28,349건  10.12%
    (포스터/배너,현수막)
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    - 모델학습

    모델학습 과정1. EasyOCR기반 문자인식 모델개발

      - 문자인식(OCR)을 위해 CRAFT(Object Detection)와 CRNN(Text Recongnition)을 파이프라인으로 구성한 EasyOCR을 사용

      - 본 과제에서는 CRNN모델을 학습데이터로 학습하며, CRAFT는 라벨링 규칙에 맞추어 파라미터 튜닝 함

      - 따라서, 학습은 CRNN 모델만 진행하며, 평가는 CRAFT+CRNN으로 구성된 파이프라인의 결과값으로 성능평가


    2. T5기반 문장생성 모델개발

      - 문장생성을 위해 T5(Text-To-Text Transfer Transformer)의 한국어 버전 중 하나인 pko-t5를 파인튜닝 함

      - OCR 라벨링데이터를 입력으로 하여 해당 이미지에 대한 설명 문장을 생성

      -문자인식된 텍스트를 기반으로 설명문 생성을 해야하는 제약조건 충족을 위해 OCR 라벨링데이터에서 제목영역, 텍스트영역, 표 영역 정보를 추출하고, 설명문 생성에 적합한 형태로 전처리.

      - 전처리된 제목 정보, 텍스트 정보, 표 정보 기반으로 T5 문장생성 모델을 이용하여 해당 이미지에 대한 설명문 생성


    3. YOLOv8를 기반 표 영역 탐지 모델개발

      - 관광이미지 내의 표 존재여부를 판단하는 모델을 개발

      - 객체탐지인식 알고리즘인 YOLO(You Only Look Once)의 YOLOv8m 모델을 파인튜닝 함

      -YOLOv8의 Object Detection 기능을 이용하여 표 영역 탐지 진행

      -표 영역 탐지를 통해 표 존재 여부를 판단

     

    - 서비스활용
    서비스 활용 과정

      - 시각적 문해력 취약계층을 위한 관광 이미지 설명 서비스에 활용할 수 있음
      - 자동 생성된 이미지-텍스트 쌍 데이터 기반 관광 특화 질의응답 서비스에 사용할 수 있음
      - 관광지 여행 어시스턴트 서비스에 적용할 수 있음

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    - 데이터 구성

    항목 설명 타입
    year 생성년도 string
    version 버전정보 number
    date_created 생성일자 string
    date_modified 변경일자 string
    captioningYN 이미지캡션 여부 string
    name 원시파일명 string
    id 원시파일 아이디 string
    format 원시이미지 형식 string
    size 원시이미지 크기 number
    width 원시이미지 너비 number
    height 원시이미지 높이 number
    address 원시이미지 수집 주소 string
    gps 원시이미지 위치정보 string
    date_captured 원시데이터 수집일자 string
    data_source 수집유형 string
    tour_name 관광지명 string
    tour_main_category 관광 대분류 string
    tour_sub_category 관광 중분류 string
    camera_model 원시데이터 수집기기 string
    name 원천파일명 string
    id 원천파일 아이디 string
    format 원천파일 형식 string
    size 원천이미지 크기 number
    width 원천이미지 너비 number
    height 원천이미지 높이 number
    main_category 데이터 표유형 string
    sub_category 데이터 표 세부유형 string
    unit 단위 유무 number
    legend 범례 유무 number
    ocr 가공전 ocr 정보 array
    ocr_labels ocr 라벨링 array
    type 라벨링 타입 string
    bbox 바운딩박스 object
    x 바운딩박스 좌상x값 number
    y 바운딩박스 좌상y값 number
    width 바운딩박스 너비 number
    height 바운딕박스 높이 number
    _class 클래스 유형 string
    text ocr 정보 string
    attribute 설명문 사용 여부 string
    tables 표 라벨링 array
    type 라벨링 타입 string
    bbox 바운딩박스 object
    x 바운딩박스 좌상x값 number
    y 바운딩박스 좌상y값 number
    width 바운딩박스 너비 number
    height 바운딕박스 높이 number
    _class 클래스 유형 string
    table 표바운딩박스 유형 array
    description 설명문 내용 string

     

    - 어노테이션 포맷

    No 항목(영문명) 항목(한글명) 타입 필수 여부 비고
    1   info   object Y  
      1-1   year 생성년도 string Y  
      1-2   version 버전정보 number Y 1
      1-3   date_created 생성일자 string Y  
      1-4   date_modified 변경일자 string Y  
      1-5   captioningYN 이미지캡션 여부 string Y "Y","N"
    2   orgin_image   object Y  
      2-1   name 원시파일명 string Y  
      2-2   id 원시파일 아이디 string Y  
      2-3   format 원시이미지 형식 string Y jpg
      2-4   size 원시이미지 크기 number Y  
      2-5   width 원시이미지 너비 number Y  
      2-6   height 원시이미지 높이 number Y  
      2-7   address 원시이미지 수집 주소 string Y  
      2-8   gps 원시이미지 위치정보 string N  
      2-9   date_captured 원시데이터 수집일자 string Y  
      2-10   data_source 수집유형 string Y "현장수집","웹수집"
      2-11   tour_name 관광지명 string Y  
      2-12   tour_main_category 관광 대분류 string Y "자연","인문","교통시설","레포츠","쇼핑, 숙박"
      2-13   tour_sub_category 관광 중분류 string Y  
      2-14   camera_model 원시데이터 수집기기 string Y  
    3   source_image   object Y  
      3-1   name 원천파일명 string Y  
      3-2   id 원천파일 아이디 string Y  
      3-3   format 원천파일 형식 string Y png
      3-4   size 원천이미지 크기 number Y  
      3-5   width 원천이미지 너비 number Y  
      3-6   height 원천이미지 높이 number Y  
      3-7   main_category 데이터 표 유형 string Y "표","도표"
      3-8   sub_category 데이터 표 세부유형 string Y "요금표","시간표","요금/시간 통합표","관광정보 및 프로그램표","안내도","이정표","입장권","기타(포스터, 배너)"
      3-9   unit 단위 유무 number Y 1, 0
      3-10   legend 범례 유무 number Y 1, 0
      3-11   ocr 가공전 ocr 정보 array Y  
    4     annotations   object Y  
      4-1 ocr_labels ocr 라벨링 array Y  
        4-1-1 {}   object Y  
        4-1-2 type 라벨링 타입 string Y  
        4-1-3 bbox 바운딩박스 object Y  
        4-1-4 x 바운딩박스 좌상x값 number Y  
        4-1-5 y 바운딩박스 좌상y값 number Y  
        4-1-6 width 바운딩박스 너비 number Y  
        4-1-7 height 바운딕박스 높이 number Y  
        4-1-8 _class 클래스 유형 string Y "제목","텍스트"
        4-1-9 text ocr 정보 string Y  
        4-1-10 attribute 설명문 사용 여부 string Y "사용","미사용"
      4-2 tables 표 라벨링 array Y  
        4-2-1 {}   object N  
        4-2-2 type 라벨링 타입 string N “표 열 영역”, “표 행 영역”, “표 헤더 영역”, “표 병합 영역”
        4-2-3 bbox 바운딩박스 object N  
        4-2-4 x 바운딩박스 좌상x값 number N  
        4-2-5 y 바운딩박스 좌상y값 number N  
        4-2-6 width 바운딩박스 너비 number N  
        4-2-7 height 바운딩박스 높이 number N  
        4-2-8 _class 클래스 유형 string N "테이블"
        4-2-9 table 표바운딩박스 유형 array N  
    5   descriptions   object Y  
      5-1 description 설명문 내용 string Y  

     

    원천데이터 및 json 예시
    원천데이터 예시 관람료 안내 사진 json 예시
    설명문(Description)
    다음은 관람료 안내에 대한 정보입니다.
    개인/단체에 대한 내용을 설명합니다.
    성인은 1,100원/800원입니다.
    청소년은 500원/300원입니다.
    어린이는 무료/무료입니다.
  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜에프아이솔루션
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    오재만 070-7872-7748 jaeman1003@fisolution.co.kr 주관업무, 데이터 정제, 가공(라벨링), 검사
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜더바이럴 데이터 획득/수집
    ㈜보인정보기술 저작도구, 인공지능 모델
    ㈜그루크리에이티브랩 데이터 검수, 품질검사
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    백승진 070-7872-7748 sjbeak@fisolution.co.kr
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    김현영 02-6949-1441 hykim@boinit.com
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    김현영 02-6949-1441 hykim@boinit.com
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.