콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#음식메뉴판 # OCR #자연어 #관광

NEW 관광 음식메뉴판 데이터

관광 음식메뉴판 데이터 아이콘 이미지
  • 분야문화관광
  • 유형 텍스트 , 이미지
구축년도 : 2022 갱신년월 : 2023-12 조회수 : 6,313 다운로드 : 352 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2023-12-01 데이터 최종 개방
    1.0 2023-07-19 데이터 개방(Beta Version)

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-04-23 AI모델 수정 도커이미지 추가
    2024-03-05 산출물 전체 공개

    소개

    관광 음식메뉴판의 OCR 인식 및 기계 번역 품질 향상을 위해, 메뉴판 이미지로부터 추출한 ‘음식 메뉴명’의 지식정보 및 번역문으로 구성한 라벨링 데이터와 전국 음식점의 메뉴판 이미지로 구성한 AI 학습용 데이터셋

    구축목적

    • 스마트 관광에 활용할 수 있는 음식 메뉴명과 메뉴에 대한 지식정보 구축 
    • 인공지능 기반 OCR 기술 향상을 위한 메뉴판 이미지 데이터 구축
    • 신경망 기반의 기계 번역기 학습 데이터로 활용하기 위한 번역 데이터 구축
  • 1) 데이터 구축 규모

    지역 데이터 구축 목표 수량 카테고리별 데이터 분포
    이미지 지식정보 다국어번역
    서울 25,018 25,018 영어, 일어, 중간, 중번 각 25,018 25%
    부산 10,005 10,005 영어, 일어, 중간, 중번 각 10,005 10%
    대구 7,000 7,000 영어, 일어, 중간, 중번 각 7,000 7%
    인천 7,009 7,009 영어, 일어, 중간, 중번 각 7,009 7%
    광주 3,502 3,502 영어, 일어, 중간, 중번 각 3,502 3.50%
    대전 4,515 4,515 영어, 일어, 중간, 중번 각 4,515 4.50%
    울산 3,502 3,502 영어, 일어, 중간, 중번 각 3,502 3.50%
    경기 16,508 16,508 영어, 일어, 중간, 중번 각 16,508 16.50%
    강원 5,008 5,008 영어, 일어, 중간, 중번 각 5,008 5%
    충청 5,014 5,014 영어, 일어, 중간, 중번 각 5,014 5%
    전라 5,012 5,012 영어, 일어, 중간, 중번 각 5,012 5%
    경상 5,006 5,006 영어, 일어, 중간, 중번 각 5,006 5%
    제주 3,014 3,014 영어, 일어, 중간, 중번 각 3,014 3%
    합계 100,113 100,113 영어, 일어, 중간, 중번 각 100,113 100%

     

    2) 데이터 분포

    지역 업종 합계
    한식 분식 경양식 식육 중국식 일식 횟집 통닭 외국 김밥 뷔페 패스트푸드
    음식
    서울 6,881 2,306 2,640 2,980 2,120 2,435 620 2,500 1,355 441 140 600 25,018
    부산 2,780 831 720 1,801 442 730 631 1,280 180 180 60 370 10,005
    대구 2,180 670 400 1,750 330 250 270 630 270 110 40 100 7,000
    인천 1,900 511 500 1,065 860 561 310 880 182 70 40 130 7,009
    광주 1,032 240 320 470 310 390 120 370 60 70 20 100 3,502
    대전 1,490 470 321 912 272 255 141 392 71 110 21 60 4,515
    울산 760 220 120 752 150 380 250 600 70 30 20 150 3,502
    경기 3,650 1,862 1,720 2,440 1,350 1,350 382 2,224 730 290 100 410 16,508
    강원 1,368 460 450 740 400 410 180 570 200 90 30 110 5,008
    충청 1,540 520 495 740 460 281 121 410 235 70 22 120 5,014
    전라 2,113 330 200 782 280 190 285 630 60 52 30 60 5,012
    경상 1,571 321 440 921 401 320 291 370 180 100 40 51 5,006
    제주 820 283 272 440 240 252 101 340 125 50 11 80 3,014
    합계 28,085 9,024 8,598 15,793 7,615 7,804 3,702 11,196 3,718 1,663 574 2,341 100,113
    분포 28.10% 9.00% 8.60% 15.80% 7.60% 7.80% 3.70% 11.20% 3.70% 1.70% 0.60% 2.20% 100.00%
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    1) 활용 모델

    AI 모델 모델 성능 지표 응용서비스(예시)
    Transformer 기반 기계 번역기 모델 BLEU 음식명 기계 번역기
    Easy OCR 모델 CER 음식 메뉴 인식 서비스

     

    2) 서비스 활용 시나리오

    ⦁ 음식 메뉴판을 카메라 기반 앱으로 인식하고 다른 언어로 번역해 주는 앱 지원
    ⦁ 한국에 방문한 외국인들이 한국 음식을 정확하게 이해하는 것을 지원하기 위하여, 
      음식명을 정확하게 번역하고, 음식에 대한 정보를 제공함
    ⦁ 한국어 인식 정확도가 높은 OCR 엔진, 음식명을 정확하게 번역하는 기계 번역기는
      OCR 기반의 서비스와 기계 번역을 필요로 하는 다양한 서비스에서 활용이 가능함

     

    3) 데이터 학습 방법 및 파라미터

    ⦁ OCR 모델

    Parameter Value
    Transformation TPS
    FeatureExtraction VGG
    SequenceModeling BiLSTM
    Prediction Attn
    batch_size 128
    hidden_size 256
    num_iter 300,000
    lr 1
    beta1 0.9
    eps 1.00E-08
    batch_max_length 50
    imgH 64
    imgW 300
    output_channel 512

     

    ⦁ 번역 모델

    Parameter 한영 한일 한중(간체) 한중(번체)
    batch_size 64,000 16,000 16,000 16,000
    batch_type tokens tokens tokens tokens
    train_steps 100,000 100,000 100,000 100,000
    dropout 0.1 0.1 0.1 0.1
    warmup_steps 6,000 6,000 6,000 6,000
    learning_rate 2 2 2 2
    decay_method noam noam noam noam
  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 메뉴명 번역 정확성 (영어) Machine Translation OpenNMT BLEU 0.7 0.7245
    2 메뉴명 번역 정확성 (일본어) Machine Translation OpenNMT BLEU 0.7 0.7041
    3 메뉴명 번역 정확성 (중국어(간체)) Machine Translation OpenNMT BLEU 0.7 0.7065
    4 메뉴명 번역 정확성 (중국어(번체)) Machine Translation OpenNMT BLEU 0.7 0.7765
    5 Text 인식 오류율 Optical Character Recognition TPS+VGG+BiLSTM+Attn CER 20 % 2.9 %

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    1) 데이터 포맷

    데이터 유형 원천데이터 라벨링데이터
    OCR 정보 메뉴지식정보 다국어 번역
    데이터 형식 JPG JSON

     

    2) 어노테이션 포맷

    구분 영문 필드명 타입 내용 및 기준 필요여부
    메타데이터 meta object 메뉴판 이미지 메타 정보 필수
    이미지 파일명   file_name string 메뉴판 이미지 파일 이름 필수
    이미지 가로 사이즈   image_original_width number 메뉴판 이미지의 가로 사이즈 필수
    이미지 세로 사이즈   image_original_height number 메뉴판 이미지의 세로 사이즈 필수
    촬영날짜   captured_date string 메뉴판 이미지를 촬영한 날짜 선택
    가게ID   store_id string 메뉴판을 가지고 있는 업체 id 선택
    지역   store_region string 메뉴판을 가지고 있는 업체의 지역 정보 필수
    업종   store_type string 메뉴판을 가지고 있는 식당의 업종 필수
    메뉴판 종류   image_type string 메뉴판의 종류 필수
    전체 메뉴판 외곽 정보   boundary_coordinates object 이미지에서 전체 메뉴판 외곽 위치 정보 필수
    메뉴판 외곽 bounding box 종류     box_type string 메뉴판 외곽 bounding box의 종류 (bbox 혹은 polygon) 필수
    메뉴판 외곽 위치 정보     points array box_type이 polygon인 경우, 이미지에서 메뉴판의 위치를 나타내는 [x, y] 정보를 담고 있는 배열 선택
        value object box_type이 bbox인 경우, 이미지에서 메뉴판의 위치를 나타내는 x, y, width, height, rotation 정보 선택
    라벨링 데이터 annotations array 메뉴판 이미지에서 메뉴별 OCR 정보와 다국어 메뉴 지식 정보를 담고 있는 배열 필수
    시리얼넘버   sn string 한 개의 메뉴에 대한 고유 시리얼 번호 필수
    OCR 정보   ocr object 메뉴판 이미지에서 각 메뉴에 대한 OCR 정보 필수
    OCR 텍스트     text string Bounding box안에 있는 텍스트 필수
    OCR bounding 종류     box_type string Bounding box 종류 (bbox 혹은 polygon) 필수
    OCR bounding 좌표 정보     x number box_type이 bbox 인 경우, bounding box된 메뉴의 x좌표 선택
        y number box_type이 bbox 인 경우, bounding box된 메뉴의 y좌표 선택
        width number box_type이 bbox 인 경우, bounding box된 메뉴의 가로길이 선택
        height number box_type이 bbox 인 경우, bounding box된 메뉴의 세로길이 선택
        rotation number box_type이 bbox 인 경우, bounding box의 회전 정보 선택
        points array box_type이 polygon인 경우, polygon을 이루는 [x, y] 정보를 담고 있는 배열 선택
    다국어 메뉴 지식 정보    menu_information object 이미지에서 bounding box가 된 메뉴들의 메뉴 지식 정보와 번역 정보 필수
    음식명분류 (중분류)     food_type string 음식명 중분류 (한국관광공사 기준 준수) 필수
    음식명분류 (소분류)     food_subtype string 음식명 소분류 (한국관광공사 기준 준수) 필수
    메뉴명     ko string 음식 메뉴명 필수
    가격     price number 음식 가격 선택
    로마자표기 (영어음독)     en.ROMAN string 음식 메뉴명 로마자 표기 필수
    메뉴명 다국어 번역     en string 음식 메뉴명 영어 번역본 필수
        ja string 음식 메뉴명 일본어 번역본 필수
        zh_CN string 음식 메뉴명 중국어 간체 번역본 필수
        zh_TW string 음식 메뉴명 중국어 번체 번역본 필수
    고유정보 (식재료)     ingredients.ko array 메뉴에 들어간 고유정보(주재료)를 담은 배열 선택
    고유정보 (식재료) 다국어 번역     ingredients.en array 고유정보(식재료) 영어 번역본 선택
        ingredients.ja array 고유정보(식재료) 일본어 번역본 선택
        ingredients.zh_CN array 고유정보(식재료) 중국어 간체 번역본 선택
        ingredients.zh_TW array 고유정보(식재료) 중국어 번체 번역본 선택
    알레르기 유발물질     allergy array 알레르기를 유발하는 식재료 정보를 담은 배열 선택
    맵기 정도     spicy_level number 음식의 매운맛 정도 (1~3까지 표시) 선택

     

    3) 실제 예시

    • 원천데이터

    실제예시 원천데이터

     

    • 라벨링데이터

    {  "meta": {
        "file_name": "SL_KF01_M0002_285374_1.jpg",
        "image_original_width": 3468,
        "image_original_height": 4624,
        "captured_date": "2022:09:23 18:28:43",
        "store_id": "285374",
        "store_region": "SL",
        "store_type": "KF01",
        "image_type": "M0002",
        "boundary_coordinates": {
          "box_type": "polygon",
          "points": [
            [
              13.28545780969479,
              4.441453566621804
            ],
            [
              91.74147217235189,
              3.768506056527591
            ],
            [
              92.28007181328546,
              82.50336473755047
            ],
            [
              14.183123877917412,
              82.50336473755047
            ]
          ]
        }
      },
      "annotations": [
        {
          "menu_information": {
            "food_type": "한식",
            "food_subtype": "탕",
            "ko": "뼈감자탕",
            "en.ROMAN": "ppyeogamjatang",
            "en": "Pork Backbone Stew",
            "ja": "豚骨入りカムジャタン",
            "zh_CN": "脊骨土豆汤",
            "zh_TW": "馬鈴薯排骨湯",
            "price": "35000",
            "ingredients.ko": [
              "야채",
              "우거지",
              "돼지등뼈",
              "감자"
            ],
            "ingredients.en": [
              "Vegetables",
              "Napa Cabbage",
              "Pork Backbone",
              "Potato"
            ],
            "ingredients.ja": [
              "野菜",
              "白菜",
              "豚の背骨",
              "じゃがいも"
            ],
            "ingredients.zh_CN": [
              "蔬菜",
              "干白菜",
              "猪脊骨",
              "土豆"
            ],
            "ingredients.zh_TW": [
              "蔬菜",
              "乾白菜",
              "豬脊骨",
              "馬鈴薯"
            ],
            "allergy": [
              "돼지고기"
            ],
            "spicy_level": null
          },
          "sn": "SL_KF01_M0002_285374_1-tf.jpg_4",
          "ocr": {
            "x": 21.488568046299484,
            "y": 19.03438271991973,
            "text": "뼈감자탕",
            "width": 19.882056930859797,
            "height": 3.9576124567474014,
            "rotation": 0
          }
        },
       

  • 데이터셋 구축 담당자

    수행기관(주관) : 글나무 주식회사
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    방다솜 부장 02-3210-0601 dsbang@voctree.com 데이터 정제(음식명 한국어 정제), 데이터 가공(다국어 번역)
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    아로정보기술 원시데이터 수집
    한국외국어대학교 연구산학협력단 데이터 가공(다국어 번역)
    트위그팜 데이터 정제(OCR 데이터 라벨링), AI 모델 학습
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    방다솜 부장 02-3210-0601 dsbang@voctree.com
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.