-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-01 데이터 최종 개방 1.0 2023-07-19 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-04-23 AI모델 수정 도커이미지 추가 2024-03-05 산출물 전체 공개 소개
관광 음식메뉴판의 OCR 인식 및 기계 번역 품질 향상을 위해, 메뉴판 이미지로부터 추출한 ‘음식 메뉴명’의 지식정보 및 번역문으로 구성한 라벨링 데이터와 전국 음식점의 메뉴판 이미지로 구성한 AI 학습용 데이터셋
구축목적
• 스마트 관광에 활용할 수 있는 음식 메뉴명과 메뉴에 대한 지식정보 구축 • 인공지능 기반 OCR 기술 향상을 위한 메뉴판 이미지 데이터 구축 • 신경망 기반의 기계 번역기 학습 데이터로 활용하기 위한 번역 데이터 구축
-
메타데이터 구조표 데이터 영역 문화관광 데이터 유형 텍스트 , 이미지 데이터 형식 JPG 데이터 출처 자체 수집 라벨링 유형 번역(자연어), 바운딩박스(이미지) 라벨링 형식 JSON 데이터 활용 서비스 챗봇 서비스, 이미지 기계 번역 서비스 데이터 구축년도/
데이터 구축량2022년/100,113 -
1) 데이터 구축 규모
데이터 구축 규모 지역 데이터 구축 목표 수량 카테고리별 데이터 분포 이미지 지식정보 다국어번역 서울 25,018 25,018 영어, 일어, 중간, 중번 각 25,018 25% 부산 10,005 10,005 영어, 일어, 중간, 중번 각 10,005 10% 대구 7,000 7,000 영어, 일어, 중간, 중번 각 7,000 7% 인천 7,009 7,009 영어, 일어, 중간, 중번 각 7,009 7% 광주 3,502 3,502 영어, 일어, 중간, 중번 각 3,502 3.50% 대전 4,515 4,515 영어, 일어, 중간, 중번 각 4,515 4.50% 울산 3,502 3,502 영어, 일어, 중간, 중번 각 3,502 3.50% 경기 16,508 16,508 영어, 일어, 중간, 중번 각 16,508 16.50% 강원 5,008 5,008 영어, 일어, 중간, 중번 각 5,008 5% 충청 5,014 5,014 영어, 일어, 중간, 중번 각 5,014 5% 전라 5,012 5,012 영어, 일어, 중간, 중번 각 5,012 5% 경상 5,006 5,006 영어, 일어, 중간, 중번 각 5,006 5% 제주 3,014 3,014 영어, 일어, 중간, 중번 각 3,014 3% 합계 100,113 100,113 영어, 일어, 중간, 중번 각 100,113 100% 2) 데이터 분포
2) 데이터 분포 지역 업종 합계 한식 분식 경양식 식육 중국식 일식 횟집 통닭 외국 김밥 뷔페 패스트푸드 음식 서울 6,881 2,306 2,640 2,980 2,120 2,435 620 2,500 1,355 441 140 600 25,018 부산 2,780 831 720 1,801 442 730 631 1,280 180 180 60 370 10,005 대구 2,180 670 400 1,750 330 250 270 630 270 110 40 100 7,000 인천 1,900 511 500 1,065 860 561 310 880 182 70 40 130 7,009 광주 1,032 240 320 470 310 390 120 370 60 70 20 100 3,502 대전 1,490 470 321 912 272 255 141 392 71 110 21 60 4,515 울산 760 220 120 752 150 380 250 600 70 30 20 150 3,502 경기 3,650 1,862 1,720 2,440 1,350 1,350 382 2,224 730 290 100 410 16,508 강원 1,368 460 450 740 400 410 180 570 200 90 30 110 5,008 충청 1,540 520 495 740 460 281 121 410 235 70 22 120 5,014 전라 2,113 330 200 782 280 190 285 630 60 52 30 60 5,012 경상 1,571 321 440 921 401 320 291 370 180 100 40 51 5,006 제주 820 283 272 440 240 252 101 340 125 50 11 80 3,014 합계 28,085 9,024 8,598 15,793 7,615 7,804 3,702 11,196 3,718 1,663 574 2,341 100,113 분포 28.10% 9.00% 8.60% 15.80% 7.60% 7.80% 3.70% 11.20% 3.70% 1.70% 0.60% 2.20% 100.00% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1) 활용 모델
활용 모델 AI 모델 모델 성능 지표 응용서비스(예시) Transformer 기반 기계 번역기 모델 BLEU 음식명 기계 번역기 Easy OCR 모델 CER 음식 메뉴 인식 서비스 2) 서비스 활용 시나리오
⦁ 음식 메뉴판을 카메라 기반 앱으로 인식하고 다른 언어로 번역해 주는 앱 지원
⦁ 한국에 방문한 외국인들이 한국 음식을 정확하게 이해하는 것을 지원하기 위하여,
음식명을 정확하게 번역하고, 음식에 대한 정보를 제공함
⦁ 한국어 인식 정확도가 높은 OCR 엔진, 음식명을 정확하게 번역하는 기계 번역기는
OCR 기반의 서비스와 기계 번역을 필요로 하는 다양한 서비스에서 활용이 가능함3) 데이터 학습 방법 및 파라미터
⦁ OCR 모델
OCR 모델 Parameter Value Transformation TPS FeatureExtraction VGG SequenceModeling BiLSTM Prediction Attn batch_size 128 hidden_size 256 num_iter 300,000 lr 1 beta1 0.9 eps 1.00E-08 batch_max_length 50 imgH 64 imgW 300 output_channel 512 ⦁ 번역 모델
번역 모델 Parameter 한영 한일 한중(간체) 한중(번체) batch_size 64,000 16,000 16,000 16,000 batch_type tokens tokens tokens tokens train_steps 100,000 100,000 100,000 100,000 dropout 0.1 0.1 0.1 0.1 warmup_steps 6,000 6,000 6,000 6,000 learning_rate 2 2 2 2 decay_method noam noam noam noam -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 메뉴명 번역 정확성 (영어) Machine Translation OpenNMT BLEU 0.7 점 0.7245 점 2 메뉴명 번역 정확성 (일본어) Machine Translation OpenNMT BLEU 0.7 점 0.7041 점 3 메뉴명 번역 정확성 (중국어(간체)) Machine Translation OpenNMT BLEU 0.7 점 0.7065 점 4 메뉴명 번역 정확성 (중국어(번체)) Machine Translation OpenNMT BLEU 0.7 점 0.7765 점 5 Text 인식 오류율 Optical Character Recognition TPS+VGG+BiLSTM+Attn CER 20 % 2.9 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1) 데이터 포맷
데이터 포맷 데이터 유형 원천데이터 라벨링데이터 OCR 정보 메뉴지식정보 다국어 번역 데이터 형식 JPG JSON 2) 어노테이션 포맷
어노테이션 포맷 구분 영문 필드명 타입 내용 및 기준 필요여부 메타데이터 meta object 메뉴판 이미지 메타 정보 필수 이미지 파일명 file_name string 메뉴판 이미지 파일 이름 필수 이미지 가로 사이즈 image_original_width number 메뉴판 이미지의 가로 사이즈 필수 이미지 세로 사이즈 image_original_height number 메뉴판 이미지의 세로 사이즈 필수 촬영날짜 captured_date string 메뉴판 이미지를 촬영한 날짜 선택 가게ID store_id string 메뉴판을 가지고 있는 업체 id 선택 지역 store_region string 메뉴판을 가지고 있는 업체의 지역 정보 필수 업종 store_type string 메뉴판을 가지고 있는 식당의 업종 필수 메뉴판 종류 image_type string 메뉴판의 종류 필수 전체 메뉴판 외곽 정보 boundary_coordinates object 이미지에서 전체 메뉴판 외곽 위치 정보 필수 메뉴판 외곽 bounding box 종류 box_type string 메뉴판 외곽 bounding box의 종류 (bbox 혹은 polygon) 필수 메뉴판 외곽 위치 정보 points array box_type이 polygon인 경우, 이미지에서 메뉴판의 위치를 나타내는 [x, y] 정보를 담고 있는 배열 선택 value object box_type이 bbox인 경우, 이미지에서 메뉴판의 위치를 나타내는 x, y, width, height, rotation 정보 선택 라벨링 데이터 annotations array 메뉴판 이미지에서 메뉴별 OCR 정보와 다국어 메뉴 지식 정보를 담고 있는 배열 필수 시리얼넘버 sn string 한 개의 메뉴에 대한 고유 시리얼 번호 필수 OCR 정보 ocr object 메뉴판 이미지에서 각 메뉴에 대한 OCR 정보 필수 OCR 텍스트 text string Bounding box안에 있는 텍스트 필수 OCR bounding 종류 box_type string Bounding box 종류 (bbox 혹은 polygon) 필수 OCR bounding 좌표 정보 x number box_type이 bbox 인 경우, bounding box된 메뉴의 x좌표 선택 y number box_type이 bbox 인 경우, bounding box된 메뉴의 y좌표 선택 width number box_type이 bbox 인 경우, bounding box된 메뉴의 가로길이 선택 height number box_type이 bbox 인 경우, bounding box된 메뉴의 세로길이 선택 rotation number box_type이 bbox 인 경우, bounding box의 회전 정보 선택 points array box_type이 polygon인 경우, polygon을 이루는 [x, y] 정보를 담고 있는 배열 선택 다국어 메뉴 지식 정보 menu_information object 이미지에서 bounding box가 된 메뉴들의 메뉴 지식 정보와 번역 정보 필수 음식명분류 (중분류) food_type string 음식명 중분류 (한국관광공사 기준 준수) 필수 음식명분류 (소분류) food_subtype string 음식명 소분류 (한국관광공사 기준 준수) 필수 메뉴명 ko string 음식 메뉴명 필수 가격 price number 음식 가격 선택 로마자표기 (영어음독) en.ROMAN string 음식 메뉴명 로마자 표기 필수 메뉴명 다국어 번역 en string 음식 메뉴명 영어 번역본 필수 ja string 음식 메뉴명 일본어 번역본 필수 zh_CN string 음식 메뉴명 중국어 간체 번역본 필수 zh_TW string 음식 메뉴명 중국어 번체 번역본 필수 고유정보 (식재료) ingredients.ko array 메뉴에 들어간 고유정보(주재료)를 담은 배열 선택 고유정보 (식재료) 다국어 번역 ingredients.en array 고유정보(식재료) 영어 번역본 선택 ingredients.ja array 고유정보(식재료) 일본어 번역본 선택 ingredients.zh_CN array 고유정보(식재료) 중국어 간체 번역본 선택 ingredients.zh_TW array 고유정보(식재료) 중국어 번체 번역본 선택 알레르기 유발물질 allergy array 알레르기를 유발하는 식재료 정보를 담은 배열 선택 맵기 정도 spicy_level number 음식의 매운맛 정도 (1~3까지 표시) 선택 3) 실제 예시
• 원천데이터
• 라벨링데이터
{ "meta": {
"file_name": "SL_KF01_M0002_285374_1.jpg",
"image_original_width": 3468,
"image_original_height": 4624,
"captured_date": "2022:09:23 18:28:43",
"store_id": "285374",
"store_region": "SL",
"store_type": "KF01",
"image_type": "M0002",
"boundary_coordinates": {
"box_type": "polygon",
"points": [
[
13.28545780969479,
4.441453566621804
],
[
91.74147217235189,
3.768506056527591
],
[
92.28007181328546,
82.50336473755047
],
[
14.183123877917412,
82.50336473755047
]
]
}
},
"annotations": [
{
"menu_information": {
"food_type": "한식",
"food_subtype": "탕",
"ko": "뼈감자탕",
"en.ROMAN": "ppyeogamjatang",
"en": "Pork Backbone Stew",
"ja": "豚骨入りカムジャタン",
"zh_CN": "脊骨土豆汤",
"zh_TW": "馬鈴薯排骨湯",
"price": "35000",
"ingredients.ko": [
"야채",
"우거지",
"돼지등뼈",
"감자"
],
"ingredients.en": [
"Vegetables",
"Napa Cabbage",
"Pork Backbone",
"Potato"
],
"ingredients.ja": [
"野菜",
"白菜",
"豚の背骨",
"じゃがいも"
],
"ingredients.zh_CN": [
"蔬菜",
"干白菜",
"猪脊骨",
"土豆"
],
"ingredients.zh_TW": [
"蔬菜",
"乾白菜",
"豬脊骨",
"馬鈴薯"
],
"allergy": [
"돼지고기"
],
"spicy_level": null
},
"sn": "SL_KF01_M0002_285374_1-tf.jpg_4",
"ocr": {
"x": 21.488568046299484,
"y": 19.03438271991973,
"text": "뼈감자탕",
"width": 19.882056930859797,
"height": 3.9576124567474014,
"rotation": 0
}
},
-
데이터셋 구축 담당자
수행기관(주관) : 글나무 주식회사
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 방다솜 부장 02-3210-0601 dsbang@voctree.com 데이터 정제(음식명 한국어 정제), 데이터 가공(다국어 번역) 수행기관(참여)
수행기관(참여) 기관명 담당업무 아로정보기술 원시데이터 수집 한국외국어대학교 연구산학협력단 데이터 가공(다국어 번역) 트위그팜 데이터 정제(OCR 데이터 라벨링), AI 모델 학습 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 방다솜 부장 02-3210-0601 dsbang@voctree.com
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.