해외상표 이미지 AI 데이터
- 분야지식재산
- 유형 이미지
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-11-21 데이터 최종 개방 1.0 2023-04-30 데이터 개방(Beta Verison) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-11-21 산출물 전체 공개 소개
전문가(변리사)가 관여된 해외 상표 및 비엔나 코드(Vienna code) 라벨링을 통한 인공지능 학습데이터
구축목적
해외에서 출원된 상표 이미지를 수집하여, 컴퓨터 비전 및 AI분야에서 활발하게 연구가 진행되고 있는 객체 인식 분야에 적용할 수 있는 데이터셋(상표 이미지 데이터를 활용한 객체 인식(object detection) AI 학습용 데이터) 구축
-
메타데이터 구조표 데이터 영역 지식재산 데이터 유형 이미지 데이터 형식 jpg 데이터 출처 키프리스 플러스, USPTO 라벨링 유형 바운딩박스(이미지), 세그멘테이션(이미지) 라벨링 형식 JSON 데이터 활용 서비스 유사 상표 검색 서비스 데이터 구축년도/
데이터 구축량2022년/원천데이터: 841,561건, 라벨링데이터: 1,513,260건 -
1. 데이터 구축 규모
• 원천 데이터: 약 84만 건 규모의 jpg형태
• 라벨링 데이터: 약 151만 건 규모의 json형태
2. 데이터 분포
• 해외상표 디자인 코드 종류 분포(데이터 통계 다양성):
- 데이터 신뢰성 및 공평성을 위해 1800년대부터 2022년까지 미국에서 출원된 모든 상표 이미지 수집을 통해 시대, 산업별 편향성 제거
2. 데이터 분포 중분류 desc 구성비 2601 Circles 9.70% 2617 Lines, bands, bars 6.20% 2609 Squares 5.70% 2611 Rectangles 4.60% 0115 Natural phenomena 4.00% 0301 Cats, dogs, wolves, foxes, bears, lions, tigers 3.70% 0315 Birds, bats 3.70% 0211 Parts of the human body, skeletons, skulls 2.90% 2615 Polygons (geometric figures with five or more sides) 2.80% 0501 Trees, bushes 2.70% 2801 Inscriptions 2.60% 2607 Diamonds 2.60% 0201 Men 2.60% 2401 Shields, crests 2.60% 0905 Headwear 2.40% 0101 Stars, comets 2.20% 0107 Globes 2.20% 0105 Sun 2.00% 0503 Leaves, branches with leaves or needles; needles 1.70% 2603 Ovals 1.70% 2411 Crowns 1.70% 0701 Dwellings, cages or kennels 1.60% 2605 Triangles 1.60% 0307 Bovines, deer, antelopes, goats, sheep, pigs, cows, bulls, buffalo, moose 1.50% 0323 Insects, spiders, micro-organisms 1.40% 2417 Notational signs and symbols 1.30% 2703 Figurative elements forming representations of letters or numerals, including punctuation 1.20% 2415 Arrows 1.10% 0505 Flowers 0.90% 0203 Women 0.80% 2613 Quadrilaterals 0.60% 2409 Flags, banners 0.60% 0317 Parts of birds; eggs and nests 0.60% 2103 Sporting articles, merry-go-rounds 0.60% 0319 Fish, whales, seals, sea lions 0.50% 0601 Mountains, rocks, caves 0.40% 0313 Parts of the body (excluding heads) of four-footed mammals mammals or primates (monkeys, apes, etc., excluding humans); animal skeletons; animal skulls 0.40% 2003 Paper goods, documents 0.40% 0901 Textiles other than clothing 0.40% 0509 Fruits 0.40% 2413 Crosses 0.40% 2619 Geometric solids 0.40% 0513 Other plants 0.40% 0707 Exteriors and exterior parts of dwellings or buildings 0.30% 0205 Children 0.30% 1603 Photography, cinematography, optics 0.30% 0117 Maps or outlines of continents, countries, and other geographical areas 0.30% 0321 Reptiles, snails, frogs 0.30% 0111 Moons 0.30% 0903 Clothing 0.30% 2101 Games, toys 0.30% 0703 Buildings 0.30% 0603 Scenery with water, rivers or streams 0.30% 1707 Measuring instruments 0.20% 2503 Repeated figurative elements or inscriptions 0.20% 1103 Containers for beverages; plates and dishes; cooking and serving ware (nonelectric) 0.20% 0401 Winged or horned personages, fairies, supernatural beings, mythological or legendary personages 0.20% 0711 Structural works 0.20% 2701 Letters or numerals, including punctuation, forming figurative elements 0.20% 1601 Telecommunications and sound recording or reproduction equipment 0.20% 1507 Wheels, bearings 0.20% 1805 Land motor vehicles 0.20% 0309 Small mammals other than cats and dogs; rodents; kangaroos and wallabies 0.20% 1909 Bottles, jars, flasks 0.20% 1703 Jewelry 0.20% 0507 Grain, nuts, seeds 0.20% 1101 Knives, forks, spoons; kitchen utensils (nonelectric) 0.20% 0515 Decorations made of plants 0.20% 1907 Small containers 0.20% 0405 Mythological or legendary animals 0.20% 1811 Parts of land vehicles, water vehicles or air vehicles 0.20% 0109 Planets, asteroids, meteors, the solar system and atomic or molecular models 0.20% 0305 Horses, donkeys, zebras 0.20% 1809 Air or space vehicles 0.20% 1401 Tubes, cables, heavy hardware articles 0.20% 1301 Lighting equipment 0.20% 0303 Elephants, hippopotami, rhinoceri, giraffes, alpacas, camels, llamas 0.20% 1411 Keys for locks; locks 0.20% 0709 Monuments, stadiums, fountains 0.20% 2501 Framework 0.20% 1405 Tools (hand and power) 0.20% 1403 Small hardware articles, springs 0.10% 0207 Groups of humans 0.10% 0511 Vegetables 0.10% 801 Baked goods 0.10% 311 Primates, (monkeys, apes, etc.) 0.10% 2001 Writing, drawing or painting materials, small office materials 0.10% 2301 Weapons 0.10% 407 Plants, objects or geometric figures representing a person or an animal 0.10% 607 Urban scenery or village scenes 0.10% 2201 Musical instruments and their accessories 0.10% 1701 Time-measuring instruments 0.10% 907 Footwear 0.10% 2407 Coins, medals 0.10% 2419 Signs and symbols associated with electronic and computerized devices 0.10% 1201 Furniture 0.10% 1505 Computer devices and office and business machines 0.10% 2005 Books, magazines, newspapers 0.10% 1905 Large containers 0.10% 609 Other scenery 0.10% 1007 Medical devices and apparatus 0.10% 1807 Vehicles for use on water; amphibious vehicles 0.10% 2405 Seals 0.10% 209 Humans depicted engaging in activities 0.10% 715 Building materials 0.10% 2303 Firearms, ammunition, explosives 0.10% 2403 Emblems, insignia 0.10% 1501 Machines for industry or agriculture; industrial installations; motors; engines; various mechanical appliances 0.10% 1509 Electrical equipment 0.10% 813 Other foodstuffs 0.10% 713 Billboards, signs 0.10% 1803 Land vehicles propelled by human power 0.10% 1813 Equipment for animals 0.10% 103 Constellations, starry sky 0.10% 1901 Baggage, portfolios, pocketbooks, wallets 0.10% 909 Sewing accessories and equipment; patterns for dressmaking 0.10% 1005 Toilet articles, grooming devices, mirrors 0.10% 1107 Cutlery 0.10% 1003 Fans, canes, umbrellas 0.10% 409 Masks 0.10% 809 Frozen confections, ice 0.10% 1815 Traffic signs 0.00% 1009 Medicines and nonmedical products in tablet, capsule or powder form 0.00% 803 Candies 0.00% 1705 Scales, weights 0.00% 1303 Cooking, heating or refrigeration equipment 0.00% 2305 Armor (wearable) 0.00% 1913 Receptacles for laboratory use 0.00% 1109 Miscellaneous household utensils 0.00% 805 Sandwiches 0.00% 1001 Tobacco, smokers' materials, matches 0.00% 705 Interiors and interior parts of dwellings or buildings 0.00% 403 Beings partly human and partly animal 0.00% 2705 Illegible signatures 0.00% 325 Prehistoric animals 0.00% 2203 Bells 0.00% 1203 Plumbing fixtures 0.00% 1911 Parts or accessories of bottles, jars and flasks 0.00% 811 Meat and fish products 0.00% 1407 Non-motorized agricultural or horticultural implements 0.00% 2421 Signs and symbols associated with travel and mapping 0.00% 807 Dairy products 0.00% 1409 Ladders 0.00% 1801 Vehicles propelled by animal power 0.00% 2205 Sculptures 0.00% 1503 Household machines, appliances 0.00% 605 Desert scenery 0.00% 1105 Small electric kitchen appliances 0.00% 2802 Other Forms of Communication 0.00% 1903 Animal containers 0.00% • 해외상표 년대별 분포(데이터 요건 다양성):
- 실제 출원된 해외상표 이미지 데이터를 수집해 디자인코드별 편향성 없이 출원된 모든 상표를 수집하여 다양한 데이터 구축
- 각 국가의 특허청에서 운영 중인 키프리스 플러스(한국)와 USPTO(미국)를 통해 데이터 수집하여 신뢰성 확보
- 년대별로 분류하여 특정 년도 및 기간에 편중된 데이터를 확보할 가능성을 최소화 함.데이터 요건 다양성 구성비 2022 3% 2021 7% 2020 9% 2019 9% 2018 8% 2017 9% 2016 8% 2015 9% 2014 6% 2013 5% 2012 8% 2011 5% 2010 4% 1884-2009 10% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1. 인공지능 기반 상표 이미지 객체 탐지 모델
● 개발 목표: 해외상표 이미지 내 비엔나코드(디자인코드)에 해당하는 객체(도형) 탐지
● 개발 내용: 구축되는 학습데이터를 활용하여 YOLOv5 기반 상표 이미지에서 라벨(비엔나코드 중분류)에 해당하는 객체(도형)를 탐지함.
● 상표 이미지 객체 탐지 YOLOv5 모델의 기본 구조는 다음과 같음.YOLOv5 모델의 기본 구조 YOLOv5 구조 [그림] YOLO의 작동 방식
설명 • Step object detection 기법을 제안하여 기존의 모형보다 객체 검출 속도 및 정확도가 획기적으로 향상되었으며, 해당 모형에 대한 설명은 아래와 같음.
• YOLO에서 활용되는 CNN의 입력 크기는 으로 가로와 세로 길이 비율이 동일하나, 일반적인 영상 데이터의 가로 세로 비율이 1:1이 아닌 경우 영상에 여백을 추가하여 가로 세로의 비율을 1:1로 조정함.
• 가로와 세로의 비율이 조정된 영상 데이터를 이미지로 분할하여 CNN에 통과시키며, fully connected layer까지 통과된 특성 벡터를 아래 식과 같은 형태로 변환함.
식(1)
• 위의 식에서 는 anchor의 개수를 의미하며, 는 (object가 존재할 확률), (x center, y center, width, height), 는 클래스 개수를 의미함.
• 각 그리드 셀에서 가 threshhold 미만으로 나타난 bounding box를 제거하며, threshhold 이상으로 나타난 bounding box 중 region별로 가 가장 높은 boundig box만 남김으로써 객체의 위치 및 클래스를 검출함.
2. 응용서비스 - 상표 이미지 기반 유사 이미지 검색 서비스 ‘마크뷰’ 고도화● 전문가뿐만 아니라 일반인도 쉽게 사용할 수 있는 유사 상표 이미지/텍스트 검색
플랫폼 개발을 통해 상표권/디자인권 보호 및 지식재산권 취약계층 격차 해소
● 본 개발을 통해, 지식재산보호 취약계층인 중소기업, 소상공인에 대한 지식재산보호 강화, 노동집약적인 지식재산 산업에 인공지능 기술을 접목하여 기술 선진화에 이바지하고자 함.[그림] 유사 상표 이미지/텍스트 검색 서비스 ‘마크뷰’
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 해외상표 인식 성능 Object Detection YOLO mAP 60 % 62.5 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 데이터 개요
● 미국에서 출원(1884.01.01.~2022.04.20.)된 모든 상표 중 이미지 상표를 포함한 도형(Nonverbal) 및 도형복합(Combined)에 해당하는 상표를 수집하여 국제 도형분류 코드인 비엔나코드(디자인코드) 기반으로 어노테이션 및 이미지 내 객체 라벨링한 데이터셋으로, 전문가(변리사)가 관여하여 구축한 데이터. 상표 이미지에 존재하는 도형을 인식하고 이미지 유사성을 검사하는 등의 객체 인식 분야에서 활용할 수 있는 인공지능 학습용 DB를 구축함.
2. 원천 데이터
● 구성구성 데이터 종류 폴더구조 파일명 구조
이미지출원연도
ㄴ 이미지
ㄴ 이미지
...
ㄴ 이미지
...
출원연도
ㄴ 이미지
ㄴ 이미지
...
ㄴ 이미지출원연도_id.jpg
ex) "2014_86283940.jpg"
출원연도_id.jpg
ex) "2020_79270579.jpg"● 예시
● 디렉토리 구조 : 출원연도 기준
디렉토리 구조 No Field name Meaning 구조 a 1884-2009 1884년부터 2009년도에 출원된 상표이미지 b 2010 2010년도에 출원된 상표이미지 c 2011 2011년도에 출원된 상표이미지 d 2012 2012년도에 출원된 상표이미지 e 2013 2013년도에 출원된 상표이미지 f 2014 2014년도에 출원된 상표이미지 g 2015 2015년도에 출원된 상표이미지 h 2016 2016년도에 출원된 상표이미지 i 2017 2017년도에 출원된 상표이미지 j 2018 2018년도에 출원된 상표이미지 k 2019 2019년도에 출원된 상표이미지 l 2020 2020년도에 출원된 상표이미지 m 2021 2021년도에 출원된 상표이미지 n 2022 2022년도에 출원된 상표이미지 3. 라벨링 데이터
● 구성3. 라벨링 데이터 구분 속성명 타입 필수여부 설명 1 images array Y 이미지 1-1 fileName string Y 이미지파일명 1-2 img_id number Y 이미지 1-3 img_w number Y 이미지너비 1-4 img_h number Y 이미지높이 1-5 tot_mid_vienna_code array Y 비엔나코드중분류 1-6 tot_vienna_code array Y 비엔나코드 1-7 applicant string N 출원인정보 1-8 niceCode array N NICE코드 1-9 classOfGoodServiceBusinessName string N 상품 설명 1-10 application_date number Y 출원 일자 2 annotations object Y 어노테이션 2-1 bbox array Y 바운딩박스 2-1-1 bbox_id string Y 바운딩박스식별자 2-1-2 fileName string Y 크롭이미지이름 2-1-3 mid_vienna_code string Y 비엔나코드중분류 2-1-4 points array Y 바운딩박스 좌표 2-2 polygon array N 객체 세그멘테이션 2-2-1 poly_id string Y 세그멘테이션식별자 2-2-2 fileName string Y 크롭이미지이름 2-2-3 mid_vienna_code string Y 비엔나코드중분류 2-2-4 points array Y 세그멘테이션 좌표 ● 라벨링데이터 예시
"annotations": {
"bbox": [
{
"bbox_id": "416041",
"fileName": "2014_86383727.jpg",
"mid_vienna_code": "2603",
"points": [
[
369.07698394528194,
25.815930217478012
],
[
687.3774629124656,
315.31779442096405
]
]
},● 디렉토리 구조 : 출원연도 기준
디렉토리 구조 No Field name Meaning 구조 a 1884-2009 1884년부터 2009년도에 출원된 상표이미지에 대한 어노테이션 정보 b 2010 2010년도에 출원된 상표이미지에 대한 어노테이션 정보 c 2011 2011년도에 출원된 상표이미지에 대한 어노테이션 정보 d 2012 2012년도에 출원된 상표이미지에 대한 어노테이션 정보 e 2013 2013년도에 출원된 상표이미지에 대한 어노테이션 정보 f 2014 2014년도에 출원된 상표이미지에 대한 어노테이션 정보 g 2015 2015년도에 출원된 상표이미지에 대한 어노테이션 정보 h 2016 2016년도에 출원된 상표이미지에 대한 어노테이션 정보 i 2017 2017년도에 출원된 상표이미지에 대한 어노테이션 정보 j 2018 2018년도에 출원된 상표이미지에 대한 어노테이션 정보 k 2019 2019년도에 출원된 상표이미지에 대한 어노테이션 정보 l 2020 2020년도에 출원된 상표이미지에 대한 어노테이션 정보 m 2021 2021년도에 출원된 상표이미지에 대한 어노테이션 정보 n 2022 2022년도에 출원된 상표이미지에 대한 어노테이션 정보 -
데이터셋 구축 담당자
수행기관(주관) : ㈜마크클라우드
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 박정민 02-1833-4992 info@markcloud.co.kr 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜라임솔루션 AI 모델 개발, 데이터 검수 ㈜아이웹 홍보 / 마케팅, 서비스 구축 특허법인로얄 AI 학습용 데이터 검수, 데이터 품질 관리, 법적 이슈사항 검토 해율특허법률사무소 데이터 구축 및 품질관리, 법적이슈사항 검토, 공모전 개최
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.