-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-06 데이터 최종 개방 1.0 2023-06-28 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-12-06 산출물 전체 공개 소개
반려견, 반려묘 건강정보와 관련된 데이터를 확보하고, 건강 상태 서비스 및 활력 데이터를 이용한 인공지능 데이터 활용 응용모델 개발
구축목적
크라우드소싱 데이터 수집 플랫폼 구축 및 데이터 품질검증을 통한 인공지능 서비스 개발에 필요한 반려견, 반려묘 건강정보 학습용 데이터 구축 반려동물의 표준 데이터베이스를 통한 건강상태 및 사양관리 등과 품종별 호발질병을 분석하는 인공지능 개발을 위한 데이터 구축
-
메타데이터 구조표 데이터 영역 농축수산 데이터 유형 이미지 데이터 형식 jpg 데이터 출처 동물병원, 유기견보호센터, 반려동물 훈련소 등 라벨링 유형 바운딩박스 라벨링 형식 JSON 데이터 활용 서비스 반려동물 건강 관리를 위한 비만도 확인 서비스 데이터 구축년도/
데이터 구축량2022년/120,365 -
데이터 구축 규모 )
o 타입별로 총120,365건의 건강정보 데이터와 4,000건의 메타데이터 구축데이터 구축 규모 ) 타입 종 수량 데이터 구성 A 반려견 85,484 기본 데이터, 신체계측 데이터, 사양관리 데이터, 사진데이터 반려묘 1,005 B 반려견 33,679 기본 데이터, 신체계측 데이터, 사양관리 데이터, 반려묘 197 의학정보 데이터, 활력징후 측정데이터, 사진데이터 C 반려견 4,000 기본데이터, 의학정보 데이터 ※ 데이터 구성 상세
데이터 구축 규모 )※ 데이터 구성 상세 구분 항목 설명 기본 데이터 Species 종별 구분 반려견/반려묘 Mission-id 일련번호 일련번호, 자동 부여 Provider-code 제공처 코드 데이터 제공 동물병원, 센터 등 코드 breed 품종 age 나이 1년 이상은 연수, 1년 이하는 12분의 개월 소수점 Sex 성별 수컷, 암컷, 중성화수컷, 중성화암컷 신체 계측 데이터 Weigth 체중 체중 Shoulder-Height 견갑부 높이 견갑부 높이 Neck-Size 목둘레 목둘레 Back-Length 등허리 길이 등허리 길이 Chest-Size 흉곽둘레 흉곽둘레 BCS 신체 충실 지수 신체 충실 지수 사양관리 데이터 exercise 운동강도 운동강도정의 environment 생활 환경 생활 환경 : in-door, out-door defecation 배변 상태 배변 상태 : 정상/이상 food-count 하루 식이 횟수 식이 횟수 : 하루 식사횟수 food-amount 1회 식사량 식이 식사량 : 1회 식사량 - 종이컵 기준 snack-amount 1회 간식량 식이 간식량 : 1회 식사량 대비 간식량 food-kind 식사 종류 식사 종류 사진 데이터 body-part 사진 사진 종류 의학정보 데이터 Disease 질병유무 질병유무 Disease-Code 질병코드 CRP C-반응성 단백질 바이오마커-스트레스로 인한 염증 발생 확인 IgG 면역글로블린 G 바이오마커-스트레스로 인한 면역력 감소 확인을 위한 면역 글로블린검사 IL-6 인터류킨-6 바이오마커-스트레스로 인한 염증 발생 확인 AFP 알파 태아 단백질 바이오마커-스트레스로 인한 간암 발생 유무 확인 활력 징후 측정 데이터 stress 스트레스 지수 스트레스 지수 데이터 구축 분포 )
o 종별 분포데이터 구축 분포 )o 종별 분포 구분 비율 반려견 99.04% 반려묘 0.96% o 성별 분포
데이터 구축 분포 )o 성별 분포 구분 비율 수컷 21.56% 암컷 62.73% 중성화수컷 8.88% 중성화암컷 6.83% o BCS 분포
데이터 구축 분포 )o BCS 분포 구분 비율 비고 1 0% 저체중 2 0.35% (Thin) 3 3.44% 4 18.85% 정상(Ideal) 5 61.35% 6 12.20% 과체중 7 3.22% (Heavy) 8 0.45% 9 0.15% o 품종 분포
데이터 구축 분포 )o 품종 분포 구분 비율 구분 비율 반려견 비글 1.31% 반려묘 기타 63.73% 비숑프리제 16.29% 코리안숏헤어 18.39% 불독 0.44% 페르시안 6.66% 치와와 단모 4.04% 러시안블루 0.50% 코커스패니엘 1.48% 스코티시폴드 8.07% 닥스훈트 장모 0.23% 샴 1.00% 닥스훈트 단모 0.78% 터키시앙고라 1.66% 도베르만 핀셔 0.15% 시추 1.55% 기타 2.12% 저먼셰퍼드 0.37% 골든리트리버 0.53% 그레이트피레니즈 0.06% 하운드 0.24% 허스키 0.38% 진도 0.91% 래브라도리트리버 1.09% 몰티즈 16.75% 믹스 장모 0.59% 믹스 단모 1.44% 말라뮤트 0.07% 포메라니안 23.48% 푸들 18.86% 슈나우저 0.30% 쉽독 3.13% 테리어 2.62% 웰시코기 0.79% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드ㅇ 국내 AI 기업 중 반려동물 데이터가 필요한 기업에게 다양한 반려동물 이미지와 헬스케어 관련 학습데이터로 제공
ㅇ 반려동물 관련 AI 학습 데이터 제공을 통해 AI 기업들의 인공지능 서비스 정확도 향상 기대
ㅇ 반려동물의 건강 관리를 위한 서비스나 반려동물 건강과 관련된 보조 정보, 반려동물 용품, 사료 등 연계 서비스 제공을 위한 분석 및 추천 서비스 개발 활용 가능
ㅇ 자체 개발 중인 인공지능 기반 반려동물 질병진단 서비스인 ‘팅커펫’에 부가 서비스 개발
ㅇ학습 모델은 기존의 관련 연구에서 가장 좋은 성능을 보인 EfficientNet를 기반으로 구성
ㅇ총 13가지 이미지를 입력받는 모델을 구성하여 평가인공지능 모델 구축 개요
- 모델 구성
○ 13가지 영상 사용Input-13 224x224x3 EfficientNet-13 7x7x1792 Global Average Pooling-13 1792 Concatenate 1792*13 Output 3 - 학습 데이터 구성
학습 데이터 개요
‧ 털이 과도하게 많은 경우 (실제 시각적 판단보다 직접 만져보아서 진단 가능한 경우), 체형에 관한 이미지가 부족한 경우를 제거하여 데이터셋 구성
- 학습 결과: NVidia A100 machine 대상으로 아래 파라메터로 학습
Size: (224, 224, 3)
Loss: Cross Entropy
Optimizer: Adam
Beta1, Beta2: 0.9, 0.999
Learning Rate: 0.0001
Early Stopping Patience: 4
Epoch: ~30 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 비만도 분류 성능 Image Classification ResNet, EfficientNet F1-Score(weighted) 0.7 점 0.77 점
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드원시 데이터 )
원천 데이터 )
데이터 구성 )
데이터 구성 ) 단계 수준1 수준2 수준3 수준4 수준5 데이터 타입 필수 여부 설명 유효값 유효값설명 수집/정제 metadata type string Y 데이터 타입별구분 A,B,C A: id+physical+breeding+image B:id+physical+breeding+image+medical+vital C:id+medical id object 기본정보 데이터 species string Y 종별 구분: 반려견/반려묘 10, 20 형식: 반려견(10), 반려묘(20) mission-id string Y 일련번호, 자동 부여 6자리 숫자 형식: 반려견10_OOOOOO, 반려묘20_OOOOOO provider-code string Y 데이터를 제공하는 동물병원, 센터 등의 코드 OOOO 형식: 4자리 숫자코드 group string Y 품종 그룹 SS,MS,LS,SL,ML,LL,UK SS: 5kg 미만 단모 MS: 5-10kg 단모 LS: 10kg 이상 단모 SL: 5kg 미만 장모 ML: 5-10kg 장모 LL: 10kg 이상 장모 UK: 알 수 없음(장, 단모구분이 어려운 개체, 반려묘등) breed string Y 품종 GRE, DAL, DAS, DOB, GOL, LAB, MAL, BUL, BEA, BIC, SHE, SCH, DRI, WEL, GER, JIN, CHL, CHS, COC, TER, POM, POO, HOU, HUS, MUT, MIL, MIS, ETC BEA,BIC,BUL,CHL,CHS,COC,DAL,DAS,DOB,DRI,ETC,GER,GOL,GRE,HOU,HUS,JIN,LAB,MAL,MIL,MIS,MUT,POM,POO,SCH,SHE,TER,WEL,ETC KOR,RUS,PER,SIA,TUR,SCO,MIX,ETC class string Y 반려견, 반려묘의 단/장모 구분 LH: 장모종, SH: 단모종, UK: 알수없음 age number Y 데이터 수집 당시 나이 0~40 1년 미만의 경우 개월수(/12)로 표시, 1살 이상부터는 정수 sex string Y 성별 (수컷, 암컷, 중성화수컷, 중성화암컷) IM, IF, CM, SF 형식: Male(IM) / Female(IF) / Castrated male(CM) / Spayed female(SF) physical object 신체계측 데이터 weight number Y 체중 숫자 kg shoulder-height number Y 견갑부 높이 숫자 cm neck-size number Y 목둘레 숫자 cm back-length number Y 등허리 길이 숫자 cm chest-size number Y 흉곽둘레 숫자 cm BCS number Y 신체 충실 지수 1~9 BCS 단계(1~9단계) breeding object 사양관리 데이터 exercise number Y 운동강도정의 1, 2, 3 저(1) - 1주일에 1시간 이하, 중(2)- 매일 30분 이하, 고(3) - 매일 1시간 이상 environment number Y 생활 환경: in-door, out-door 1, 2 1- in-door, 2- out-door defecation number Y 배변 상태: 정상/이상 1, 2 1-정상, 2-이상 food-count number Y 식이 횟수: 하루 식사횟수 1, 2, 3, 4 1-1회, 2-2회, 3-3회, 4-자유급식 food-amount number Y 식이 식사량: 1회 식사량 - 종이컵을 기준으로 표기 숫자 1회 식사량 - 종이컵을 기준으로 표기 (소수점 입력 가능) snack-amount number Y 식이 간식량: 1회 식사량 대비 간식량표기 숫자 간식량: 사료의 X %로 표기 food-kind number Y 식사 종류 1, 2, 3 1-반려동물 전용사료만, 2-전용사료 + 사람 음식 혼용, 3-사람음식 위주 image object 사진 데이터 body-part string Y 00~20 00-사진 없음, 01-전면, 02-후면, 03-좌측면중앙, 04-좌측면좌45도, 05-좌측면우45도, 06-좌측면상45도, 07-좌측면하45도, 08-우측면중앙, 09-우측면좌45도, 10-우측면우45도, 11-우측면상45도, 12-우측면하45도, 13-상측면, 14-두상전면중앙, 15-두상전면좌45도, 16-두상전면우45도, 17-두상전면상45도, 18-두상전면하45도, 19-두상상측면, 20-비문전면 medical object 의학정보 데이터 disease string Y 질병유무 ABN, NOR 질환(ABN), 정상(NOR) diseaseName string N 질병코드 DER, MUS, NEU, OCU, RES, CAR, HEM, GAS, URI, REP, END, INF, ETC 질병코드표참조 CRP number Y 바이오마커-스트레스로 인한 염증 발생 확인 (C-반응성 단백질) 0~500 200->500으로 변경 IgG number Y 바이오마커-스트레스로 인한 면역력 감소 확인을 위한 면역 글로블린검사 (면역글로블린 G) 0~2000 IL-6 number Y 바이오마커-스트레스로 인한 염증 발생 확인 (인터류킨-6) 0~200 AFP number Y 바이오마커-스트레스로 인한 간암 발생 유무 확인 (알파 태아 단백질) 0~50000 어노테이션 포맷 )
어노테이션 포맷 ) 단계 수준1 수준2 수준3 수준4 수준5 데이터 타입 필수 여부 설명 유효값 유효값설명 가공 annotations image-id string Y 이미지 파일명(ex.10_mission-id_품종_사진번호(body-part).png) label object Shape string Y 어노테이션 타입 Bounding Box (고정값) Part string Y 사진 위치 전면, 후면,좌측면중앙, 좌측면좌45도, 좌측면우45도, 좌측면상45도, 좌측면하45도, 우측면중앙, 우측면좌45도, 우측면우45도, 우측면상45도, 우측면하45도, 상측면, 두상전면중앙, 두상전면좌45도, 두상전면우45도, 두상전면상45도, 두상전면하45도, 두상상측면, 비문전면 00-사진 없음, 01-전면, 02-후면, 03-좌측면중앙, 04-좌측면좌45도, 05-좌측면우45도, 06-좌측면상45도, 07-좌측면하45도, 08-우측면중앙, 09-우측면좌45도, 10-우측면우45도, 11-우측면상45도, 12-우측면하45도, 13-상측면, 14-두상전면중앙, 15-두상전면좌45도, 16-두상전면우45도, 17-두상전면상45도, 18-두상전면하45도, 19-두상상측면, 20-비문전면 Label string Y 사진 구분 - 전신(01~13), 두상(14~19), 코(20) 전신, 두상, 코 전신(01~13), 두상(14~19), 코(20) Points array Y 좌표 최소값:2, 최대값:2 [] array Y 최소값:2, 최대값:2 $value$ number Y 좌표값 구축 데이터 파일명 )
■데이터타입(A,B,C)_종(10,20)_품종(BEA,BIC,BUL,CHL,CHS,COC,DAL,DAS,DOB,DRI,ETC,GER,GOL,GRE,HOU,HUS,JIN,LAB,MAL,MIL,MIS,MUT,POM,POO,SCH,SHE,TER,WEL,ETC,KOR,PER,RUS,SCO,SIA,TUR)_성별(IM,IF,CM,SF)_촬영날짜(YYYYMMDD)_일련번호(10_000000)_사진부위코드(00-20).json
■ 예시 : A_10_POO_IF_20221209_10_102247_07.json
실제 예시 )
{
"metadata": {
"type": "A",
"id": {
"species": "10",
"mission-id": "10_102247",
"provider-code": "0089",
"breed": "POO",
"age": 4,
"class": "SH",
"sex": "IF",
"group": "SS"
},
"physical": {
"weight": 3.8,
"shoulder-height": 27,
"neck-size": 22,
"back-length": 29,
"chest-size": 34,
"BCS": 6
},
"image": {
"body-part": "07"
},
"breeding": {
"exercise": 3,
"food-count": 4,
"environment": 1,
"defecation": 1,
"food-amount": 2,
"snack-amount": 0,
"food-kind": 1
}
},
"annotations": {
"image-id": "A_10_POO_IF_20221209_10_102247_07.jpg",
"label": {
"label": "전신",
"points": [
[
1022,
704
],
[
5241,
3584
]
],
"shape": "Bounding Box",
"part": "좌측면하45도"
}
}
} -
데이터셋 구축 담당자
수행기관(주관) : ㈜이노그리드
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 구원본 070-8730-2346 wbkoo@innogrid.com 인공지능 기반 학습용 데이터 적재를 위한 인프라 구축·통합 관리 및 모니터링, 수집된 데이터를 기반으로 인공지능 모델 개발 및 제공 수행 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜바이애틱 인공지능 학습용 데이터 및 반려동물의 건강 데이터 수집 담당 ㈜지케스 크라우드소싱 데이터 라벨링 저작도구 개발 및 인공지능 학습 데이터 정제·검수를 통한
기술개발 담당㈜비투엔 인공지능학습용 데이터 품질 관리(데이터 품질관리 지표 및 관리체계, 품질관리계획 등), 품질 검증(구문정확, 유효성) , TTA 오류 보고서에 대해 데이터 보완지원 담당 서울대학교 산학협력단 인공지능 기반 데이터 활용을 위한 데이터 수집 및 데이터의 검수 담당 충남대학교 산학협력단 인공지능 기반 데이터 활용을 위한 데이터 수집 및 데이터의 검수 담당 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 구원본 070-8730-2346 wbkoo@innogrid.com
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.
국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.