NEW 반려견 성장 및 질병관련 말뭉치 데이터
- 분야농축수산
- 유형 텍스트
- 생성 방식LLM
※ 반려견 성장 및 질병관련 말뭉치 데이터는 샘플데이터만 올라가 있으며, 추후 공개될 예정입니다.
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2025-06-30 데이터 최종 개방 샘플 우선 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2025-06-30 산출물 일부 공개 활용가이드라인 소개
- 반려견 생애주기에 따라 성장 및 질병 관리에 활용될 수 있는 말뭉치 데이터 - 반려견 보호자 질의(Q&A) 및 수의사 답변 데이터 구축
구축목적
- 반려견의 생애주기에 따른 성장 및 질병에 대한 보호자 질의에 답할 수 있는 AI모델 개발에 활용
-
메타데이터 구조표 데이터 영역 농축수산 데이터 유형 텍스트 데이터 형식 .txt 데이터 출처 직접 수집 라벨링 유형 질의응답(자연어) 라벨링 형식 .json 데이터 활용 서비스 챗봇 서비스 데이터 구축년도/
데이터 구축량2024년/기본정보 데이터 1,000,000 토큰, 질의응답 데이터 3,000,000 토큰 -
[데이터 구축 규모]
데이터 구축 규모 데이터 구분 구축규모 (토큰) 기본정보 데이터 1,066,794 질의응답 데이터 - 질의 1,735,201 질의응답 데이터 – 답변 1,975,328
[데이터 분포 – 기본정보 데이터]데이터 분포-기본정보 데이터 클래스 구분 구축 수량 구축 비율 내과 186 70% 피부과 34 13% 안과 3 1% 외과 40 15% 치과 2 1% 계 265 100%
[데이터 분포 – 질의응답 데이터]데이터 분포-질의응답 데이터 클래스 구분 구축 수량 구축 비율 내과 12,279 51% 피부과 3,149 13% 안과 1,196 5% 외과 6,403 27% 치과 979 4% 계 24,006 100% -
[기본정보 데이터]
AI모델-기본정보 데이터 AI모델 성능 지표 및 목표값 Data I/O Llama 8B Perplexity 감소율 10% 이상 Input data : 관련 서적, 논문을 통한 fine-tuning 데이터
[질의응답 데이터]AI모델-질의응답 데이터 AI모델 성능 지표 및 목표값 Data I/O Llama 8B 정확도 80% 이상
(BLUE 40 기준)Input data : EMR 차트, 쿠팡 로켓 펫닥터/비마이펫 질의
output data : 다빈도 질환에 대한 답변
① 기본정보/질의응답 관련 데이터 준비
② 초기 모델 학습 (SFT - Supervised Fine-Tuning)
- (모델 초기화) Llama 8B 모델 초기화 (가중치/파라미터 초기 상태 설정)
- (지도 학습) 텍스트 데이터를 사용하여 모델을 지도 학습 방식으로 학습
③ 인간 피드백 수집 및 선호 모델링
- (피드백 인터페이스 개발) 모델의 출력에 대해 인간 피드백을 받을 수 있는 웹 인터페이스 또는 애플리케이션 개발
- (피드백 수집) 모델이 생성한 답변을 사용자에게 제공하고, 사용자는 각 답변에 대해 선호도를 표시 Ex) "좋음", "보통", "나쁨"
④ DPO를 통한 모델 업데이트
- (선호 데이터 학습) 간 피드백 데이터를 사용하여 모델을 업데이트 ☞ 강화학습 단계를 생략하고, 사용자 선호 데이터 반영
- (모델 학습 루프) 새로운 피드백 데이터를 지속적으로 반영하여 모델을주기적으로 업데이트
⑤ 모델 배포 및 유지보수
- (모델 배포) 학습된 모델을 API 형태로 배포하여 다양한 애플리케이션에서 사용
- (피드백 수집 및 업데이트) 모델이 실시간으로 사용자 피드백을 받을 수 있도록 시스템을 구축하고, 주기적으로 모델을 업데이트하여 성능을 유지 -
설명서 및 활용가이드 다운로드
구축활용가이드 다운로드[데이터 구성]
데이터 구성 AI 모델 Task 어노테이션
방법주요 어노테이션
속성속성 설명 라벨링
데이터 포맷Generation Text Embedding QA 6종의 진료과별 유형 분류 json 72종의 질환별 유형 분류
[어노테이션 포맷 – 기본정보 데이터]어노테이션 포맷-기본정보 데이터 번호 속성명 속성설명 타입 형식/범위 1 title 도서명 String - 2 author 저자명 String - 3 publisher 출판사명 String - 4 department 진료과 String “내과”, “외과”, “치과”, “피부과”, “안과” 5 disease 말뭉치 String -
[어노테이션 포맷 – 질의응답 데이터]어노테이션 포맷-질의응답 데이터 번호 속성명 속성설명 타입 형식/범위 1 meta 메타정보 Object - 1-1 lifeCycle 생애주기 String “자견”, “성견”, “노령견” 1-2 department 진료과명 String “내과”, “외과”, “치과”, “피부과”, “안과” 1-3 disease 세부질환명 String - 2 qa 질의응답 Object - 2-1 instruction 지시문 String - 2-2 input 질의 String - 2-3 output 답변 String -
[데이터 포맷]데이터 포맷 세부 데이터명 원시데이터* 포맷 원천데이터* 포맷 라벨링 데이터 포맷 기본정보 데이터 JSON JSON JSON 질의응답 데이터 JSON JSON JSON
[실제예시 - 기본정보 데이터]
[실제예시 – 질의응답 데이터] -
데이터셋 구축 담당자
수행기관(주관) : 브랜드콘텐츠
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 최훈녕 070-4112-6292 operating@techncare.co.kr 총괄책임 수행기관(참여)
수행기관(참여) 기관명 담당업무 대한수의사회 데이터 수집, 검수 벳앤라이프 데이터 수집 아몬드 데이터 정제 한알음정보 데이터 가공 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 최훈녕 070-4112-6292 operating@techncare.co.kr 최창규 02-6442-1581 operating1@techncare.co.kr AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 최훈녕 070-4112-6292 operating@techncare.co.kr 최창규 02-6442-1581 operating1@techncare.co.kr 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 최훈녕 070-4112-6292 operating@techncare.co.kr 최창규 02-6442-1581 operating1@techncare.co.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.
국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.