콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#헬스케어 의료

NEW 반려견 성장 및 질병관련 말뭉치 데이터

반려견 성장 및 질병 관련 말뭉치 데이터 아이콘 이미지
  • 분야농축수산
  • 유형 텍스트
  • 생성 방식LLM
구축년도 : 2024 갱신년월 : 2025-06 조회수 : 777 다운로드 : 0
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 반려견 성장 및 질병관련 말뭉치 데이터는 샘플데이터만 올라가 있으며, 추후 공개될 예정입니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2025-06-30 데이터 최종 개방 샘플 우선 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2025-06-30 산출물 일부 공개 활용가이드라인

    소개

    - 반려견 생애주기에 따라 성장 및 질병 관리에 활용될 수 있는 말뭉치 데이터
    - 반려견 보호자 질의(Q&A) 및 수의사 답변 데이터 구축

    구축목적

    - 반려견의 생애주기에 따른 성장 및 질병에 대한 보호자 질의에 답할 수 있는 AI모델 개발에 활용
  • [데이터 구축 규모]

    데이터 구축 규모
    데이터 구분 구축규모 (토큰)
    기본정보 데이터 1,066,794
    질의응답 데이터 - 질의 1,735,201
    질의응답 데이터 – 답변 1,975,328


    [데이터 분포 – 기본정보 데이터]

    데이터 분포-기본정보 데이터
    클래스 구분 구축 수량 구축 비율
    내과 186 70%
    피부과 34 13%
    안과 3 1%
    외과 40 15%
    치과 2 1%
    265 100%


    [데이터 분포 – 질의응답 데이터]

    데이터 분포-질의응답 데이터
    클래스 구분 구축 수량 구축 비율
    내과 12,279 51%
    피부과 3,149 13%
    안과 1,196 5%
    외과 6,403 27%
    치과 979 4%
    24,006 100%
  • [기본정보 데이터]

    AI모델-기본정보 데이터
    AI모델 성능 지표 및 목표값 Data I/O
    Llama 8B Perplexity 감소율 10% 이상 Input data : 관련 서적, 논문을 통한 fine-tuning 데이터


    [질의응답 데이터]

    AI모델-질의응답 데이터
    AI모델 성능 지표 및 목표값 Data I/O
    Llama 8B 정확도 80% 이상
    (BLUE 40 기준)
    Input data : EMR 차트, 쿠팡 로켓 펫닥터/비마이펫 질의
    output data : 다빈도 질환에 대한 답변


    ① 기본정보/질의응답 관련 데이터 준비
    ② 초기 모델 학습 (SFT - Supervised Fine-Tuning)
      - (모델 초기화) Llama 8B 모델 초기화 (가중치/파라미터 초기 상태 설정)
      - (지도 학습) 텍스트 데이터를 사용하여 모델을 지도 학습 방식으로 학습
    ③ 인간 피드백 수집 및 선호 모델링
      - (피드백 인터페이스 개발) 모델의 출력에 대해 인간 피드백을 받을 수 있는 웹 인터페이스 또는 애플리케이션 개발
      - (피드백 수집) 모델이 생성한 답변을 사용자에게 제공하고, 사용자는 각 답변에 대해 선호도를 표시 Ex) "좋음", "보통", "나쁨"
    ④ DPO를 통한 모델 업데이트
      - (선호 데이터 학습) 간 피드백 데이터를 사용하여 모델을 업데이트 ☞ 강화학습 단계를 생략하고, 사용자 선호 데이터 반영
      - (모델 학습 루프) 새로운 피드백 데이터를 지속적으로 반영하여 모델을주기적으로 업데이트
    ⑤ 모델 배포 및 유지보수
      - (모델 배포) 학습된 모델을 API 형태로 배포하여 다양한 애플리케이션에서 사용
      - (피드백 수집 및 업데이트) 모델이 실시간으로 사용자 피드백을 받을 수 있도록 시스템을 구축하고, 주기적으로 모델을 업데이트하여 성능을 유지

  • 설명서 및 활용가이드 다운로드

    구축활용가이드 다운로드

    [데이터 구성]

    데이터 구성
    AI 모델 Task 어노테이션
    방법
    주요 어노테이션
    속성
    속성 설명 라벨링
    데이터 포맷
    Generation Text Embedding QA 6종의 진료과별 유형 분류 json
    72종의 질환별 유형 분류


    [어노테이션 포맷 – 기본정보 데이터]

    어노테이션 포맷-기본정보 데이터
    번호 속성명 속성설명 타입 형식/범위
    1 title 도서명 String -
    2 author 저자명 String -
    3 publisher 출판사명 String -
    4 department 진료과 String “내과”, “외과”, “치과”, “피부과”, “안과”
    5 disease 말뭉치 String -


    [어노테이션 포맷 – 질의응답 데이터]

    어노테이션 포맷-질의응답 데이터
    번호 속성명 속성설명 타입 형식/범위
    1 meta 메타정보 Object -
      1-1 lifeCycle 생애주기 String “자견”, “성견”, “노령견”
    1-2 department 진료과명 String “내과”, “외과”, “치과”, “피부과”, “안과”
    1-3 disease 세부질환명 String -
    2 qa 질의응답 Object -
      2-1 instruction 지시문 String -
    2-2 input 질의 String -
    2-3 output 답변 String -


    [데이터 포맷]

    데이터 포맷
    세부 데이터명 원시데이터* 포맷 원천데이터* 포맷 라벨링 데이터 포맷
    기본정보 데이터 JSON JSON JSON
    질의응답 데이터 JSON JSON JSON


    [실제예시 - 기본정보 데이터]
    실제예시_기본정보데이터

    [실제예시 – 질의응답 데이터]

    실제예시_질의응답데이터

  • 데이터셋 구축 담당자

    수행기관(주관) : 브랜드콘텐츠
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    최훈녕 070-4112-6292 operating@techncare.co.kr 총괄책임
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    대한수의사회 데이터 수집, 검수
    벳앤라이프 데이터 수집
    아몬드 데이터 정제
    한알음정보 데이터 가공
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    최훈녕 070-4112-6292 operating@techncare.co.kr
    최창규 02-6442-1581 operating1@techncare.co.kr
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    최훈녕 070-4112-6292 operating@techncare.co.kr
    최창규 02-6442-1581 operating1@techncare.co.kr
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    최훈녕 070-4112-6292 operating@techncare.co.kr
    최창규 02-6442-1581 operating1@techncare.co.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

오프라인 데이터 이용 안내

본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.

K-ICT 빅데이터센터는 데이터 안심구역으로 지정되어
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.

데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 이용신청 탭 이미지

국방데이터 개방 안내

본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.