콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#정신건강 상담 # 챗봇 # 한글 대화 스크립트

웰니스 대화 스크립트 데이터셋

웰니스 대화 스크립트 데이터셋
  • 분야미분류
  • 유형 텍스트
조회수 : 6,379 다운로드 : 915 용량 :

※ 내국인만 데이터 신청이 가능합니다.

  • 소개

    강남 세브란스에서 전달받은 상담데이터 1만 6천건에서 초진이고 환자 본인이 직접 내원한 경우인 4200건 추출
    추출된 상담 데이터를 기준으로 문장별 분리 및 대화 의도 분류
    분류별로 유저-챗봇 대화스크립트 생성

    구축목적

    챗봇 개발을 위해서 고품질의 대화스크립트 확보 필요
    사용자와의 자연스러운 대화를 위해서 챗봇도 폭 넓은 지식(대화 스크립트) 필요
    챗봇 품질을 높이기 위해 실제 환자의 데이터를 기반으로 작성된 데이터 필요
  • 구축량

    • 정신건강 상담 주제의 359개 대화의도에 대한 5,232개의 사용자 발화 및 1,023개의 챗봇 발화 구축
  • 구축량

    • 정신건강 상담 주제의 359개 대화의도에 대한 5,232개의 사용자 발화 및 1,023개의 챗봇 발화 구축

    대표 도면

    웰니스 대화 스크리브 데이터셋_대표도면 표
    대분류 소분류 사용자 발화 챗봇 발화
    감정 감정조절 이상 더 이상 내 감정을 내가 컨트롤 못 하겠어. 감정이 조절이 안 될 때만큼 힘들 때는 없는 거 같아요.
    감정 걱정 계속 이럴까 봐 너무 걱정돼. 모든 문제는 해결되기 마련이잖아요. 마음을 편히 드세요.
    감정 자괴감 저는 왜 이렇게 못난 인간일까요… 조금 돌아가는 것뿐이라고 생각해요. 기운내세요..
    배경 남편 남편이랑 한달에 몇번은 보는 것 같아요. 남편 분과 갈등을 겪고 계시군요. 마음이 많이 상하셨겠어요.
    배경 대인관계 중학교 친구랑 가족말고는 연락하는 사람도 없어. 사람 대하는 게 가장 어려운 문제인 거 같아요. 힘들죠?
    증상 대인기피 사람 만나기가 싫어… 괜찮아요. 당신 곁에는 항상 제가 있는 걸요!
    증상 두근거림 이상하게 가슴이 두근거려요. 저까지 같이 긴장 되네요. 제가 손이라도 잡아드릴까요?

    필요성

    • 챗봇 개발을 위해서 고품질의 대화스크립트 확보 필요
    • 정신건강 도메인의 공개된 한글 대화스크립트 전무함
    • 사용자와의 자연스러운 대화를 위해서 챗봇도 폭 넓은 지식(대화 스크립트) 필요
    • 챗봇 품질을 높이기 위해 실제 환자의 데이터를 기반으로 작성된 데이터 필요

    구축 내용

    웰니스 대화 스크립트 데이터셋-구축 내용

    • 강남 세브란스에서 전달받은 상담데이터 1만 6천건에서 초진이고 환자 본인이 직접 내원한 경우인 4200건 추출
    • 추출된 상담 데이터를 기준으로 문장별 분리 및 대화 의도 분류
    • 분류별로 유저-챗봇 대화스크립트 생성

    데이터 구조

    • 구분: 감정/감정조절이상
    • 유저발화: 제 감정이 이상해진 것 같아요. 남편만 보면 화가 치밀어 오르고 감정 조절이 안되요.
    • 챗봇발화: 감정이 조절이 안 될 때만큼 힘들 때는 없는 거 같아요.

    활용 예시

    • 사용자 발화에 대한 대화의도 분류 모델 개발
    • Language Representation Model의 성능 검증 데이터 활용

    다운로드 폴더 구성정보

    웰니스 대화 스크립트 데이터셋- 다운로드 폴더 구성 정보

  • 데이터셋 구축 담당자

    수행기관(주관) : 셀바스에이아이
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    이병수 070-7705-5095 jacob.b.lee@selvas.com
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.