콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#음성

NEW 페르소나 대화

페르소나 대화 아이콘 이미지
  • 분야한국어
  • 유형 텍스트
구축년도 : 2022 갱신년월 : 2023-11 조회수 : 5,715 다운로드 : 303 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2023-11-24 데이터 최종 개방
    1.0 2023-07-31 데이터 개방(Beta Version)

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-04-15 산출물 전체 공개
    2023-09-14 담당자 정보 변경

    소개

    - 실제 인간과 같이 자연스럽고, 본인의 일관된 페르소나에 기반하여 발화하는 연속 대화 인터페이스를 위한 인공지능 학습용 대화 데이터
    - 한 사람의 성별, 연령, 직업, 성격, 취향 등을 표현하는 짧은 문장 5개로 구성된 페르소나를 구축한 후 임의의 페르소나를 각 화자(생성자)에게 부여해 ‘이 사람인 것처럼 자연스럽게 대화’하는 방식으로 생성한 대화 데이터

    구축목적

    - 단순 질의응답 위주였던 일상대화 DB 확대를 통한 인공지능 학습 발전 도모
    - 챗봇이 자신의 정체성을 시시각각 다르게 표현하는 문제 해결
    - 근본적인 일상대화 요구 충족을 통한 지능형 대화 인터페이스 접근성 점진 확대
  • 가. 대화 주제
    - 총 20개의 주제로 구성
    - 주제별 최솟값(아티스트/공연) 1,111 / 최댓값(연애/결혼) 2,461 / 비율 범위 3.48 ~ 7.70

    주제 수량 (세션) 비율
    1 일/직장 2,301 7.20%
    2 경제/금융/산업 1,318 4.12%
    3 미용/외모 1,420 4.44%
    4 건강/의학 1,756 5.49%
    5 학교/학업 1,465 4.58%
    6 시사/사회/인문 1,200 3.75%
    7 과학/기술/IT 1,104 3.45%
    8 미디어/콘텐츠 1,291 4.04%
    9 아티스트/공연 1,111 3.48%
    10 예술/문학 1,132 3.54%
    11 스포츠 1,472 4.60%
    12 여행/레저 1,639 5.13%
    13 여가/오락 2,337 7.31%
    14 쇼핑/상품 1,787 5.59%
    15 주거/생활 1,842 5.76%
    16 반려동물 1,388 4.34%
    17 자연/환경 1,219 3.81%
    18 식음료 1,861 5.82%
    19 가족 1,862 5.82%
    20 연애/결혼 2,461 7.70%
    합계 31,966 100%

     

    나. 페르소나 프로필 정보
    - 페르소나는 한 사람의 개인적 특성을 표현하는 5개의 프로필로 구성됨
    - 페르소나 프로필은  ‘성별’, ‘연령대’, ‘직업’ 등 ‘객관적 정보’ ‘취향’, ‘취미/관심사’, ‘성격/- 가치관’, ‘환경’, ‘현황’ 등 ‘주관적 정보로 구성

      대분류 소분류 수량 비율
    객관적 정보 성별 428 49.42%
    438 50.58%
    소계 866 100.00%
    연령대 10대 이하 140 15.82%
    20대 132 14.92%
    30대 139 15.71%
    40대 140 15.82%
    50대 140 15.82%
    60대 이상 194 21.92%
    소계 885 100.00%
    직업군 가정주부 150 17.05%
    관리자 13 1.48%
    군인 20 2.27%
    기능원 및 관련 기능 종사자 23 2.61%
    농림/어업 숙련 종사자 11 1.25%
    단순노무 종사자 32 3.64%
    사무 종사자 100 11.36%
    서비스 종사자 33 3.75%
    자영업자 170 19.32%
    장치/기계 조작 및 조립 종사자 50 5.68%
    전문가 및 관련 종사자 111 12.61%
    판매 종사자 36 4.09%
    학생 131 14.89%
    소계 880 100.00%
    주관적 정보 성격/가치관 - 833 12.20%
    취미/관심사 - 853 12.49%
    취향 - 857 12.55%
    현황 - 819 11.99%
    환경 - 837 12.25%
    합계 6,830 100%

     

    . 페르소나 프로필의 대화 반영

    • 대화세션에는 대화에 참여한 각각의 페르소나 프로필이 3개 이상 반영됨
    • 프로필은 대화에 한 번 이상 사용됨

     

    . 대화세션당 발화

    - 대화세션은 2명의 페르소나가 번갈아가며 대화하는 형식으로 구성됨
    - 평균 18 / 최솟값 16 / 최댓값 20

    세션 내 발화 수 수량 (세션) 비율
    16 10,375 32.46%
    17 3,013 9.43%
    18 5,393 16.87%
    19 1,882 5.89%
    20 11,303 35.36%
    합계 31,966 100%

     

    마. 화자당 발화
    ㅇ 첫 번째 화자
    - 대화에 등장하는 2명의 페르소나 중 첫 번째 발화를 시작하는 페르소나의 세션 내 발화 수
    - 평균 9.09 / 최솟값 8 / 최댓값 10

    세션 내 발화 수 수량 (세션) 비율
    8 10,375 32.46%
    9 8,406 26.30%
    10 13,185 41.25%
    합계 31,966 100%

     

    ㅇ 두 번째 화자
    - 대화에 등장하는 2명의 페르소나 중 두 번째 발화를 시작하는 페르소나의 세션 내 발화 수
    - 평균 8.93 / 최솟값 8 / 최댓값 10

    세션 내 발화 수 수량 (세션) 비율
    8 13,388 41.88%
    9 7,275 22.76%
    10 11,303 35.36%
    합계 31,966 100%

     

    바. 발화 내 문장
    - 평균 2.23 / 최솟값 1 / 최댓값 4 / 표준편차 0.65

    발화 내 문장 수 수량 (문장) 비율
    1 67,829 11.77%
    2 303,986 52.76%
    3 204,232 35.45%
    4 66 0.01%
    합계 576,113 100%

     

    사. 발화 내 어절
    - 평균 14.65 / 최솟값 3 / 최댓값 32 / 표준편차 5.91

    발화 내 어절 수 수량 (발화) 비율
    3 6,143 1.07%
    4 13,812 2.40%
    5 17,391 3.02%
    6 19,624 3.41%
    7 22,284 3.87%
    8 24,975 4.34%
    9 27,385 4.75%
    10 27,986 4.86%
    11 29,611 5.14%
    12 30,441 5.28%
    13 31,352 5.44%
    14 32,004 5.56%
    15 31,811 5.52%
    16 31,724 5.51%
    17 31,063 5.39%
    18 29,960 5.20%
    19 28,740 4.99%
    20 26,836 4.66%
    21 24,984 4.34%
    22 22,955 3.98%
    23 20,886 3.63%
    24 20,317 3.53%
    25 19,413 3.37%
    26 3,148 0.55%
    27 858 0.15%
    28 293 0.05%
    29 78 0.01%
    30 32 0.01%
    31 6 0.00%
    32 1 0.00%
    합계 576,113 100%
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    가. 모델 설명
    - 페르소나 대화 모델은 주어진 페르소나 조건을 바탕으로 두 명의 화자가 대화하는 형태의 데이터셋을 학습한 대화 모델로써, 설정하고 싶은 페르소나를 입력해주면 해당 페르소나를 가진채 대화를 할 수 있다는 특징이 있는 모델이다.

    페르소나1 페르소나2
    나는 여자다.
    나는 10대 후반이다.
    나는 고등학생이다.
    나는 떡꼬치를 좋아한다.
    나는 얼마 전에 학생회장에 당선됐다.
    나는 60대 중반이다.
    나는 미술학원 원장이다.
    나는 바다 생물에 관심이 많다.
    나는 최근에 신축 아파트로 이사를 했다.
    나는 아들이 한 명 있다.
    [페르소나 1]: 주말에 오빠가 대학 캠퍼스 구경을 시켜줘서 신촌 구경하고 왔어요.
    [페르소나 2]: 오빠가 자상하시네요. 저도 신촌에서 학교에 다녔는데 지금은 전공 살려 작은 미술 아카데미 운영하고 있어요.
    [페르소나 1]: 아, 그러시군요. 저는 이제 고2 학생인데 졸업하면 미대에 진학하고 싶어요.
    [페르소나 2]: 관심 있으시면 교육받으면서 포트폴리오를 준비해 보세요. 제 아들은 흥미 보이더니 적성 아니라고 금방 포기하더군요. 늦둥이 외동아들이라 귀여움만 받아 그런지 끈덕진 면이 영 부족하네요.
    [페르소나 1]: 그래도 재능 물려받아서 나중에 다시 진로 고민할 수도요. 저는 앉아서 오래 공부하는 일에는 익숙지 않고 미술, 특히 디자인 쪽으로 공부하고 싶어요.
    [페르소나 2]: 학생들이 디자인을 대체로 좋아하는데 점수대가 상당히 높아서 이론 공부도 좀 해 놔야 할 거예요.
    [페르소나 1]: 그렇군요. 제가 지금 18살인데 산업 디자인 전공해서 2, 30년 뒤에 멋진 차 설계하는 디자이너가 되고 싶어요.
    [페르소나 2]: 그러면 자동차 박람회 같은 데 가서 구경하면 좋겠네요. 안목을 미리 키우는 게 중요하거든요. 저는 64살인데 정보 얻으려고 청계천 헌책방들 다니면서 외국 잡지 많이 뒤적거린 기억이 나네요.
    [페르소나 1]: 아직은 학생이라 어려울 수 있지만 서울 한번 올라오면 그런 전시회장도 즐기면 참 좋겠네요.

     

    나. 모델 학습
    - 페르소나 대화 모델은 Training / Validation / Test 데이터를 80% / 10% / 10% 비율로 학습했다. 대화 모델에서 많이 사용되는 방식인 랭킹 방식과 생성 방식 두 가지 모델로 구성되어 있으며 위 표와 같은 성능을 보임

     

     
    모델명 지표 목표치 결과값
    KoGPT2 Hits@1 0.15 이상 0.2226
    (생성 방식)
    KLUE/RoBERTa Hits@1 0.7 이상 0.847
    (랭킹 방식)

     

    다. 서비스 활용 시나리오
    - 구축한 모델로 챗봇 프로토타입을 만들어볼 수 있으며 대화 코퍼스 구축에 활용할 수 있음
    - 챗봇 프로토타입
    - 챗봇 개발을 준비하는 회사/개인이라면 인공지능에 대한 선행지식 없더라도 해당 모델을 활용하여 프로토타입을 만들어볼 수 있으며 해당 모델의 성능을 베이스라인으로 설정하여 실험할 수 있음
    - 대화 코퍼스 구축 활용
    - 학습된 모델을 활용하여 원하는 페르소나를 바꿔가며 설정해서 대화를 생성함으로써 대화 코퍼스 자동 구축에 활용 가능
    - 다른 방식으로 개발된 대화 모델과 대화를 시키는 방식으로도 대화 코퍼스 자동 구축에 활용 가능

     

     

     

     

     

     

  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 페르소나 대화(차기 발화 예측) 성능 Text Generation KoGPT2 HR@1 15 % 22.3 %
    2 페르소나 대화 분류 성능 Text Classification Klue RoBERTa (base) HR@1 70 % 84.7 %

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    가. 원천 데이터 포맷

    항목 타입 설명 비고
    id string 데이터셋 ID  
    utterance_id integer 발화 ID  
    text string 발화  
    bp_persona_info_id integer 해당 발화의 화자(페르소나) ID  
    bp_persona_profile_id integer 해당 발화에 반영된 프로필 ID 검수 과정에서 수정될 수 있는 정보로, 정확성을 담보하지 못함
    terminate integer 마지막 종료 발화인지 여부 발화 종료: 1
    발화 지속: 0
    regDate timestamp 생성 시간  
    updDate timestamp 마지막 수정 시간  

     

    . 원천 데이터 예시

    d    utterance_id    text    bp_persona_info_id    bp_persona_profile_id    terminate    regDate    updDate
    BP22000905    1    요즘 매일 헬스장에 출근 도장을 찍고 있어요. 헬스가 이렇게 재미있는지 몰랐어요.    2    8    0    2022-07-12 15:25:33    2022-07-12 15:51:50
    BP22000905    2    저도 헬스 다녀요! 집 근처에 여성 전용 헬스장이 생겨서 얼마전부터 다니고 있어요.    135    671    0    2022-07-12 15:25:33    2022-07-12 15:51:50
    BP22000905    3    22년 살면서 처음 헬스 해보는건데 저한테 딱 맞는 것 같아요. 그래서 요즘 관련 물품을 엄청 사고 있어요. 옷 뿐만 아니라 양말, 신발 등이요.    2    6    0    2022-07-12 15:25:33    2022-07-12 15:51:50
    BP22000905    4    저는 시작한지 얼마 안돼서 아직은 아무것도 안 샀어요. 필요한게 많은가요?    135        0    2022-07-12 15:25:33    2022-07-12 15:51:50
    BP22000905    5    저는 그런 것 같아요. 무게 드는 운동을 위해서는 바닥 접지력이 좋은 신발이 좋거든요. 발목을 잡아주기 위해서는 목이 긴 양말이 좋죠.    2        0    2022-07-12 15:25:33    2022-07-12 15:51:50
    BP22000905    6    저는 답답해서 발목까지 오는 양말을 선호는데. 헬스할때는 목이 긴 양말이 더 좋은거군요. 또 필요한게 있을까요?    135    674    0    2022-07-12 15:25:33    2022-07-12 15:51:50
    BP22000905    7    저는 헬스장에서 쓰는 물품뿐 아니라 집에서도 간단하게 운동하려고 운동 소품도 샀어요. 같이 사는 부모님과 남동생이 택배 좀 그만 시키라고 하는데, 저는 아직 부족하다고 느껴요.    2    10    0    2022-07-12 15:25:33    2022-07-12 16:22:07
    BP22000905    8    장비 욕심이 있으시군요. 하긴 저도 베이킹이 취미인데 집에 베이킹 관련 물품이 정말 많아요.    135    675    0    2022-07-12 15:25:33    2022-07-12 15:51:50
    BP22000905    9    와, 베이킹 하세요? 저는 밀가루로 만든 음식은 사족을 못 쓰는 편인데, 요즘 특히 마들렌에 빠져 있어요.    2    7    0    2022-07-12 15:25:33    2022-07-12 16:22:07
    BP22000905    10    요즘 마들렌, 휘낭시에 등 구움과자가 유행이죠. 저도 지인들에게 선물 많이 해요. 최근엔 대량 생산을 위해서 틀을 더 구매했어요.    135        0    2022-07-12 15:25:33    2022-07-12 15:51:50
    BP22000905    11    우와, 저도 지인이 되고 싶네요. 만들기 어렵지 않나요?    2        0    2022-07-12 15:25:33    2022-07-12 15:51:50
    BP22000905    12    레시피를 지키면 만들기 어렵지 않은 것 같아요. 그리고 헬스도 장비가 중요하듯 베이킹도 장비, 좋은 재료가 중요한 것 같아요.    135        0    2022-07-12 15:25:33    2022-07-12 15:51:50
    BP22000905    13    베이킹은 만드는 것에 따라 틀이 다 다르죠? 다양한 도구가 필요하지 않나요?    2        0    2022-07-12 15:25:33    2022-07-12 15:51:50
    BP22000905    14    그런 편인것 같아요. 그래서 저도 유행하는 디저트가 있을 때 마다 새로운 도구를 사게 돼요.    135        0    2022-07-12 15:25:33    2022-07-12 15:51:50
    BP22000905    15    역시 무언가에 빠지면 파생 소비가 생길 수 밖에 없네요.    2        0    2022-07-12 15:25:33    2022-07-12 15:51:50
    BP22000905    16    맞는 말이에요. 소비는 지금 30대에 다 하고 40대는 미니멀하게 살고 싶은데 가능할 지 모르겠어요.    135    672    0    2022-07-12 15:25:33    2022-07-12 15:51:50
    BP22000905    17    하하, 어려울 것 같은데요. 새로운 취미는 새로운 소비를 낳는 법이죠. 그보다 저는 이제 헬스장에 가야겠어요.    2        1    2022-07-12 15:25:33    2022-07-12 16:22:07
    BP22000905    18    네, 오늘 대화 즐거웠습니다. 운동 열심히 하세요!    135        0    2022-07-12 15:25:33    2022-07-12 16:22:07

     

    다. 라벨링 데이터 구성

    속성명 타입 설명 비고
    info object 문서 메타정보  
      category string 데이터셋 카테고리 "페르소나 대화"
    evaluation object 대화 품질  
      avg_rating float 대화 평가 평균 점수 [0.0~5.0]
    grade string 대화 평가 등급 [우수,보통,미흡]
    id string 데이터셋 ID "BP22000048"
    name string 데이터셋 이름 "2022 한국어 블렌더봇 데이터 BP22000048"
    personas array 페르소나 관련 정보  
      {} object    
      evaluation object 페르소나 품질  
      avg_rating float 페르소나 평가 평균 점수 [0.0~5.0]
    grade string 페르소나 평가 등급 [우수,보통,미흡]
    votes array 페르소나 평가 투표 정보  
      {} object    
      rating float 각 투표자의 페르소나 평가 점수 [0.0~5.0]
    voter_id string 페르소나 평가자 ID “e001”
    persona array 페르소나 프로필 정보  
      {} object    
      profile string 페르소나 표현 문구(프로필) "나는 30대 초반이다."
    profile_id integer 페르소나 프로필 ID [1-6870]
    profile_major string 페르소나 프로필 속성 대분류 [8종]
    profile_minor string 페르소나 프로필 속성 소분류 [21종] null 허용
    persona_id integer 화자(페르소나) ID  
    topic string 대화 주제 [20종]
    votes array 대화 평가 정보  
      {} object    
      rating float 각 평가자의 평가 정보 [0.0~5.0]
    voter_id string 평가자 ID "bp_voter1"
    utterances array 발화 정보  
      {} object    
      persona_id integer 화자(페르소나) ID [1-1374]
    terminate boolean 대화 종료 식별자 [true, false]
    text string 발화 내용 "제가 32살이니 아내분 또래네요. 가볍게 들 만한 가방은 어떤가요?"
    utterance_id string 발화 ID "BP22000048.1"

     

    라. 라벨링 데이터 예시

     


       "info":{
     "category":"페르소나 대화",
          "evaluation":{
             "avg_rating":5.0,
             "grade":"우수"
          },
          "id":"BP22000905",
          "name":"2022 한국어 블렌더봇 데이터 BP22000905",
          "personas":[
             {
                "evaluation":{
                   "avg_rating":4.2,
                   "grade":"우수",
                   "votes":[
                      {
                         "rating":4.0,
                         "voter_id":"e003"
                      },
                      {
                         "rating":4.0,
                         "voter_id":"e006"
                      },
                      {
                         "rating":4.0,
                         "voter_id":"e009"
                      },
                      {
                         "rating":5.0,
                         "voter_id":"e010"
                      },
                      {
                         "rating":4.0,
                         "voter_id":"e011"
                      }
                   ]
                },
                "persona":[
                   {
                      "profile":"나는 20대 초반이다.",
                      "profile_id":6,
                      "profile_major":"연령대",
                      "profile_minor":"20대"
                   },
                   {
                      "profile":"나는 밀가루 음식을 좋아한다.",
                      "profile_id":7,
                      "profile_major":"취향",
                      "profile_minor":null
                   },
                   {
                      "profile":"나는 요즘 운동에 빠져 있다.",
                      "profile_id":8,
                      "profile_major":"취미/관심사",
                      "profile_minor":null
                   },
                   {
                      "profile":"나는 소심한 성격이다.",
                      "profile_id":9,
                      "profile_major":"성격/가치관",
                      "profile_minor":null
                   },
                   {
                      "profile":"나는 부모님과 남동생과 함께 살고 있다.",
                      "profile_id":10,
                      "profile_major":"환경",
                      "profile_minor":null
                   }
                ],
                "persona_id":2
             },
             {
                "evaluation":{
                   "avg_rating":4.8,
                   "grade":"우수",
                   "votes":[
                      {
                         "rating":5.0,
                         "voter_id":"e002"
                      },
                      {
                         "rating":5.0,
                         "voter_id":"e004"
                      },
                      {
      "rating":5.0,
                         "voter_id":"e006"
                      },
                      {
                         "rating":5.0,
                         "voter_id":"e008"
                      },
                      {
                         "rating":4.0,
                         "voter_id":"e010"
                      }
                   ]
                },
                "persona":[
                   {
                      "profile":"나는 여자다.",
                      "profile_id":671,
                      "profile_major":"성별",
                      "profile_minor":"여"
                   },
                   {
                      "profile":"나는 30대다.",
                      "profile_id":672,
                      "profile_major":"연령대",
                      "profile_minor":"30대"
                   },
                   {
                      "profile":"나는 동물원 사육사다.",
                      "profile_id":673,
                      "profile_major":"직업군",
                      "profile_minor":"농림/어업 숙련 종사자"
                   },
                   {
                      "profile":"나는 발목 양말을 좋아한다.",
                      "profile_id":674,
                      "profile_major":"취향",
                      "profile_minor":null
                   },
                   {
                      "profile":"나는 빵 굽는 걸 좋아한다.",
                      "profile_id":675,
                      "profile_major":"취미/관심사",
                      "profile_minor":null
                   }
                ],
                "persona_id":135
             }
          ],
          "topic":"쇼핑/상품",
          "votes":[
             {
                "rating":5.0,
                "voter_id":"bp_voter2"
             },
             {
                "rating":5.0,
                "voter_id":"bp_voter4"
             },
             {
                "rating":5.0,
                "voter_id":"bp_voter5"
             },
             {
                "rating":5.0,
                "voter_id":"bp_voter3"
             },
             {
                "rating":5.0,
                "voter_id":"bp_voter1"
             }
          ]
       },
       "utterances":[
          {
             "persona_id":2,
             "terminate":false,
             "text":"요즘 매일 헬스장에 출근 도장을 찍고 있어요. 헬스가 이렇게 재미있는지 몰랐어요.",
             "utterance_id":"BP22000905.1"
          },
          {
             "persona_id":135,
             "terminate":false,
    "text":"저도 헬스 다녀요! 집 근처에 여성 전용 헬스장이 생겨서 얼마 전부터 다니고 있어요.",
             "utterance_id":"BP22000905.2"
          },
          {
             "persona_id":2,
             "terminate":false,
             "text":"22년 살면서 처음 헬스를 해보는 건데 저한테 딱 맞는 것 같아요. 그래서 요즘 관련 물품을 엄청 사고 있어요. 옷뿐만 아니라 양말, 신발 등이요.",
             "utterance_id":"BP22000905.3"
          },
          {
             "persona_id":135,
             "terminate":false,
             "text":"저는 시작한 지 얼마 안 돼서 아직은 아무것도 안 샀어요. 필요한 게 많은가요?",
             "utterance_id":"BP22000905.4"
          },
          {
             "persona_id":2,
             "terminate":false,
             "text":"저는 그런 것 같아요. 무게 드는 운동을 위해서는 바닥 접지력이 좋은 신발이 좋거든요. 발목을 잡아주기 위해서는 목이 긴 양말이 좋죠.",
             "utterance_id":"BP22000905.5"
          },
          {
             "persona_id":135,
             "terminate":false,
             "text":"저는 답답해서 발목까지 오는 양말을 선호하는데. 헬스를 할때 는 목이 긴 양말이 더 좋은 거군요. 또 필요한 게 있을까요?",
             "utterance_id":"BP22000905.6"
          },
          {
             "persona_id":2,
             "terminate":false,
             "text":"저는 헬스장에서 쓰는 물품뿐 아니라 집에서도 간단하게 운동하려고 운동 소품도 샀어요. 같이 사는 부모님과 남동생이 택배 좀 그만 시키라고 하는데, 저는 아직 부족하다고 느껴요.",
             "utterance_id":"BP22000905.7"
          },
          {
             "persona_id":135,
             "terminate":false,
             "text":"장비 욕심이 있으시군요. 하긴 저도 베이킹이 취미인데 집에 베이킹 관련 물품이 정말 많아요.",
             "utterance_id":"BP22000905.8"
          },
          {
             "persona_id":2,
             "terminate":false,
             "text":"와, 베이킹 하세요? 저는 밀가루로 만든 음식은 사족을 못 쓰는 편인데, 요즘 특히 마들렌에 빠져 있어요.",
             "utterance_id":"BP22000905.9"
          },
          {
             "persona_id":135,
             "terminate":false,
             "text":"요즘 마들렌, 휘낭시에 등 구움과자가 유행이죠. 저도 지인들에게 선물 많이 해요. 최근엔 대량 생산을 위해서 틀을 더 구매했어요.",
             "utterance_id":"BP22000905.10"
          },
          {
             "persona_id":2,
             "terminate":false,
             "text":"우와, 저도 지인이 되고 싶네요. 만들기 어렵지 않나요?",
             "utterance_id":"BP22000905.11"
          },
          {
             "persona_id":135,
             "terminate":false,
             "text":"레시피를 지키면 만들기 어렵지 않은 것 같아요. 그리고 헬스도 장비가 중요하듯 베이킹도 장비, 좋은 재료가 중요한 것 같아요.",
             "utterance_id":"BP22000905.12"
          },
          {
             "persona_id":2,
             "terminate":false,
             "text":"베이킹은 만드는 것에 따라 틀이 다 다르죠? 다양한 도구가 필요하지 않나요?",
             "utterance_id":"BP22000905.13"
          },
          {
             "persona_id":135,
             "terminate":false,
             "text":"그런 편인 것 같아요. 그래서 저도 유행하는 디저트가 있을 때마다 새로운 도구를 
    사게 돼요.",
             "utterance_id":"BP22000905.14"
          },
          {
             "persona_id":2,
             "terminate":false,
             "text":"역시 무언가에 빠지면 파생 소비가 생길 수밖에 없네요.",
             "utterance_id":"BP22000905.15"
          },
          {
             "persona_id":135,
             "terminate":false,
             "text":"맞는 말이에요. 소비는 지금 30대에 다 하고 40대는 미니멀하게 살고 싶은데 가능할지 모르겠어요.",
             "utterance_id":"BP22000905.16"
          },
          {
             "persona_id":2,
             "terminate":false,
             "text":"하하, 어려울 것 같은데요. 새로운 취미는 새로운 소비를 낳는 법이죠. 그보다 저는 이제 헬스장에 가야겠어요.",
             "utterance_id":"BP22000905.17"
          },
          {
             "persona_id":135,
             "terminate":true,
             "text":"네, 오늘 대화 즐거웠습니다. 운동 열심히 하세요!",
             "utterance_id":"BP22000905.18"
          }
       ]
    }

     

     
     
     

     

     

     

     

     

     

     

     

     

     

     

     

     

     
  • 데이터셋 구축 담당자

    수행기관(주관) : 심심이㈜
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    최정회 02-562-5332 sijay@simsimi.com - 사업 관리 - 저작/검수 워크벤치 개발 및 운영 - 데이터 정제 - 데이터 샘플링 검수
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜다이얼로그디자인에이전시 - 데이터 설계
    - 작업 공정 설계 및 작업 가이드라인 작성
    - 데이터 정제
    - 데이터 생성 및 라벨링
    - 데이터 의미 정확성 검수
    ㈜나라지식정보 - 데이터 형식 검수
    - 데이터 품질 평가
    ㈜튜닙 - 데이터 설계
    - AI 모델링
    - 검수 워크벤치 개발 및 운영
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    최정회 02-562-5332 sijay@simsimi.com
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.