콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#자연어

BETA 한국어 SNS 멀티턴 대화 데이터

한국어 SNS 멀티턴 대화 데이터 아이콘 이미지
  • 분야한국어
  • 유형 텍스트
구축년도 : 2023 갱신년월 : 2024-06 조회수 : 123 다운로드 : 8 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2024-06-28 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-06-28 산출물 공개 Beta Version

    소개

    - 한국어 SNS 대화처리 모델링 기술 연구 및 응용 서비스 개발 등에 활용하기 위한 한국어 SNS 대화의 문체와 내용을 반영하는 2인 또는 3인 화자의 멀티턴 대화 데이터

    구축목적

    - 한국어 SNS 멀티턴 대화의 대화 상태 예측 모델 연구 및 개발에 활용할 수 있는 학습용 데이터 구축
    - 한국어 SNS 어휘, 표현, 문체를 반영한 대화 생성 모델 연구 및 개발에 활용할 수 있는 학습용 데이터 구축
    - 한국어 SNS 문체를 구사하는 사용자 친화적 정보성 문답 챗봇 응용 서비스 연구 및 개발에 활용할 수 있는 학습용 데이터 구축
  • - 데이터 구축 규모

    항목 내용
    대화 세션 196,235
    발화 3,246,886
    대화 주제별 구축 규모 주제 수량 구축 비율
    (대화 세션)
    건강 및 식음료 20,576 10.49%
    경제 및 사회 42,540 21.68%
    과학 기술 19,681 10.03%
    문화 생활 및 여가 21,348 10.88%
    미용과 패션 21,997 11.21%
    스포츠 및 e 스포츠 21,688 11.05%
    여행, 관광 및 명소 24,276 12.37%
    정치 3,603 1.84%
    콘텐츠 소비 20,526 10.46%
    합계 196,235 100.00%
    화자별
    구축 규모 
    화자 수량 구축 비율
    (발화)
    2인 2,953,371 90.96%
    3인 293,515 9.04%
    합계 3,246,902 100.00%

    - 데이터 분포
    (1) 발화 내 문장 수 분포
     발화 내 문장 수는 발화 내 한 문장으로 이루어진 발화가 전체의 43.66%, 두 문장으로 이루어진 발화가 전체의 24.82%, 세 문장으로 이루어진 발화가 전체의 1.95%를 차지하며, 기타 네 문장으로 이루어진 발화가 전체의 0.21%를 차지한다.

    발화내문장수분포 그래프 이미지


    (2) 대화 내 발화 수 분포
     대화 내 발화는 최소 14발화를 기준으로 하며, 16발화가 전체의 90.26%, 24발화가 전체의 6.08%를 차지한다.

    대화내발화수분포 그래프 이미지


    (3) 화자 성별 분포
     대화의 화자의 성별 분포는 남성 50.43%, 여성 49.57%로 이루어져 있다.

    화자성별분포 그래프 이미지


    (4) 화자 연령대 분포
     대화의 화자 연령 분포는 10대 4.65%, 20대 50.15%, 30대 42.22%, 40대 2.80%, 50대(이상) 0.18%로 이루어져 있다.

    화자연령대분포 그래프 이미지

  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    - 모든 도메인(건강 및 식음료/여행, 관광 및 명소/문화생활 및 여가/미용과 패션/스포츠 및 e스포츠/콘텐츠 소비/정치/경제 및 사회/과학 기술)에서 사용되는 사전 학습 언어모델은 같으나, 도메인별 라벨링이 다르기 때문에 총 9개, 각 1개씩 Dialogue State Tracking 모델을 구현
    - 사전 학습 언어모델은 Kconvo-RoBERTa를 사용하였으며, [CLS] 토큰을 통해 special state(ex. 가격대, 평가/후기/감상)을 예측하고, Text 토큰을 통해 standard state(ex. 장소/지역/조직, 인물 등)을 예측
    - 모델의 입력값은 주고받는 발화 쌍을 하나로 묶어서 Kconvo-RoBERTa에 입력됨
    - Kconvo-RoBERTa에서 추출되는 [CLS] 토큰을 통해 special state(slot-key: 가격대, 평가/후기/감상)을 분류하며, special state을 예측할 시, 예측된 special state에 대한 values(slot-value: yes, no, dontcare, soso) 중 하나를 예측
    - Kconvo-RoBERTa에서 추출되는 text 토큰들에서 BIO 태깅을 통해 standard state(slot-key: 장소/지역/조직, 시간 등)를 예측하며, 예측된 standard state의 시작점과 종료점(B-tag를 시작으로 마지막 I-tag까지)를 values(slot-value: 한국, 오전 10시 등)로 정의
    - 1개의 입력 발화 쌍에 special state와 standard state 모두 존재할 수 있기 때문에, 동시에 학습을 진행

    AI모델 이미지(Kconvo-RoBERTa)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    - 어노테이션 포맷

    No 속성명 타입 필수 속성 설명 예시
    여부
    1 info Object Y 대화 메타정보  
    2 info.category String Y 데이터셋 종류 한국어SNS 멀티턴 대화
    3 info.id String Y 데이터셋 식별자 79
    4 info.topic String Y 대화 주제 건강 및 식음료
    5 info.keyword String Y 대화 키워드 밀키스 제로 출시
    6 info.speaker Object Y 발화자 정보  
    7 info.speaker.speakerAId String Y 발화자 A의 ID 39
    8 info.speaker.speakerASex String Y 발화자 A의 성별 여자
    9 info.speaker.speakerAAge String Y 발화자 A의 연령대 20
    10 info.speaker.speakerBId String Y 발화자 B의 ID 104
    11 info.speaker.speakerBSex String Y 발화자 B의 성별 남자
    12 info.speaker.speakerBAge String Y 발화자 B의 연령대 20
    13 info.speaker.speaerCId String   발화자 C의 ID 77
    14 info.speaker.speakerCSex String   발화자 C의 성별 남자
    15 info.speaker.speakerCAge String   발화자 C의 연령대 30
    16 utterances Object Y 발화 정보  
    17 utterances.terminate Boolean Y 대화 종료 표시 True / False
    18 utterances.speaker String Y 발화자 speakerA
    19 utterances.text String Y 발화 text 너 제로 칼로리 탄산음료 좋아함?
    20 utterances.new_words String   사용된 신조어 레알
    21 utterances.speech_act String Y 발화의 화행 class 정보 요청 / 정보 제공 
    22 utterances.slot Object Y 발화의 slot 정보  
    23 utterances.slot.key String   발화의 slot 항목 class 제품/서비스
    24 utterances.slot.value String   slot 항목의 값 밀키스
    25 utterances.turn_id String Y 턴 id 000079-2
    26 utterances.utterance_id String Y 발화 id 79.4

    - 데이터 포맷
    (1) 대화 메타 정보

    대화 ID 화자A
    ID
    화자A
    성별
    화자A
    연령대
    화자B
    ID
    화자B
    성별
    화자B
    연령대
    주제 키워드
    79 39 여자 20 104 남자 20 건강 및 식음료 밀키스 제로 출시

     

    (2) 발화 데이터

    발화
    번호
    발화자 발화 신조어 화행 slot_data
    1 A 야! 바쁘냐~. 오늘의 저메추 부탁할게. 저메추 친교 및 잡담 {"날짜/기간/계절":"오늘"}
    2 B 왜 너 먹는걸 맨날 나한테 물어봐ㅋㅋ. 나는 귀찮아서 냉동실에 있는 치즈 돈까스 에프에 돌려 먹을란다. 에프 친교 및 잡담 {"제품/서비스":"치즈 돈까스"}
    3 A 야. 너 저번부터 왜 자꾸 냉동 식품만 먹어?   친교 및 잡담 {"제품/서비스":"냉동 식품"}
    4 B 뭐 어때서 그래. 1인 가구가 매번 재료 사서 요리하기 얼마나 귀찮은줄 알아? 재료 남는 것도 많고. 냉동 간편식이 대세라구.   친교 및 잡담 {"제품/서비스":"냉동 간편식","평가/후기/감상":"yes"}
    5 A 아. 그래? 주로 어디서 구매하는데?   정보 요청  
    6 B 나는 낮에 회사에 있으나 장보러갈 시간이 없어서 주로 마켓컬리나 이마트 새벽 배송으로 주문해서 받아.   정보 제공 {"제품/서비스":"새벽 배송","장소/조직":"마켓컬리; 이마트","시간":"낮"}
    7 A 마켓컬리는 나도 몇 번 이용해 보기는 했어. 뭐 추천할 만한거 있어?   정보 요청 {"장소/조직":"마켓컬리"}
    8 B 응. 빵 좋아하면 리치몬드 과자점이나 우드앤브릭, 메종엠오 같은 오프라인 맛집 빵도 냉동으로 얼려서 배송해줘.   정보 제공 {"제품/서비스":"빵; 오프라인 맛집 빵","장소/조직":"리치몬드 과자점; 우드앤브릭; 메종엠오"}
    9 A 오 진짜 유명한 베이커리들이잖아? 그리고 또?   정보 요청 {"제품/서비스":"베이커리"}
    10 B 아니면 오프라인 맛집이라고 따로 모아둔 카테고리가 있는데, 거기 가면 이연복의 목란 짜장면도 있고 전주의 유명 맛집 베테랑 칼국수 등등 다 냉동 간편식으로 온다구.   정보 제공 {"인물":"이연복","제품/서비스":"오프라인 맛집; 목란 짜장면; 베테랑 칼국수; 냉동 간편식","지역":"전주"}
    11 A 냉동 식품은 뭔가 신선하지 않은 느낌인데 맛이 좀 다르지 않아?   정보 요청 {"제품/서비스":"냉동 식품"}
    12 B 보통은 급속 냉동 기술을 사용해서 얼리니까 해동하고 조리하면 방금 요리한 것 처럼 맛있던데?   정보 제공 {"평가/후기/감상":"yes"}
    13 A 맛나겠다. 근데 나 다이어트도 해야하는데?   정보 요청  
    14 B 응. 탄단지 잘 맞춘 냉동 다이어트 도시락들도 있으니 쟁여두는걸 추천해. 탄단지 정보 제공 {"제품/서비스":"냉동 다이어트 도시락","평가/후기/감상":"yes"}
    15 A 꿀팁 감사감사. 역시 너는 아는 게 많구나.   친교 및 잡담  
    16 B 응! 더운 여름에 특히 걍 전자레인지나 에어프라이어로 끝나는 냉동 간편식이 최고니까 꼭 도전해봐.   친교 및 잡담 {"제품/서비스":"냉동 간편식; 에어프라이어; 전자레인지","날짜/기간/계절":"여름"}

     

    (3) JSON 형식 예시

    {
        "info": {
            "category": "한국어SNS 멀티턴 대화",
            "id": "000079",
            "topic": "건강 및 식음료",
            "keyword": "밀키스 제로 출시",
            "speaker": {
                "speakerAId": "0039",
                "speakerASex": "여자",
                "speakerAAge": "20",
                "speakerBId": "0104",
                "speakerBSex": "남자",
                "speakerBAge": "20",
                "speakerCId": null,
                "speakerCSex": null,
                "speakerCAge": null
            }
        },
        "utterances": [
            {
                "speaker": "speakerA",
                "text": "너 제로 칼로리 탄산음료 좋아함?",
                "new_word": "",
                "speech_act": "친교 및 잡담",
                "slot": [
                    {
                        "key": "제품/서비스",
                        "value": "제로 칼로리 탄산음료"
                    }
                ],
                "turn_id": "000079-1",
                "utterance_id": "000079.1"
            },
            {
                "speaker": "speakerB",
                "text": "ㅇㅇ. 일반 탄산음료보다 칼로리 부담이 덜해서 자주 마시는데 그건 왜?",
                "new_word": "",
                "speech_act": "친교 및 잡담",
                "slot": [
                    {
                        "key": "제품/서비스",
                        "value": "일반 탄산음료"
                    },
                    {
                        "key": "영양소/성분",
                        "value": "칼로리"
                    }
                ],
                "turn_id": "000079-1",
                "utterance_id": "000079.2"
            },
            {
                "speaker": "speakerA",
                "text": "그럼 너 밀키스 제로도 마셔봄? 최근에 새로 출시됐다고 하던데.",
                "new_word": "",
                "speech_act": "정보 제공",
                "slot": [
                    {
                        "key": "제품/서비스",
                        "value": "밀키스 제로"
                    }
                ],
                "turn_id": "000079-2",
                "utterance_id": "000079.3"
            },
            {
                "speaker": "speakerB",
                "text": "레알? 밀키스도 제로 칼로리로 나왔다고?",
                "new_word": "레알",
                "speech_act": "정보 요청",
                "slot": [
                    {
                        "key": "제품/서비스",
                        "value": "밀키스"
                    },
                    {
                        "key": "영양소/성분",
                        "value": "제로 칼로리"
                    }
                ],
                "turn_id": "000079-2",
                "utterance_id": "000079.4"
            },
            {
                "speaker": "speakerA",
                "text": "출시된 지 꽤 된 거 같던데 나도 얼마 전에 먹방 유튜버 영상 보고 알았음!",
                "new_word": "먹방",
                "speech_act": "정보 제공",
                "slot": [],
                "turn_id": "000079-3",
                "utterance_id": "000079.5"
            },
            {
                "speaker": "speakerB",
                "text": "오, 대박.. 그럼 너는 밀키스 제로 먹어봤어?",
                "new_word": "대박",
                "speech_act": "친교 및 잡담",
                "slot": [
                    {
                        "key": "제품/서비스",
                        "value": "밀키스 제로"
                    },
                    {
                        "key": "평가/후기/감상",
                        "value": "yes"
                    }
                ],
                "turn_id": "000079-3",
                "utterance_id": "000079.6"
            },
            {
                "speaker": "speakerA",
                "text": "당연하지. 제로 칼로리인데 일반 밀키스 맛이랑 거의 똑같더라ㅋㅋ",
                "new_word": "",
                "speech_act": "정보 제공",
                "slot": [
                    {
                        "key": "영양소/성분",
                        "value": "제로 칼로리"
                    },
                    {
                        "key": "제품/서비스",
                        "value": "밀키스"
                    }
                ],
                "turn_id": "000079-4",
                "utterance_id": "000079.7"
            },
            {
                "speaker": "speakerB",
                "text": "나도 조만간 사먹어봐야겠다. 근데 그건 어디서 살 수 있음?",
                "new_word": "",
                "speech_act": "정보 요청",
                "slot": [],
                "turn_id": "000079-4",
                "utterance_id": "000079.8"
            },
            {
                "speaker": "speakerA",
                "text": "편의점이나 마트에서도 팔고, 온라인 칠성몰 사이트에서도 살 수 있다고 함!",
                "new_word": "",
                "speech_act": "정보 제공",
                "slot": [
                    {
                        "key": "장소/조직",
                        "value": "온라인 칠성몰 사이트"
                    }
                ],
                "turn_id": "000079-5",
                "utterance_id": "000079.9"
            },
            {
                "speaker": "speakerB",
                "text": "그렇구만. 밀키스 제로는 그럼 캔으로만 출시된 거야?",
                "new_word": "",
                "speech_act": "정보 요청",
                "slot": [
                    {
                        "key": "제품/서비스",
                        "value": "밀키스 제로"
                    }
                ],
                "turn_id": "000079-5",
                "utterance_id": "000079.10"
            },
            {
                "speaker": "speakerA",
                "text": "ㄴㄴ. 250mL 캔이랑 300mL, 500mL 페트병으로도 출시됨!",
                "new_word": "",
                "speech_act": "정보 제공",
                "slot": [
                    {
                        "key": "제품/서비스",
                        "value": "페트병"
                    }
                ],
                "turn_id": "000079-6",
                "utterance_id": "000079.11"
            },
            {
                "speaker": "speakerB",
                "text": "페트병으로도 나왔다니 박박이네. 밀키스 팬들 엄청 좋아하겠다ㅋㅋ",
                "new_word": "박박",
                "speech_act": "친교 및 잡담",
                "slot": [
                    {
                        "key": "제품/서비스",
                        "value": "밀키스; 페트병"
                    },
                    {
                        "key": "평가/후기/감상",
                        "value": "yes"
                    }
                ],
                "turn_id": "000079-6",
                "utterance_id": "000079.12"
            },
            {
                "speaker": "speakerA",
                "text": "그러니까ㅋㅋ 요즘 제로 칼로리 음료가 대세이긴 한가봄.",
                "new_word": "",
                "speech_act": "친교 및 잡담",
                "slot": [
                    {
                        "key": "제품/서비스",
                        "value": "제로 칼로리 음료"
                    },
                    {
                        "key": "평가/후기/감상",
                        "value": "yes"
                    }
                ],
                "turn_id": "000079-7",
                "utterance_id": "000079.13"
            },
            {
                "speaker": "speakerB",
                "text": "니 이야기 들으니까 맛이 더 궁금해지네. 내일 당장 편의점 가서 사와야겠다ㅋㅋ",
                "new_word": "",
                "speech_act": "친교 및 잡담",
                "slot": [
                    {
                        "key": "날짜/기간/계절",
                        "value": "내일"
                    },
                    {
                        "key": "평가/후기/감상",
                        "value": "yes"
                    }
                ],
                "turn_id": "000079-7",
                "utterance_id": "000079.14"
            },
            {
                "speaker": "speakerA",
                "text": "편의점에 캔 음료 원 플러스 원 행사도 종종 하니까 사서 먹어봐ㅋㅋ 완전 추천함!",
                "new_word": "",
                "speech_act": "정보 제공",
                "slot": [
                    {
                        "key": "사건",
                        "value": "캔 음료 원 플러스 원 행사"
                    },
                    {
                        "key": "평가/후기/감상",
                        "value": "yes"
                    }
                ],
                "turn_id": "000079-8",
                "utterance_id": "000079.15"
            },
            {
                "speaker": "speakerB",
                "text": "오키! 먹어보고 나서 후기 말해줄게.",
                "new_word": "",
                "speech_act": "친교 및 잡담",
                "slot": [],
                "turn_id": "000079-8",
                "utterance_id": "000079.16"
            }
        ]
    }

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜엔에이치엔다이퀘스트
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    이주환 070-4658-4427 juhwanlee@diquest.com 데이터 검수, AI학습모델 개발
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜미디어 코퍼스 데이터 수집, 가공
    심심이(주) 데이터 정제, 워크벤치 개발
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    박일섭 02)881-5758 is.park@mediacorpus.net
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    이주환 070-4658-4427 juhwanlee@diquest.com
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    최정회 02-562-5332 sijay@simsimi.com
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.