한국어 SNS

한국어 SNS

데이터셋명 한국어 SNS
데이터 분야 음성/자연어 데이터 유형 텍스트
구축기관 포티투마루 데이터 관련 문의처 담당자명 김수경(바이브컴퍼니)
가공기관 바이브컴퍼니 전화번호 02-565-0531
검수기관 바이브컴퍼니 이메일 ckaskan@vaiv.kr
구축 데이터량 200만건 구축년도 2020년
버전 1.0 최종수정일자 2021.06.30
소개 한국어 구어체 텍스트 기반의 정보검색, 대화분석, 질의응답, 명령어 이해, 언어모델 학습 등의 자연어처리 AI 기술 개발을 위한 한국인의 일상대화 SNS 데이터 구축
주요 키워드 한국어 SNS, 대화 처리 기술, 구어 속성, 문장 성분 생략, 축약적 표현, 대화 속성, 대화 유형, 대화 내용, 카카오톡 대화 내용
저작권 및 이용정책 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다 [데이터 이용정책 상세보기]
데이터설명서 자료보기 구축활용가이드 자료보기
샘플데이터 업데이트 중 교육활용동영상 영상보기
저작도구 다운로드 AI모델 업데이트 중
데이터 변경이력
버전 일자 변경내용 비고
1.0 2021.06.30 데이터 최초 개방  
구축 목적
  • 한국어 구어체 텍스트 기반의 정보검색, 대화분석, 질의응답, 명령어 이해, 언어모델 학습 등의 자연어처리 AI 기술 개발을 위한 한국인의 일상대화 메신저 채팅 데이터 구축
활용 분야
  • AI 상담센터, 챗봇, AI 스피커, 개인비서, 스마트홈 등 한국어 구어 자연어 처리 엔진에 필요한 산업
소개
  • 대화 참여자와 제공자 모두로부터 개인정보처리 및 저작권 이용 허락 계약을 체결하여 수집한 다양한 주제의 한국어 대화 원문 데이터에 대하여 개인정보 비식별화 및 정제 작업을 거쳐, 대화 주제 분류 후 AI 모델링을 통해 데이터의 유효성을 검증한 한국어 SNS 데이터셋 구축024.한국어SNS데이터.그림1
구축 내용 및 제공 데이터량
  • 한국어 일상대화 200만건
  • 말차례 수: 대화당 최소 4회, 평균 8회 내외, 총 1,600만회 내외
  • 발화 수: 대화당 최소 8회, 총 3,200만회 내외
  • 개인정보 비식별화
  • 메타정보(화자정보, 대화 유형, 대화 주제) 부착
    데이터셋 내용 형식 규모
    한국어 SNS 데이터 ·메타정보(화자정보, 대화 유형, 대화 주제) JSON 2,000,000건
대표도면
024.한국어SNS데이터.그림2
필요성
  • 코비드-19 상황이 장기화되면서 1990년대 후반 이후 미국을 중심으로 시작된 ‘디지털 경제’로의 전환이 가속화됨
  • 디지털 경제의 핵심 요소 가운데 하나는 ‘비대면 경제’이므로 비대면 의사소통의 수요가 폭발적으로 증가하고 있음
  • 효율적인 비대면 의사소통과 엄청난 속도와 규모로 축적되기 시작한 대화 데이터의 활용성을 높이기 위해서는 대화 처리 기술의 도입이 요구됨
  • 대화 처리 기술은 아직 초기 단계에 머물러 있으나 딥러닝 기술의 발달과 대규모 대화 데이터의 구축으로 비약적 발전이 가능할 것으로 기대됨
데이터 구조
  • 데이터구성
    데이터구성 표
    Key Description Type Child type
    header 대화 메타 데이터 JsonObject JsonObject
    {      
    dialogueInfo 대화 정보 JsonObject JsonObject
    {      
    dialogueID 대화 ID String  
    numberOfParticipants 대화 참여자 수 Integer  
    numberOfUtterances 발화 수 Integer  
    numberOfTurns 말차례 수 Integer  
    type 대화 유형 string  
    topic 대화 주제 string  
    }      
    participantsInfo 대화 참여자 정보 Array JsonObject
    [      
    participantID 대화 참여자 ID String  
    gender 대화 참여자 성별 String  
    age 대화 참여자 연령대 String  
    residentialProvince 대화 참여자 거주지역 String  
    ]      
    }      
    body 대화 데이터 본문 Array JsonObject
    [      
    utteranceID 발화 ID String  
    turnID 말차례 ID String  
    participantID 대화 참여자 ID String  
    date 발화 날짜 String  
    time 발화 시간 String  
    utterance 발화 String  
    ]      
    }      
  • 어노테이션 포맷
    어노테이션 포맷 표
    No 항목
    타입 필수
    여부
    한글명 영문명
    1 대화 메타 데이터 header   JsonObject Y
      1-1 대화 정보 dialogueInfo   JsonObject Y
      {        
      1-1-1 대화 ID dialogueID   String Y
      1-1-2 대화 참여자 수 numberOfParticipants   Integer Y
      1-1-3 발화 수 numberOfUtterances   Integer Y
      1-1-4 말차례 수 numberOfTurns   Integer Y
      1-1-5 대화 유형 type   String Y
      1-1-6 대화 주제 topic   String Y
      }        
      1-2 대화 참여자 정보 participantsInfo   Array Y
      [        
         {        
      1-2-1 대화 참여자 ID participantID   String Y
      1-2-2 대화 참여자 성별 gender   String Y
      1-2-3 대화 참여자 연령대 age   String Y
      1-2-4 대화 참가자
    거주지역
    residentialProvince   String Y
         }        
      ]        
    2 대화 데이터 본문 body   JsonObject Y
      [        
         {        
      2-1 발화 ID utteranceID   String Y
      2-2 말차례 ID turnID   String Y
      2-3 대화 참여자 ID participantID   String Y
      2-4 발화 날짜 date   String Y
      2-5 발화 시간 time   String Y
      2-6 발화 utterance   String Y
         }        
      ]        
데이터셋 구축 담당자
수행기관(주관) : 포티투마루
수행기관(주관)
책임자 전화번호 대표이메일 담당업무
김동환 02-6952-9201 bd@42maru.ai · 원문 데이터 확보 및 제공
· 데이터 구축 총괄
수행기관(참여)
수행기관(참여)
기관명 담당업무
바이브컴퍼니 · 원문 데이터 정제(크라우드소싱 활용)
· 주제 분류 및 생성 요약문 작성(크라우드소싱 활용)
· 결과물 검수 및 검증
· 일상 대화 생성 AI 모델을 활용한 응용 서비스 개발(한국어 일상 대화 생성 시범 서비스)