한국어 SNS 소개
기본탭
데이터셋명 | 한국어 SNS | |||
---|---|---|---|---|
데이터 분야 | 음성/자연어 | 데이터 유형 | 텍스트 | |
구축기관 | 포티투마루 | 데이터 관련 문의처 | 담당자명 | 김수경(바이브컴퍼니) |
가공기관 | 바이브컴퍼니 | 전화번호 | 02-565-0531 | |
검수기관 | 바이브컴퍼니 | 이메일 | ckaskan@vaiv.kr | |
구축 데이터량 | 200만건 | 구축년도 | 2020년 | |
버전 | 1.2 | 최종수정일자 | 2022.05.10 | |
소개 | 한국어 구어체 텍스트 기반의 정보검색, 대화분석, 질의응답, 명령어 이해, 언어모델 학습 등의 자연어처리 AI 기술 개발을 위한 한국인의 일상대화 SNS 데이터 구축 | |||
주요 키워드 | 한국어 SNS, 대화 처리 기술, 구어 속성, 문장 성분 생략, 축약적 표현, 대화 속성, 대화 유형, 대화 내용, 카카오톡 대화 내용 | |||
저작권 및 이용정책 | 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다 [데이터 이용정책 상세보기] | |||
데이터설명서 | 자료보기 | 구축활용가이드 | 자료보기 | |
샘플데이터 | 다운로드 | 교육활용동영상 | 영상보기 | |
저작도구 | 다운로드 | AI모델 | 업데이트 중 |
데이터 변경이력
버전 | 일자 | 변경내용 | 비고 |
---|---|---|---|
1.2 | 2022.05.10 | 데이터 품질 보완 | |
1.1 | 2022.01.07 | 데이터 품질 보완 및 추가 개방 | |
1.0 | 2021.06.30 | 데이터 최초 개방 |
구축 목적
- 한국어 구어체 텍스트 기반의 정보검색, 대화분석, 질의응답, 명령어 이해, 언어모델 학습 등의 자연어처리 AI 기술 개발을 위한 한국인의 일상대화 메신저 채팅 데이터 구축
활용 분야
- AI 상담센터, 챗봇, AI 스피커, 개인비서, 스마트홈 등 한국어 구어 자연어 처리 엔진에 필요한 산업
소개
- 대화 참여자와 제공자 모두로부터 개인정보처리 및 저작권 이용 허락 계약을 체결하여 수집한 다양한 주제의 한국어 대화 원문 데이터에 대하여 개인정보 비식별화 및 정제 작업을 거쳐, 대화 주제 분류 후 AI 모델링을 통해 데이터의 유효성을 검증한 한국어 SNS 데이터셋 구축
구축 내용 및 제공 데이터량
- 한국어 일상대화 200만건
- 말차례 수: 대화당 최소 4회, 평균 8회 내외, 총 1,600만회 내외
- 발화 수: 대화당 최소 8회, 총 3,200만회 내외
- 개인정보 비식별화
- 메타정보(화자정보, 대화 유형, 대화 주제) 부착
데이터셋 내용 형식 규모 한국어 SNS 데이터 ·메타정보(화자정보, 대화 유형, 대화 주제) JSON 2,000,000건
대표도면

필요성
- 코비드-19 상황이 장기화되면서 1990년대 후반 이후 미국을 중심으로 시작된 ‘디지털 경제’로의 전환이 가속화됨
- 디지털 경제의 핵심 요소 가운데 하나는 ‘비대면 경제’이므로 비대면 의사소통의 수요가 폭발적으로 증가하고 있음
- 효율적인 비대면 의사소통과 엄청난 속도와 규모로 축적되기 시작한 대화 데이터의 활용성을 높이기 위해서는 대화 처리 기술의 도입이 요구됨
- 대화 처리 기술은 아직 초기 단계에 머물러 있으나 딥러닝 기술의 발달과 대규모 대화 데이터의 구축으로 비약적 발전이 가능할 것으로 기대됨
데이터 구조
- 데이터구성
데이터구성 표 Key Description Type Child type header 대화 메타 데이터 JsonObject JsonObject { dialogueInfo 대화 정보 JsonObject JsonObject { dialogueID 대화 ID String numberOfParticipants 대화 참여자 수 Integer numberOfUtterances 발화 수 Integer numberOfTurns 말차례 수 Integer type 대화 유형 string topic 대화 주제 string } participantsInfo 대화 참여자 정보 Array JsonObject [ participantID 대화 참여자 ID String gender 대화 참여자 성별 String age 대화 참여자 연령대 String residentialProvince 대화 참여자 거주지역 String ] } body 대화 데이터 본문 Array JsonObject [ utteranceID 발화 ID String turnID 말차례 ID String participantID 대화 참여자 ID String date 발화 날짜 String time 발화 시간 String utterance 발화 String ] } - 어노테이션 포맷
어노테이션 포맷 표 No 항목 길
이타입 필수
여부한글명 영문명 1 대화 메타 데이터 header JsonObject Y 1-1 대화 정보 dialogueInfo JsonObject Y { 1-1-1 대화 ID dialogueID String Y 1-1-2 대화 참여자 수 numberOfParticipants Integer Y 1-1-3 발화 수 numberOfUtterances Integer Y 1-1-4 말차례 수 numberOfTurns Integer Y 1-1-5 대화 유형 type String Y 1-1-6 대화 주제 topic String Y } 1-2 대화 참여자 정보 participantsInfo Array Y [ { 1-2-1 대화 참여자 ID participantID String Y 1-2-2 대화 참여자 성별 gender String Y 1-2-3 대화 참여자 연령대 age String Y 1-2-4 대화 참가자
거주지역residentialProvince String Y } ] 2 대화 데이터 본문 body JsonObject Y [ { 2-1 발화 ID utteranceID String Y 2-2 말차례 ID turnID String Y 2-3 대화 참여자 ID participantID String Y 2-4 발화 날짜 date String Y 2-5 발화 시간 time String Y 2-6 발화 utterance String Y } ]
데이터셋 구축 담당자
수행기관(주관) : 포티투마루
책임자 | 전화번호 | 대표이메일 | 담당업무 |
---|---|---|---|
김동환 | 02-6952-9201 | bd@42maru.ai | · 원문 데이터 확보 및 제공 · 데이터 구축 총괄 |
수행기관(참여)
기관명 | 담당업무 |
---|---|
바이브컴퍼니 | · 원문 데이터 정제(크라우드소싱 활용) · 주제 분류 및 생성 요약문 작성(크라우드소싱 활용) · 결과물 검수 및 검증 · 일상 대화 생성 AI 모델을 활용한 응용 서비스 개발(한국어 일상 대화 생성 시범 서비스) |