KETI 지능정보 플래그십 R&D

트위터에서 수집 및 정제한 대화 시나리오

외부 데이터는 해당 기관의 이용정책과 다운로드 절차를 따라야 하며 AI 허브와 관련이 없음을 알려 드립니다. [저작권 및 이용정책 상세보기]

구축량
  • 1차년도: 1~17turn  2,000 Set
대표 도면
image

 

필요성
  • 인간은 오래 사귄 친구와 커피숍에 앉아서 이런 저런 이야기를 주고 받으며 인생을 이야기하듯이, AI와도 그렇게 하기를 원함.
  • AI에서 일상대화는 최근 많은 연구개발이 진행되고 있지만 기술적 난이도가 높아서, 연속적인 대화를 지원하지 못하는 실정임.
  • 일상적인 다양한 주제에 대한 연속대화 문장을 수집하여, 시나리오를 구축함으로써, 연속대화를 위한 인프라를 구축하고자 함.
  • 일상대화 데이터셋으로부터, 대화 의도와 맥락을 분석, 추론할 수 있으며, 감정, 대화 상대방의 나이, 성별 등을 구별하는데 용이.
구축 내용
  • 트위터에서는 화자2명이 1turn(45%), 2turn(16%), 화자 3명이 3turn(7%), 4turn(5%), 5turn(3%) 순서로 대화를 많이 함.
  • 트위터 특성상, 화자 2명이 간소한 1~2turn대화를 가장 많이 하고, 화자 3명이 모였을 때, 3턴 이상 대화를 심도있게 하며, 화자 4명일 때는 화자 3명일 때와 비교해서 11% 수준으로 대화빈도가 급속히 감소하는 것으로 볼 때, 트위터에서는 화자 2~3명이 1~5turn 대화를 주로 주고받는 것으로 확인.
  • 워드넷 키워드를 이용한 대용량 크롤러에 의해 대화 시나리오 자동 수집 후, 가치 있는 대화 시나리오를 수작업으로 선별, 교정 등 정제작업 수행.
  • 트위터에서 다수의 화자가 다수의 turn으로 일상적인 주제에 대해서 주고받은 고품질 대화 데이터 구축함.
데이터 구조
  • 다수의 turn(질문, 답변 1회)으로 구성된 연속 대화 시나리오
  • 각 문장 사이는 Tab 구분자 표시
  • 예) 기계식 키보드 써보고 싶어요.    싼 것도 많던데 써보세요. 정말 좋아요.    싼 것도 있나요? 예전에 봤을 땐 다 10만 원이 넘던데요.    이거 쓰는데 예쁘고 딸깍거려요.    우와 진짜 예뻐요.    불 끄면 더 예뻐요.    저런 키보드 처음 봐요. 진짜 예쁘네요.
활용 예시
  • 연속대화 시스템에 활용
image

데이터 구축 담당자 표 (담당기관, 책임자명, 전화번호, 대표이메일)
담당기관 책임자명 전화번호 대표이메일
보리(주) 고연정 · bory@bory.io
다운로드 폴더 구성정보

데이터 다운로드는 PC에서만 가능합니다.