트위터에서 수집 및 정제한 대화 시나리오
외부 데이터는 해당 기관의 이용정책과 다운로드 절차를 따라야 하며 AI 허브와 관련이 없음을 알려 드립니다. [저작권 및 이용정책 상세보기]
구축량
- 1차년도: 1~17turn 2,000 Set
대표 도면

필요성
- 인간은 오래 사귄 친구와 커피숍에 앉아서 이런 저런 이야기를 주고 받으며 인생을 이야기하듯이, AI와도 그렇게 하기를 원함.
- AI에서 일상대화는 최근 많은 연구개발이 진행되고 있지만 기술적 난이도가 높아서, 연속적인 대화를 지원하지 못하는 실정임.
- 일상적인 다양한 주제에 대한 연속대화 문장을 수집하여, 시나리오를 구축함으로써, 연속대화를 위한 인프라를 구축하고자 함.
- 일상대화 데이터셋으로부터, 대화 의도와 맥락을 분석, 추론할 수 있으며, 감정, 대화 상대방의 나이, 성별 등을 구별하는데 용이.
구축 내용
- 트위터에서는 화자2명이 1turn(45%), 2turn(16%), 화자 3명이 3turn(7%), 4turn(5%), 5turn(3%) 순서로 대화를 많이 함.
- 트위터 특성상, 화자 2명이 간소한 1~2turn대화를 가장 많이 하고, 화자 3명이 모였을 때, 3턴 이상 대화를 심도있게 하며, 화자 4명일 때는 화자 3명일 때와 비교해서 11% 수준으로 대화빈도가 급속히 감소하는 것으로 볼 때, 트위터에서는 화자 2~3명이 1~5turn 대화를 주로 주고받는 것으로 확인.
- 워드넷 키워드를 이용한 대용량 크롤러에 의해 대화 시나리오 자동 수집 후, 가치 있는 대화 시나리오를 수작업으로 선별, 교정 등 정제작업 수행.
- 트위터에서 다수의 화자가 다수의 turn으로 일상적인 주제에 대해서 주고받은 고품질 대화 데이터 구축함.
데이터 구조
- 다수의 turn(질문, 답변 1회)으로 구성된 연속 대화 시나리오
- 각 문장 사이는 Tab 구분자 표시
- 예) 기계식 키보드 써보고 싶어요. 싼 것도 많던데 써보세요. 정말 좋아요. 싼 것도 있나요? 예전에 봤을 땐 다 10만 원이 넘던데요. 이거 쓰는데 예쁘고 딸깍거려요. 우와 진짜 예뻐요. 불 끄면 더 예뻐요. 저런 키보드 처음 봐요. 진짜 예쁘네요.
활용 예시
- 연속대화 시스템에 활용
