한국어 대화 요약

한국어 대화 요약

데이터셋명 한국어 대화 요약
데이터 분야 음성/자연어 데이터 유형 텍스트
구축기관 바이브컴퍼니 데이터 관련 문의처 담당자명 김수경(바이브컴퍼니)
가공기관 바이브컴퍼니 전화번호 02-565-0531
검수기관 바이브컴퍼니 이메일 ckaskan@vaiv.kr
구축 데이터량 35만건 구축년도 2020년
버전 1.1 최종수정일자 2021.10.12
소개 일상 대화, 토론 등 다양한 유형의 한국어 대화 원문 텍스트 데이터를 기반으로 한국어 대화 요약 AI 기술 개발을 위한 한국어 대화 요약 텍스트 데이터
주요 키워드 한국어 대화 요약, 자연어처리, 원문, 요약문, 구어 속성, 문장 성분 생략, 축약적 표현, 대화 속성, 대화 유형, 대화 내용
저작권 및 이용정책 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기]
데이터설명서 자료보기 구축활용가이드 자료보기
샘플데이터 다운로드 업데이트 중 교육활용동영상 영상보기
저작도구 다운로드 AI모델 업데이트 중
데이터 변경이력
버전 일자 변경내용 비고
1.1 2021.10.12 데이터 품질 보완  
1.0 2021.06.29 데이터 최초 개방  
구축 목적
  • 뉴스, 기사 등의 문어체에 비해 생략이나 변형이 많고, 대화의 문맥을 고려해야 하는 특수성이 있는 대화 요약 기술 개발을 위한 한국어 학습 데이터 구축
활용 분야
  • 대화 및 토론의 주제 분류 파악, 상담 내역 파악, 챗봇, 메신저 어플 등 대화의 핵심 내용을 신속하고 정확하게 파악해야 하는 분야
주요 키워드
  • 대화요약, 생성요약, 한국어, 요약기술, 학습데이터
소개
  • 대화 참여자와 제공자 모두로부터 개인정보처리 및 저작권 이용 허락 계약을 체결하여 수집한 다양한 주제의 한국어 대화 원문 데이터에 대하여 개인정보 비식별화 및 정제 작업을 거쳐, 대화 주제 분류와 생성 요약문 어노테이션 후 AI 모델링을 통해 데이터의 유효성을 검증한 한국어 대화 데이터셋 구축

 

한국어 대화요약 소개 이미지

구축 내용 및 제공 데이터량
  • 한국어 대화 원문 35만건
  • 한 문장으로 요약된 생성 요약문 35만건
  • 개인정보 비식별화
  • 메타정보(화자정보, 대화 유형, 대화 주제) 부착

 

구축 내용 및 제공 데이터량 표
데이터셋 내용 형식 규모
한국어 대화 요약 데이터 · 메타정보(화자정보, 대화 유형, 대화 주제)
· 대화 요약문
JSON 350,000건
대표도면

대표도면

필요성
  • 코비드-19 상황이 장기화되면서 1990년대 후반 이후 미국을 중심으로 시작된 ‘디지털 경제’로의 전환이 가속화됨
  • 디지털 경제의 핵심 요소 가운데 하나는 ‘비대면 경제’이므로 비대면 의사소통의 수요가 폭발적으로 증가하고 있음
  • 효율적인 비대면 의사소통과 엄청난 속도와 규모로 축적되기 시작한 대화 데이터의 활용성을 높이기 위해서는 대화 요약 기술의 도입이 요구됨
  • 대화 요약 기술을 아직 초기 단계에 머물러 있으나 딥러닝 기술의 발달과 대규모 대화 요약 데이터의 구축으로 비약적 발전이 가능할 것으로 기대됨
데이터 구조
  • 데이터 구성
    데이터 구성
    Key Description Type Child type
    header 대화 메타 데이터 JsonObject JsonObject
    {      
    dialogueInfo 대화 정보 JsonObject JsonObject
    {      
    dialogueID 대화 ID String  
    numberOfParticipants 대화 참여자 수 Integer  
    numberOfUtterances 발화 수 Integer  
    numberOfTurns 말차례 수 Integer  
    type 대화 유형 String  
    topic 대화 주제 String  
    }      
    participantsInfo 대화 참여자 정보 Array JsonObject
    [      
    participantID 대화 참여자 ID String  
    gender 대화 참여자 성별 String  
    age 대화 참여자 연령대 String  
    residentialProvince 대화 참여자 거주지역 String  
    ]      
    }      
    body 대화 데이터 본문 JsonObject Array, String
    {      
    dialogue 대화 본문 데이터 Array String
    [      
    utteranceID 발화 ID String  
    turnID 말차례 ID String  
    participantID 대화 참여자 ID String  
    date 발화 날짜 String  
    time 발화 시간 String  
    utterance 발화 String  
    ]      
    summary 요약문 String  
    }      

     

  • 어노테이션 포맷
    어노테이션 포맷
    No 항목 길이 타입 필수여부
    한글명 영문명
    1 대화 메타 데이터 header   JsonObject Y
      1-1 대화 정보 dialogueInfo   JsonObject Y
      {        
      1-1-1 대화 ID dialogueID   String Y
      1-1-2 대화 참여자 수 numberOfParticipants   Integer Y
      1-1-3 발화 수 numberOfUtterances   Integer Y
      1-1-4 말차례 수 numberOfTurns   Integer Y
      1-1-5 대화 유형 type   String Y
      1-1-6 대화 주제 topic   String Y
      }        
      1-2 대화 참여자 정보 participantsInfo   Array Y
      [        
       {        
      1-2-1 대화 참여자 ID participantID   String Y
      1-2-2 대화 참여자 성별 gender   Integer Y
      1-2-3 대화 참여자 연령대 age   Integer Y
      1-2-4 대화 참여자 거주지역 residentialProvince   Integer Y
       }        
      ]        
    2 대화 데이터 본문 body   JsonObject Y
      2-1 대화 본문 데이터 dialogue   Array Y
      [        
       {        
      2-1-1 발화 ID utteranceID   String Y
      2-1-2 말차례 ID turnID   String Y
      2-1-3 대화 참여자 ID participantID   String Y
      2-1-4 발화 날짜 date   String Y
      2-1-5 발화 시간 time   String Y
      2-1-6 발화 utterance   String Y
       }        
      ]        
      2-2 요약문 summary   String Y
데이터셋 구축 담당자
수행기관(주관) : 바이브컴퍼니
수행기관(주관)
책임자명 전화번호 대표이메일 담당업무
이기황 02-565-0531 leekh@vaiv.kr · 원문데이터 확보 및 제공
· 데이터구축 총괄