KETI 지능정보 플래그십 R&D

한국어 어체 변환 데이터셋

외부 데이터는 해당 기관의 이용정책과 다운로드 절차를 따라야 하며 AI 허브와 관련이 없음을 알려 드립니다. [저작권 및 이용정책 상세보기]

구축량
  • 2,000 문장
대표 도면
image

 

필요성
  • 국내 인공지능 기술의 활성화를 위해서는 무엇보다 자연어처리와 관련된 다양한 종류의 고품질 텍스트 데이터 확보가 중요
  • 국내 자연어처리 연구 중 최초로 어체 변환을 목적으로 공개하는 데이터
  • 한국어 어체 변환 연구는 다양한 대화 시스템이 상황별 적합한 응답 발화를 생성하는데 중요한 요소 중 하나로 연구 활성화가 필요함
구축 내용
  • 한국어 대화 시스템에서 활용도가 가장 높은 해요체, 합쇼체, 반말체를 대상으로 한국어 문장을 제작, 수집 체계를 마련하고 관련 정보를 레이블링
  • 한국어 문법에 대한 지식을 보유하고 있는 대학원생이 문장을 분석하고 어체 문장을 작성하는 방식으로 수집
  • 의료 도메인 대화 1,940 문장, 일상, 오피스 대화 672 문장을 수집
  • 역-변환 (Back-transfer) 방법으로 어체 변환을 실험을 수행하는 방식으로 데이터 정확성 검증
데이터 구조
  • 어체 별로 하나의 텍스트 파일 형태로 존재하고 Line-by-line 방식으로 병렬 코퍼스를 구성함
  • 의료 도메인 대화 (해요체-합쇼체)
    - medical_dialog_yo.txt (해요체)
      1. 임신 중에 비행기를 타는 것은 괜찮아요.
      2. 서두르지 마시고 병원에 가시면 된답니다.
      ...(이하 생략)
    - medical_dialog_sho.txt (합쇼체)
      1. 임신 중에 비행기를 타는 것은 괜찮습니다.
      2. 서두르지 마시고 병원에 가시면 된답니다.
      ...(이하 생략)
  • 일상, 오피스 대화 (해요체-합쇼체-반말체)
    -  office_daily_dialog_yo.txt (해요체)
      1. 밤사이 잠은 잘 주무셨어요?
      2. 좋은 아침이에요!
      3. 식사 잘 하셨어요?
      ...(이하 생략)
    - office_daily_dialog_sho.txt (합쇼체)
      1. 밤사이 잠은 잘 주무셨습니까?
      2. 좋은 아침입니다!
      3. 식사 잘 하셨습니까?
      ...(이하 생략)
    - office_daily_dialog_ban.txt (반말체)
      1. 밤사이 잠은 잘 잤어?
      2. 좋은 아침이야!
      3. 식사 잘 했어?
      ...(이하 생략)

데이터 구축 담당자 표 (담당기관, 책임자명, 전화번호, 대표이메일)
담당기관 책임자명 전화번호 대표이메일
서강대학교 자연어처리 연구실 서정연 · seojy@sogang.ac.kr
다운로드 폴더 구성정보

데이터 다운로드는 PC에서만 가능합니다.