한국어 방언 발화(강원도)

한국어 방언 발화(강원도)

데이터셋명 한국어 방언 발화(강원도)
데이터 분야 음성/자연어 데이터 유형 텍스트, 오디오
구축기관 솔트룩스 데이터 관련 문의처 담당자명 김민종(솔트룩스)
가공기관 타임소프트, (주)디큐 전화번호 02-2193-1656
검수기관 비투엔 이메일 mjkim@saltlux.com
구축 데이터량 432만 구축년도 2020년
버전 1.2 최종수정일자 2021.11.22
소개 방언(강원도)을 사용하는 일상 대화를 인식, 음성을 문자로 바꾸어주는 방언 발화 음성 데이터
주요 키워드 지능형플랫폼 구축, AI 돌봄 서비스, 스마트 시티 데이터 허브, 스마트 팜, 방언 음성 데이터, 연령, 지역, 강원도
저작권 및 이용정책 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기]
데이터설명서 자료보기 구축활용가이드 자료보기
샘플데이터 다운로드 교육활용동영상 영상보기
저작도구 다운로드 AI모델 다운로드
※ 본 데이터에 포함된 이름, 주소, 전화번호, 상황 등은 모두 창작된 것으로 실제와 어떠한 관련이 없음을 알려드립니다.
데이터 변경이력
버전 일자 변경내용 비고
1.2 2021.11.22 데이터 품질 보완  
1.1 2021.09.09 데이터 품질 보완 및 추가 개방  
1.0 2021.06.30 데이터 최초 개방  
구축 목적
  • 강원도 방언 AI 학습데이터 구축 목적은 은 4차 산업혁명의 핵심 기술인 AI 기술의 주도적인 발전을 위하여, 대량의 AI 학습 데이터가 필요함, 인공지능 기반의 언어모델 개발은 표준어 데이터셋을 기반으로 개발이 되고 있으나 다양한 강원도 지역민과 연령의 구분없는 언어의 소통 학습을 위하여 지역 방언 중심의 AI 데이터셋을 구축하고 활용 할 수 있는 기반을 마련하는 것을 목적으로 함.
활용 분야
  • 강원도 방언 데이터는 언어 데이터의 특성 상 광법위한 산업군에서의 활용이 가능하며 인공지능 음성인식 플랫폼, 인공지능 대화 플랫폼 등에 주로 사용이 가능하며 관련된 제품 AI 스피커, 자율주행 차량, AI 기술 적용 가전제품등의 음성인식 기술이 적용되는 다양한 제품에 활용 가능.
소개
  • 강원도 방언을 사용하는 10대~60대의 일상 대화를 수집하여, 수집된 음성을 문자로 실시간 변환하고, 인공지능 학습이 가능한 JSON 형태의 학습 데이터 셋을 구축
소개 표
항목 내용
수집 대상 - 대상 (조용한 환경에서 발화한 성별, 연령별 적정 길이의 음성)
- 지역 (강원도지역)
- 환경 (실제 데이터셋의 활용도가 높고 자주 발생하는 산업 분야)
데이터 규모 - 각 구역별 2,000명 이상의 화자가 발화한 총 3,000시간 이상
- 표준어 텍스트 및 방언 특성을 고려하여 전사한 텍스트 50만건
데이터 형태 - 원본형태 (화자가 구분된 담화 텍스트 말뭉치)
- 학습용 데이터 형태 (방언 발화된 음성 데이터가 맵핑된 텍스트, 음성 데이터셋)
데이터 정제 - 화자의 환경과 상태 (분노, 기쁨 등)를 고려 - 원본 텍스트와 방언 텍스트의 맵핑 - 적절한 학습을 위해 입력 데이터의 길이
구축 내용 및 제공 데이터량
  • 조용한 환경에서 강원도 지역 2000명 이상의 10대 ~ 60대 의 연령별 화자가 발화한 3000 시간 이상의 음성 데이터와 맵핑 된 담화 텍스트 말뭉치 
  • 원본 방언 텍스트 및 방언에 대응하는 표준어 대응쌍을 포함하여 전사한 50 만건 이상 어절 데이터 셋 
  • 위의 내용이 메타 정보와 데이터화 되어 구성된 JSON 포맷의 학습 데이터 파일

 

구축 내용 및 제공 데이터량 표
과제명 데이터 구축량 데이터 형식
한국어 방언 발화 데이터 (강원도) - 조용한 환경에서 2,000명 이상의 화자가 발화한 성별, 연령별 적정 길이의 3,000시간 이상의 음성 데이터셋
- 원본 표준어 텍스트 및 방언 특성을 고려하여 그대로 전사한 텍스트 50만건
- 원본형태 :화자가 구분된 담화 텍스트 말뭉치
- 학습용 데이터 형태 : 방언 발화된 음성 데이터가 맵핑된 텍스트와 음성 데이터셋
대표도면
  • 강원도 방언 AI 학습 데이터는 메타정보에 데이터의 통합정보와 비식별화 된 화자의 속성정보를 포함하여 데이터의 활용성을 향상 

     

    한국어 방언 발화(강원도) 소개 이미지
  • 강원도 방언 AI 학습 데이터 구축을 위하여 수집한 방언을 일차적으로 지역적 방언의 특성을 살려 방언을 전사하고 표준에 규정에서 벗어나는 방언에 해당하는 부분에 대한 표준어 대응쌍을 제시하는 형태로 전사

     

    대표도면 표
    지역 보기
    강원 이게 (다나?)/(다니?)
    나도 이쪽 동네 (출신이래.)/(출신이야.)
    (이라)/(이렇게)
필요성
  • 다양한 공공 데이터들이 오픈되어 있지만, 언어 학습에 대한 데이터는 충분하지 않으며 표준어 중심의 데이터로 한정되어 있어 지역 방언을 중심으로 하는 다양한 형태의 데이터 셋 구축 필요
  • 방언을 주로 사용하는 고연령층의 정보 취약 계층을 위한 활용 가능한 한국어 방언 AI 학습 데이터 셋 구축 필요  
  • 인공지능 디지털 휴먼 및 음성 챗봇(콜봇) 등에 활용 가능한 지역민들의 언어소통 및 심층 질의응답과 관련된 고도화 된 AI 서비스용 학습데이터 구축 필요
데이터 구조
  • 데이터 구조 및 어노테이션 포맷
    데이터 Naming 표
    단계 수준 1 수준 2 수준 3 타입 필수값 여부 설명
    획득, 정제 id     string Y AI 학습데이터 파일 아이디 (수동부여)
    meta data     object   AI 학습데이터 파일 메타 정보
    title   string Y AI 학습데이터 파일 제목
    creator   string Y 구축자: 솔트룩스
    distributor   string   배포자: 솔트룩스
    year   string Y 구축년도: 2020
    category   string   분류: 구어 > 사적 대화 > 일상 대화
    annotation_level   string   분석 층위: 원시
    sampling   string   샘플링 방식: 본문 전체
    author   string   저작권자: 개인 발화자
    publisher   string   발행자: 개인 발화 녹음
    date   string Y 녹음일자: YYYYMMDD
    topic   string Y 대화 주제
    speaker     array(object)   화자 정보
    id   string Y 화자 아이디
    name   string   이름
    age   string Y 연령
    occupation   string Y 직업
    sex   string Y 성별
    birthplace   string Y 출생지
    principal_residence   string Y 주 성장지
    current_residence   string Y 현 거주지
    education   string Y 학력
    setting     object   환경 정보
    relation   string Y 화자 간 관계
    가공 utterance     array(object)   발화 정보
    id   string Y 발화 아이디
    form   string   방언 전사
    standard_form   string   표준어 대응쌍 부착
    dialect_form   string   방언 문장
    speaker_id   string   화자 아이디
    start   num Y 발화 시작 시간
    (소수점 2자리까지)
    end   num Y 발화 종료 시간
    (소수점 2자리까지)
    note   string   전사자 기타 메모
    eojeolList   array(object)   방언 어절 단위 정보
    id num Y  
    eojeol string   방언 어절
    standard string   표준어 어절
    isDialect boolean   방언 어절 여부

     

  • 실제 데이터의 구성 예시

     

    실제 데이터의 구성 예시 이미지
데이터셋 구축 담당자
수행기관(주관)
수행기관(주관)
기관명 책임자 전화번호 대표이메일 담당업무
솔트룩스 이경일 02-2193-1601 Tony@saltlux.com · 과제 총괄 관리 및 타세부 협력
· 온/오프라인 인력 모집 및 홍보
· AI 응용서비스 개발
· 음성 녹음 및 음성 데이터 전사
· 학습 데이터 구축
 · 1·2차 품질 검수
수행기관(참여)
수행기관(참여)
기관명 담당업무 기관명 담당업무
㈜비투엔 · 음성 및 텍스트 품질 관리도구 개발
· 품질 점검 및 TTA 인증
경북대학교산학협력단 · 데이터 구축 방법론 개발
주식회사 인피닉 · 음성 녹음 및 음성 데이터 전사
· 학습 데이터 구축
· 1차 품질 검수
㈜디큐 · 음성 녹음 및 음성 데이터 전사
· 학습 데이터 구축
· 1차 품질 검수
타임소프트 · 음성 녹음 및 음성 데이터 전사
· 학습 데이터 구축
· 1차 품질 검수