한국어 방언 발화(경상도) 소개
기본탭
데이터셋명 | 한국어 방언 발화(경상도) | |||
---|---|---|---|---|
데이터 분야 | 음성/자연어 | 데이터 유형 | 텍스트, 오디오 | |
구축기관 | 솔트룩스 | 데이터 관련 문의처 | 담당자명 | 김민종(솔트룩스) |
가공기관 | 소리자바,코아인포메이션 | 전화번호 | 02-2193-1656 | |
검수기관 | 비투엔 | 이메일 | mjkim@saltlux.com | |
구축 데이터량 | 432만 | 구축년도 | 2020년 | |
버전 | 1.2 | 최종수정일자 | 2021.11.22 | |
소개 | 방언(경상도)을 사용하는 일상 대화를 인식, 음성을 문자로 바꾸어주는 방언 발화 음성 데이터 | |||
주요 키워드 | 지능형플랫폼 구축, AI 돌봄 서비스, 스마트시티 데이터 허브, 스마트팜, 방언 음성 데이터, 연령, 지역, 경상도 | |||
저작권 및 이용정책 | 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기] | |||
데이터설명서 | 자료보기 | 구축활용가이드 | 자료보기 | |
샘플데이터 | 다운로드 | 교육활용동영상 | 영상보기 | |
저작도구 | 다운로드 | AI모델 | 다운로드 |
※ 본 데이터에 포함된 이름, 주소, 전화번호, 상황 등은 모두 창작된 것으로 실제와 어떠한 관련이 없음을 알려드립니다.
데이터 변경이력
버전 | 일자 | 변경내용 | 비고 |
---|---|---|---|
1.2 | 2021.11.22 | 데이터 품질 보완 | |
1.1 | 2021.09.09 | 데이터 품질 보완 및 추가 개방 | |
1.0 | 2021.06.30 | 데이터 최초 개방 |
구축 목적
- 경상도 방언 AI 학습데이터 구축 목적은 4차 산업혁명의 핵심 기술인 AI 기술의 주도적인 발전을 위하여, 대량의 AI 학습 데이터가 필요함, 인공지능 기반의 언어모델 개발은 표준어 데이터셋을 기반으로 개발이 되고 있으나 다양한 지역민과 연령의 구분없는 언어의 소통 학습을 위하여 지역 방언 중심의 AI 데이터셋을 구축하고 활용 할 수 있는 기반을 마련하는 것을 목적으로 함.
활용 분야
- 경상도 방언 AI 학습 데이터는 언어 데이터의 특성 상 광법위한 산업군에서의 활용이 가능하며 인공지능 음성인식 플랫폼, 인공지능 대화 플랫폼 등에 주로 사용이 가능하며 관련된 제품 AI 스피커, 자율주행 차량, AI 기술 적용 가전제품등의 음성인식 기술이 적용되는 다양한 제품에 활용 가능.
소개
- 경상도 방언을 사용하는 10대~60대의 일상 대화를 수집하여, 수집된 음성을 문자로 실시간 변환하고, 인공지능 학습이 가능한 JSON 형태의 학습 데이터 셋을 구축
항목 | 내용 |
---|---|
수집 대상 | - 대상 (조용한 환경에서 발화한 성별, 연령별 적정 길이의 음성) - 지역 (경상도지역) - 환경 (실제 데이터셋의 활용도가 높고 자주 발생하는 산업 분야) |
데이터 규모 | - 각 구역별 2,000명 이상의 화자가 발화한 총 3,000시간 이상 - 표준어 텍스트 및 방언 특성을 고려하여 전사한 텍스트 50만건 |
데이터 형태 | - 원본형태 (화자가 구분된 담화 텍스트 말뭉치) - 학습용 데이터 형태 (방언 발화된 음성 데이터가 맵핑된 텍스트, 음성 데이터셋) |
데이터 정제 | - 화자의 환경과 상태 (분노, 기쁨 등)를 고려 - 원본 텍스트와 방언 텍스트의 맵핑 - 적절한 학습을 위해 입력 데이터의 길이 |
구축 내용 및 제공 데이터량
- 조용한 환경에서 경상도 지역 2000명 이상의 10대 ~ 60대 의 연령별 화자가 발화한 3000 시간 이상의 음성 데이터와 맵핑 된 담화 텍스트 말뭉치
- 원본 방언 텍스트 및 방언에 대응하는 표준어 대응쌍을 포함하여 전사한 50 만건 이상 어절 데이터 셋
- 위의 내용이 메타 정보와 데이터화 되어 구성된 JSON 포맷의 학습 데이터 파일
과제명 | 데이터 구축량 | 데이터 형식 |
---|---|---|
한국어 방언 발화 데이터 (경상도) | - 조용한 환경에서 2,000명 이상의 화자가 발화한 성별, 연령별 적정 길이의 3,000시간 이상의 음성 데이터셋 - 원본 표준어 텍스트 및 방언 특성을 고려하여 그대로 전사한 텍스트 50만건 |
- 원본형태 :화자가 구분된 담화 텍스트 말뭉치 - 학습용 데이터 형태 : 방언 발화된 음성 데이터가 맵핑된 텍스트와 음성 데이터셋 |
대표도면
- 경상도 방언 AI 학습 데이터는 메타정보에 데이터의 통합정보와 비식별화 된 화자의 속성정보를 포함하여 데이터의 활용성을 향상
- 경상도 방언 AI 학습 데이터 구축을 위하여 수집한 방언을 일차적으로 지역적 방언의 특성을 살려 방언을 전사하고 표준에 규정에서 벗어나는 방언에 해당하는 부분에 대한 표준어 대응쌍을 제시하는 형태로 전사
대표도면 표 지역 보기 경상 어제 어디 (갔었노?)/(갔었니?)
미역 (쭐거리)/(줄기)
(단디)/(단단히)
필요성
- 다양한 공공 데이터들이 오픈되어 있지만, 언어 학습에 대한 데이터는 충분하지 않으며 표준어 중심의 데이터로 한정되어 있어 지역 방언을 중심으로 하는 다양한 형태의 데이터 셋 구축 필요
- 방언을 주로 사용하는 고연령층의 정보 취약 계층을 위한 활용 가능한 한국어 방언 AI 학습 데이터 셋 구축 필요
- 인공지능 디지털 휴먼 및 음성 챗봇(콜봇) 등에 활용 가능한 지역민들의 언어소통 및 심층 질의응답과 관련된 고도화 된 AI 서비스용 학습데이터 구축 필요
데이터 구조
- 데이터 구조 및 어노테이션 포맷
데이터 Naming 표 단계 수준 1 수준 2 수준 3 타입 필수값 여부 설명 획득, 정제 id string Y AI 학습데이터 파일 아이디 (수동부여) meta data object AI 학습데이터 파일 메타 정보 title string Y AI 학습데이터 파일 제목 creator string Y 구축자: 솔트룩스 distributor string 배포자: 솔트룩스 year string Y 구축년도: 2020 category string 분류: 구어 > 사적 대화 > 일상 대화 annotation_level string 분석 층위: 원시 sampling string 샘플링 방식: 본문 전체 author string 저작권자: 개인 발화자 publisher string 발행자: 개인 발화 녹음 date string Y 녹음일자: YYYYMMDD topic string Y 대화 주제 speaker array(object) 화자 정보 id string Y 화자 아이디 name string 이름 age string Y 연령 occupation string Y 직업 sex string Y 성별 birthplace string Y 출생지 principal_residence string Y 주 성장지 current_residence string Y 현 거주지 education string Y 학력 setting object 환경 정보 relation string Y 화자 간 관계 가공 utterance array(object) 발화 정보 id string Y 발화 아이디 form string 방언 전사 standard_form string 표준어 대응쌍 부착 dialect_form string 방언 문장 speaker_id string 화자 아이디 start num Y 발화 시작 시간
(소수점 2자리까지)end num Y 발화 종료 시간
(소수점 2자리까지)note string 전사자 기타 메모 eojeolList array(object) 방언 어절 단위 정보 id num Y eojeol string 방언 어절 standard string 표준어 어절 isDialect boolean 방언 어절 여부 - 실제 데이터의 구성 예시
데이터셋 구축 담당자
수행기관(주관)
기관명 | 책임자 | 전화번호 | 대표이메일 | 담당업무 |
---|---|---|---|---|
솔트룩스 | 이경일 | 02-2193-1601 | Tony@saltlux.com | · 과제 총괄 관리 및 타세부 협력 · 온/오프라인 인력 모집 및 홍보 · AI 응용서비스 개발 · 음성 녹음 및 음성 데이터 전사 · 학습 데이터 구축 · 1·2차 품질 검수 |
수행기관(참여)
기관명 | 담당업무 | 기관명 | 담당업무 |
---|---|---|---|
㈜비투엔 | · 음성 및 텍스트 품질 관리도구 개발 · 품질 점검 및 TTA 인증 |
경북대학교산학협력단 | · 데이터 구축 방법론 개발 |
소리자바 | · 음성 녹음 및 음성 데이터 전사 · 학습 데이터 구축 · 1차 품질 검수 |
코아인포메이션 | · 음성 녹음 및 음성 데이터 전사 · 학습 데이터 구축 · 1차 품질 검수 |