한국어 방언 발화(충청도)
- 분야한국어
- 유형 오디오 , 텍스트
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.4 2023-09-21 라벨링데이터 수정 1.3 2023-03-22 원천데이터 수정 1.2 2021-11-22 데이터 품질 보완 1.1 2021-09-09 데이터 품질 보완 및 추가 개방 1.0 2021-06-30 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2022-10-17 신규 샘플데이터 개방 소개
방언(충청도)을 사용하는 일상 대화를 인식, 음성을 문자로 바꾸어주는 방언 발화 음성 데이터
구축목적
충청도 방언 AI 학습데이터 구축 목적은 4차 산업혁명의 핵심 기술인 AI 기술의 주도적인 발전을 위하여, 대량의 AI 학습 데이터가 필요함, 인공지능 기반의 언어모델 개발은 표준어 데이터셋을 기반으로 개발이 되고 있으나 다양한 지역민과 연령의 구분없는 언어의 소통 학습을 위하여 지역 방언 중심의 AI 데이터셋을 구축하고 활용 할 수 있는 기반을 마련하는 것을 목적으로 함.
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 오디오 , 텍스트 데이터 형식 데이터 출처 라벨링 유형 라벨링 형식 데이터 활용 서비스 데이터 구축년도/
데이터 구축량2020년/432만 -
구축 내용 및 제공 데이터량
- 조용한 환경에서 충청도 지역 2000명 이상의 10대 ~ 60대 의 연령별 화자가 발화한 3000 시간 이상의 음성 데이터와 맵핑 된 담화 텍스트 말뭉치
- 원본 방언 텍스트 및 방언에 대응하는 표준어 대응쌍을 포함하여 전사한 50 만건 이상 어절 데이터 셋
- 위의 내용이 메타 정보와 데이터화 되어 구성된 JSON 포맷의 학습 데이터 파일
구축 내용 및 제공 데이터량 표 과제명 데이터 구축량 데이터 형식 한국어 방언 발화 데이터 (충청도) - 조용한 환경에서 2,000명 이상의 화자가 발화한 성별, 연령별 적정 길이의 3,000시간 이상의 음성 데이터셋
- 원본 표준어 텍스트 및 방언 특성을 고려하여 그대로 전사한 텍스트 50만건- 원본형태 :화자가 구분된 담화 텍스트 말뭉치
- 학습용 데이터 형태 : 방언 발화된 음성 데이터가 맵핑된 텍스트와 음성 데이터셋 -
-
AI 모델 상세 설명서 다운로드
AI 모델 다운로드 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 기계번역 모델번역 품질 Machine Translation Transformer(Encoder-Decoder 모델 기반) BLEU 0.7 점 0.8981 점 2 학습 성능 오류율 Speech Recognition Conformer(CTC/Attention 모델 기반) CER 12 % 5.59 % 3 일상 대화 모델대화 품질 Text Generation Transformer(Open AI, GPT2 모델 기반) Perplexity 25 % 24 % 4 학습 성능 오류율 Speech Recognition Conformer(CTC/Attention 모델 기반) WER 24 % 13.72 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드※ 본 데이터에 포함된 이름, 주소, 전화번호, 상황 등은 모두 창작된 것으로 실제와 어떠한 관련이 없음을 알려드립니다.
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.2 2021.11.22 데이터 품질 보완 1.1 2021.09.09 데이터 품질 보완 및 추가 개방 1.0 2021.06.30 데이터 최초 개방 구축 목적
- 충청도 방언 AI 학습데이터 구축 목적은 4차 산업혁명의 핵심 기술인 AI 기술의 주도적인 발전을 위하여, 대량의 AI 학습 데이터가 필요함, 인공지능 기반의 언어모델 개발은 표준어 데이터셋을 기반으로 개발이 되고 있으나 다양한 지역민과 연령의 구분없는 언어의 소통 학습을 위하여 지역 방언 중심의 AI 데이터셋을 구축하고 활용 할 수 있는 기반을 마련하는 것을 목적으로 함.
활용 분야
- 충청도 방언 AI 학습 데이터는 언어 데이터의 특성 상 광법위한 산업군에서의 활용이 가능하며 인공지능 음성인식 플랫폼, 인공지능 대화 플랫폼 등에 주로 사용이 가능하며 관련된 제품 AI 스피커, 자율주행 차량, AI 기술 적용 가전제품등의 음성인식 기술이 적용되는 다양한 제품에 활용 가능.
소개
- 충청도 방언을 사용하는 10대~60대의 일상 대화를 수집하여, 수집된 음성을 문자로 실시간 변환하고, 인공지능 학습이 가능한 JSON 형태의 학습 데이터 셋을 구축
소개 표 항목 내용 수집 대상 - 대상 (조용한 환경에서 발화한 성별, 연령별 적정 길이의 음성)
- 지역 (충청도 지역)
- 환경 (실제 데이터셋의 활용도가 높고 자주 발생하는 산업 분야)데이터 규모 - 각 구역별 2,000명 이상의 화자가 발화한 총 3,000시간 이상
- 표준어 텍스트 및 방언 특성을 고려하여 전사한 텍스트 50만건데이터 형태 - 원본형태 (화자가 구분된 담화 텍스트 말뭉치)
- 학습용 데이터 형태 (방언 발화된 음성 데이터가 맵핑된 텍스트, 음성 데이터셋)데이터 정제 - 화자의 환경과 상태 (분노, 기쁨 등)를 고려 - 원본 텍스트와 방언 텍스트의 맵핑 - 적절한 학습을 위해 입력 데이터의 길이 구축 내용 및 제공 데이터량
- 조용한 환경에서 충청도 지역 2000명 이상의 10대 ~ 60대 의 연령별 화자가 발화한 3000 시간 이상의 음성 데이터와 맵핑 된 담화 텍스트 말뭉치
- 원본 방언 텍스트 및 방언에 대응하는 표준어 대응쌍을 포함하여 전사한 50 만건 이상 어절 데이터 셋
- 위의 내용이 메타 정보와 데이터화 되어 구성된 JSON 포맷의 학습 데이터 파일
구축 내용 및 제공 데이터량 표 과제명 데이터 구축량 데이터 형식 한국어 방언 발화 데이터 (충청도) - 조용한 환경에서 2,000명 이상의 화자가 발화한 성별, 연령별 적정 길이의 3,000시간 이상의 음성 데이터셋
- 원본 표준어 텍스트 및 방언 특성을 고려하여 그대로 전사한 텍스트 50만건- 원본형태 :화자가 구분된 담화 텍스트 말뭉치
- 학습용 데이터 형태 : 방언 발화된 음성 데이터가 맵핑된 텍스트와 음성 데이터셋대표도면
- 충청도 방언 AI 학습 데이터는 메타정보에 데이터의 통합정보와 비식별화 된 화자의 속성정보를 포함하여 데이터의 활용성을 향상
- 충청도 방언 AI 학습 데이터 구축을 위하여 수집한 방언을 일차적으로 지역적 방언의 특성을 살려 방언을 전사하고 표준에 규정에서 벗어나는 방언에 해당하는 부분에 대한 표준어 대응쌍을 제시하는 형태로 전사
대표도면 표 지역 보기 충청 동네 사람들은 (워떡헌댜?)/(어떡한대?)
가만히 (두덜)/(두질) (못햐.)/(못해.)
(그려.)/(그래.)
필요성
- 다양한 공공 데이터들이 오픈되어 있지만, 언어 학습에 대한 데이터는 충분하지 않으며 표준어 중심의 데이터로 한정되어 있어 지역 방언을 중심으로 하는 다양한 형태의 데이터 셋 구축 필요
- 방언을 주로 사용하는 고연령층의 정보 취약 계층을 위한 활용 가능한 한국어 방언 AI 학습 데이터 셋 구축 필요
- 인공지능 디지털 휴먼 및 음성 챗봇(콜봇) 등에 활용 가능한 지역민들의 언어소통 및 심층 질의응답과 관련된 고도화 된 AI 서비스용 학습데이터 구축 필요
데이터 구조
- 데이터 구조 및 어노테이션 포맷
데이터 Naming 표 단계 수준 1 수준 2 수준 3 타입 필수값 여부 설명 획득, 정제 id string Y AI 학습데이터 파일 아이디 (수동부여) meta data object AI 학습데이터 파일 메타 정보 title string Y AI 학습데이터 파일 제목 creator string Y 구축자: 솔트룩스 distributor string 배포자: 솔트룩스 year string Y 구축년도: 2020 category string 분류: 구어 > 사적 대화 > 일상 대화 annotation_level string 분석 층위: 원시 sampling string 샘플링 방식: 본문 전체 author string 저작권자: 개인 발화자 publisher string 발행자: 개인 발화 녹음 date string Y 녹음일자: YYYYMMDD topic string Y 대화 주제 speaker array(object) 화자 정보 id string Y 화자 아이디 name string 이름 age string Y 연령 occupation string Y 직업 sex string Y 성별 birthplace string Y 출생지 principal_residence string Y 주 성장지 current_residence string Y 현 거주지 education string Y 학력 setting object 환경 정보 relation string Y 화자 간 관계 가공 utterance array(object) 발화 정보 id string Y 발화 아이디 form string 방언 전사 standard_form string 표준어 대응쌍 부착 dialect_form string 방언 문장 speaker_id string 화자 아이디 start num Y 발화 시작 시간
(소수점 2자리까지)end num Y 발화 종료 시간
(소수점 2자리까지)note string 전사자 기타 메모 eojeolList array(object) 방언 어절 단위 정보 id num Y eojeol string 방언 어절 standard string 표준어 어절 isDialect boolean 방언 어절 여부 - 실제 데이터의 구성 예시
-
데이터셋 구축 담당자
수행기관(주관) : 솔트룩스
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 이경일 02-2193-1601 Tony@saltlux.com · 과제 총괄 관리 및 타세부 협력 · 온/오프라인 인력 모집 및 홍보 · AI 응용서비스 개발 · 음성 녹음 및 음성 데이터 전사 · 학습 데이터 구축 · 1·2차 품질 검수 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜비투엔 · 음성 및 텍스트 품질 관리도구 개발
· 품질 점검 및 TTA 인증디그랩 · 음성 녹음 및 음성 데이터 전사
· 학습 데이터 구축
· 1차 품질 검수엑소텍 · 음성 녹음 및 음성 데이터 전사
· 학습 데이터 구축
· 1차 품질 검수경북대학교산학협력단 · 데이터 구축 방법론 개발 나라지식정보 · 음성 녹음 및 음성 데이터 전사
· 학습 데이터 구축
· 1차 품질 검수데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김민종(솔트룩스) 02-2193-1656 mjkim@saltlux.com
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.