AI-Hub

한국어 방언 발화(제주도)

분야한국어
유형 오디오 , 텍스트

구축년도 : 2020 갱신년월 : 2021-11 조회수 : 15,010 다운로드 : 1,465 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용
1.2	2021-11-22	데이터 품질 보완
1.1	2021-09-09	데이터 품질 보완 및 추가 개방
1.0	2021-06-30	데이터 최초 개방

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2022-10-17	신규 샘플데이터 개방

소개

방언(제주도)을 사용하는 일상 대화를 인식, 음성을 문자로 바꾸어주는 방언 발화 음성 데이터

구축목적

제주도 방언 AI 학습데이터 구축 목적은 4차 산업혁명의 핵심 기술인 AI 기술의 주도적인 발전을 위하여, 대량의 AI 학습 데이터가 필요함, 인공지능 기반의 언어모델 개발은 표준어 데이터셋을 기반으로 개발이 되고 있으나 다양한 지역민과 연령의 구분없는 언어의 소통 학습을 위하여 지역 방언 중심의 AI 데이터셋을 구축하고 활용 할 수 있는 기반을 마련하는 것을 목적으로 함.

메타데이터 구조표
데이터 영역	한국어	데이터 유형	오디오 , 텍스트
데이터 형식		데이터 출처
라벨링 유형		라벨링 형식
데이터 활용 서비스		데이터 구축년도/ 데이터 구축량	2020년/432만

구축 내용 및 제공 데이터량

조용한 환경에서 제주도 지역 2000명 이상의 10대 ~ 60대 의 연령별 화자가 발화한 3000 시간 이상의 음성 데이터와 맵핑 된 담화 텍스트 말뭉치
원본 방언 텍스트 및 방언에 대응하는 표준어 대응쌍을 포함하여 전사한 50 만건 이상 어절 데이터 셋
위의 내용이 메타 정보와 데이터화 되어 구성된 JSON 포맷의 학습 데이터 파일

구축 내용 및 제공 데이터량 표
과제명	데이터 구축량	데이터 형식
한국어 방언 발화 데이터 (제주도)	- 조용한 환경에서 2,000명 이상의 화자가 발화한 성별, 연령별 적정 길이의 3,000시간 이상의 음성 데이터셋 - 원본 표준어 텍스트 및 방언 특성을 고려하여 그대로 전사한 텍스트 50만건	- 원본형태 :화자가 구분된 담화 텍스트 말뭉치 - 학습용 데이터 형태 : 방언 발화된 음성 데이터가 맵핑된 텍스트와 음성 데이터셋

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드
AI 모델 상세 설명서 다운로드
AI 모델 다운로드

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	기계번역 모델번역 품질	Machine Translation	Transformer(Encoder-Decoder 모델 기반)	BLEU	0.7 점	0.7879 점
2	일상 대화 모델대화 품질	Text Generation	Transformer(Open AI, GPT2 모델 기반)	Perplexity	25 %	21.94 %

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

※ 본 데이터에 포함된 이름, 주소, 전화번호, 상황 등은 모두 창작된 것으로 실제와 어떠한 관련이 없음을 알려드립니다.

데이터 변경이력

데이터 변경이력
버전	일자	변경내용
1.2	2021.11.22	데이터 품질 보완
1.1	2021.09.09	데이터 품질 보완 및 추가 개방
1.0	2021.06.30	데이터 최초 개방

구축 목적

제주도 방언 AI 학습데이터 구축 목적은 4차 산업혁명의 핵심 기술인 AI 기술의 주도적인 발전을 위하여, 대량의 AI 학습 데이터가 필요함, 인공지능 기반의 언어모델 개발은 표준어 데이터셋을 기반으로 개발이 되고 있으나 다양한 지역민과 연령의 구분없는 언어의 소통 학습을 위하여 지역 방언 중심의 AI 데이터셋을 구축하고 활용 할 수 있는 기반을 마련하는 것을 목적으로 함.

활용 분야

제주도 방언 AI 학습 데이터는 언어 데이터의 특성 상 광법위한 산업군에서의 활용이 가능하며 인공지능 음성인식 플랫폼, 인공지능 대화 플랫폼 등에 주로 사용이 가능하며 관련된 제품 AI 스피커, 자율주행 차량, AI 기술 적용 가전제품등의 음성인식 기술이 적용되는 다양한 제품에 활용 가능.

소개

제주도 방언을 사용하는 10대~60대의 일상 대화를 수집하여, 수집된 음성을 문자로 실시간 변환하고, 인공지능 학습이 가능한 JSON 형태의 학습 데이터 셋을 구축

소개 표
항목	내용
수집 대상	- 대상 (조용한 환경에서 발화한 성별, 연령별 적정 길이의 음성) - 지역 (제주도 지역) - 환경 (실제 데이터셋의 활용도가 높고 자주 발생하는 산업 분야)
데이터 규모	- 각 구역별 2,000명 이상의 화자가 발화한 총 3,000시간 이상 - 표준어 텍스트 및 방언 특성을 고려하여 전사한 텍스트 50만건
데이터 형태	- 원본형태 (화자가 구분된 담화 텍스트 말뭉치) - 학습용 데이터 형태 (방언 발화된 음성 데이터가 맵핑된 텍스트, 음성 데이터셋)
데이터 정제	- 화자의 환경과 상태 (분노, 기쁨 등)를 고려 - 원본 텍스트와 방언 텍스트의 맵핑 - 적절한 학습을 위해 입력 데이터의 길이

구축 내용 및 제공 데이터량

조용한 환경에서 제주도 지역 2000명 이상의 10대 ~ 60대 의 연령별 화자가 발화한 3000 시간 이상의 음성 데이터와 맵핑 된 담화 텍스트 말뭉치
원본 방언 텍스트 및 방언에 대응하는 표준어 대응쌍을 포함하여 전사한 50 만건 이상 어절 데이터 셋
위의 내용이 메타 정보와 데이터화 되어 구성된 JSON 포맷의 학습 데이터 파일

구축 내용 및 제공 데이터량 표
과제명	데이터 구축량	데이터 형식
한국어 방언 발화 데이터 (제주도)	- 조용한 환경에서 2,000명 이상의 화자가 발화한 성별, 연령별 적정 길이의 3,000시간 이상의 음성 데이터셋 - 원본 표준어 텍스트 및 방언 특성을 고려하여 그대로 전사한 텍스트 50만건	- 원본형태 :화자가 구분된 담화 텍스트 말뭉치 - 학습용 데이터 형태 : 방언 발화된 음성 데이터가 맵핑된 텍스트와 음성 데이터셋

대표도면

제주도 방언 AI 학습 데이터는 메타정보에 데이터의 통합정보와 비식별화 된 화자의 속성정보를 포함하여 데이터의 활용성을 향상

제주도 방언 AI 학습 데이터 구축을 위하여 수집한 방언을 일차적으로 지역적 방언의 특성을 살려 방언을 전사하고 표준에 규정에서 벗어나는 방언에 해당하는 부분에 대한 표준어 대응쌍을 제시하는 형태로 전사

대표도면 표
지역	보기
제주	아까 (집드레)/(집으로) (가라.)/(가더라.) 너 (하구정 한)/(하고 싶은) 대로 (하라.)/(해라.) (아매나)/(아무렇게나)

필요성

다양한 공공 데이터들이 오픈되어 있지만, 언어 학습에 대한 데이터는 충분하지 않으며 표준어 중심의 데이터로 한정되어 있어 지역 방언을 중심으로 하는 다양한 형태의 데이터 셋 구축 필요
방언을 주로 사용하는 고연령층의 정보 취약 계층을 위한 활용 가능한 한국어 방언 AI 학습 데이터 셋 구축 필요
인공지능 디지털 휴먼 및 음성 챗봇(콜봇) 등에 활용 가능한 지역민들의 언어소통 및 심층 질의응답과 관련된 고도화 된 AI 서비스용 학습데이터 구축 필요

데이터 구조

데이터 구조 및 어노테이션 포맷

데이터 Naming 표
단계	수준 1	수준 2	수준 3	타입	필수값 여부	설명
획득, 정제	id			string	Y	AI 학습데이터 파일 아이디 (수동부여)
	meta data			object		AI 학습데이터 파일 메타 정보
		title		string	Y	AI 학습데이터 파일 제목
		creator		string	Y	구축자: 솔트룩스
		distributor		string		배포자: 솔트룩스
		year		string	Y	구축년도: 2020
		category		string		분류: 구어 > 사적 대화 > 일상 대화
		annotation_level		string		분석 층위: 원시
		sampling		string		샘플링 방식: 본문 전체
		author		string		저작권자: 개인 발화자
		publisher		string		발행자: 개인 발화 녹음
		date		string	Y	녹음일자: YYYYMMDD
		topic		string	Y	대화 주제
	speaker			array(object)		화자 정보
		id		string	Y	화자 아이디
		name		string		이름
		age		string	Y	연령
		occupation		string	Y	직업
		sex		string	Y	성별
		birthplace		string	Y	출생지
		principal_residence		string	Y	주 성장지
		current_residence		string	Y	현 거주지
		education		string	Y	학력
	setting			object		환경 정보
	setting	relation		string	Y	화자 간 관계
가공	utterance			array(object)		발화 정보
		id		string	Y	발화 아이디
		form		string		방언 전사
		standard_form		string		표준어 대응쌍 부착
		dialect_form		string		방언 문장
		speaker_id		string		화자 아이디
		start		num	Y	발화 시작 시간 (소수점 2자리까지)
		end		num	Y	발화 종료 시간 (소수점 2자리까지)
		note		string		전사자 기타 메모
		eojeolList		array(object)		방언 어절 단위 정보
			id	num	Y
			eojeol	string		방언 어절
			standard	string		표준어 어절
			isDialect	boolean		방언 어절 여부

실제 데이터의 구성 예시

데이터셋 구축 담당자

수행기관(주관) : 솔트룩스

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
이경일	02-2193-1601	Tony@saltlux.com	· 과제 총괄 관리 및 타세부 협력 · 온/오프라인 인력 모집 및 홍보 · AI 응용서비스 개발 · 음성 녹음 및 음성 데이터 전사 · 학습 데이터 구축 · 1·2차 품질 검수

수행기관(참여)

수행기관(참여)
기관명	담당업무
㈜비투엔	· 음성 및 텍스트 품질 관리도구 개발 · 품질 점검 및 TTA 인증
이스트소프트	· 음성 녹음 및 음성 데이터 전사 · 학습 데이터 구축 · 1차 품질 검수
㈜데이터메이커	· 음성 녹음 및 음성 데이터 전사 · 학습 데이터 구축 · 1차 품질 검수
경북대학교산학협력단	· 데이터 구축 방법론 개발
사람과숲	· 음성 녹음 및 음성 데이터 전사 · 학습 데이터 구축 · 1차 품질 검수
제주국제도시자유개발센터	· 음성 녹음 및 음성 데이터 전사 · 학습 데이터 구축 · 1차 품질 검수

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
김민종(솔트룩스)	02-2193-1656	mjkim@saltlux.com

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

파일 목록

전체 다운로드 AI 허브 Shell 다운로드 AI 허브 오픈 API 이용안내

오프라인 데이터 이용 안내

본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.

K-ICT 빅데이터센터는 데이터 안심구역으로 지정되어
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.

데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

K-ICT 빅데이터센터 이동

연관 데이터

한-영 및 한-중 음성발화 데이터

전문분야(기술과학) 한국어 멀티세션 데이터

한국어 아동 음성 데이터

행정 문서 대상 기계독해 데이터

어린이 음성 맥락 인식률 향상을 위한 방송 음성 및 자연어 처리 학습용 데이터

페르소나 대화

주제별 텍스트 일상 대화 데이터

지식그래프-투-텍스트 데이터

한국어 방언 발화(제주도)

데이터 개요

데이터 변경이력

데이터 히스토리

소개

구축목적

메타데이터 구조표

데이터 통계

교육활용 동영상

저작도구

저작도구 설명서 및 저작도구 다운로드

활용 AI 모델 및 코드

AI 모델 상세 설명서 다운로드

데이터 성능 지표

데이터 성능 점수

데이터 성능 지표

어노테이션 포맷 및 데이터 구조

설명서 및 활용가이드 다운로드

구축 업체

데이터셋 구축 담당자

수행기관(주관) : 솔트룩스

수행기관(참여)

데이터 관련 문의처

안심존 소개

안심존 이용절차

안심존사용신청서 및 첨부서류목록

안심존 이용문의

파일 목록

오프라인 데이터 이용 안내

연관 데이터