AI-Hub

#외국인 # 한국어 # 음성데이터 # 자동평가 # 말하기 # 발음 # 오류 # 발음오류 원인 레이블링 # 철자전사 # 발음전사 # 교육 # 평가

교육용 중·일어 모국어 사용자의 한국어 음성 데이터

분야교육
유형 오디오

구축년도 : 2022 갱신년월 : 2023-11 조회수 : 63,690 다운로드 : 130 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용
1.2	2023-11-21	데이터 추가 개방
1.1	2023-11-03	데이터 최종 개방
1.0	2023-07-31	데이터 개방(Beta Version)

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2025-05-08	구축업체정보수정
2023-12-08	산출물 전체 공개
2023-11-03	데이터 설명서, 구축가이드, 교육동영상 공개
2023-09-14	메타데이터(데이터구축량) 수정

소개

● 인공지능 학습용 중일어 사용자의 한국어 음성 데이터 수집 및 가공
● 발음 및 말하기 교육과 평가에 활용할 수 있는 인공지능 프로그램 개발에 실질적으로 도움을 줄 수 있는 고품질의 음성데이터 수집 및 가공

구축목적

● 인공지능 학습용 데이터 구축
● 인공지능 기반 한국어 교육 및 평가용 서비스 모델 개발 및 실증
● 인공지능 데이터 생태계 조성

메타데이터 구조표
데이터 영역	교육	데이터 유형	오디오
데이터 형식	WAV	데이터 출처	자체 수집
라벨링 유형	전사(음성), 오류태깅(음성), 평가(음성)	라벨링 형식	JSON
데이터 활용 서비스	한국어 말하기 교육 및 평가용 자동채점 시스템 개발, 발음 피드백이 가능한 프로그램 개발	데이터 구축년도/ 데이터 구축량	2022년/1,006.2시간

발화자별 발화 시간(다양성 통계)

발화 오류 유형(다양성 통계)

한국어 학습 기간(다양성 통계)

한국 거주 기간(다양성 통계)

한국어 학습 목표(다양성 통계)

한국어 학습 방법(다양성 통계)

발화자 학력(다양성 통계)

평가별 점수 분포(다양성 통계)

유형별 텍스트 길이(다양성 통계)

성별(다양성 통계)

과제 유형(다양성 요건)

화자 출신지역(다양성 요건)

발화자 연령(다양성 요건)

발화자 수준(다양성 요건)
저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드

◯ 음성데이터 활용에 최적화한 Wavegram-Logmel-CNN, ResNet, Trident ResNet 등 활용AI모델을 제시합니다.

① 한국어 말하기 내용과 언어사용을 평가하는 말하기 내용 및 언어사용 평가 모델
② 음성인식 오류율에 기반하여 전달력을 평가하는 말하기 전달력 평가 모델
③ 문장 구사 실력에 대한 숙달도 평가 모델
④ 개별적인 소리가 맞는 발음인지 틀린 발음인지를 판단하는 개별 발음 평가 모델
⑤ 숙련도, 이해가능도, 유창성에 대하여 발음을 평가하는 발음평가 모델

◯ 응용서비스에서는 지능형 한국어 발음·말하기 자동평가 시스템개발을 지원합니다.
① 외국인의 한국어 발음 자동 채점 서비스
② 한국어 시험의 말하기 영역 자동 채점 서비스
③ 발음 및 운율의 정확성과 자연스러움에 대한 평가 서비스
④ 대화 기반 표현력, 구성력, 내용 적절성 평가 서비스

◯ 수요주체와의 긴밀한 네트워크를 통해 응용서비스 개발과 데이터 즉시 활용
① 주관 및 참여기관: 엔에스데블과 서울대 언어교육원의 지능형 평가플랫폼 개발시 AI 자동채점 활용, 네이버클로바 기능 고도화
② 예상 수요기관(기업): 한글과 컴퓨터, 글로벌 챗봇 심심이, 보이스웨어, 이드웨어, 스마트미디어테크, 휴먼미디어테크, 브이에스웍스 등
③ 예상 수요기관(공공): 교육부 국립국제교육원 TOPIK 시험, 한국전자통신연구원(ETRI) 등

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	한국어 말하기 전달력 평가 음성인식 정확도	Speech Recognition	Conformer-CTC small	CER	12 %	11.41 %
2	한국어 발음 평가 정확도	Audio Classification	Wav2vec2.0	Correlation(Pearson)	0.6 단위없음	0.85 단위없음
3	한국어 발음 평가 정확도	Audio Classification	Wav2vec2.0	F1-Score	0.7 점	0.9545 점
4	한국어 말하기 내용, 언어사용 평가 정확도	Action Recognition	LSTM	QWK	0.55 단위없음	0.85 단위없음
5	한국어 말하기 능숙도 평가 분류 정확도	Audio Classification	KcELECTRA	Weighted Classification Error	30 %	9.39 %

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

◯ 데이터 포맷

(원천 음성데이터)
- 발화 앞·뒤 500~1000ms의 묵음이 들어간 단어 단위, 문장 단위, 문단 단위, 전체 스토리 단위의 PCM 형식의 영어 모어 화자의 한국어 음성데이터
- 원시 음성데이터는 CD 품질(16비트, 44.1kHz 샘플링레이트)로 녹음하고, 발화자의 문항별로 wav 파일의 음성 파일명 부여 원칙에 입각하여 저장

(발화자 메타데이터)
- 녹음 진행 전 부여받은 계정을 통해 워크벤치 내 발화자 메타데이터를 입력하여 Json 형식으로 저장

(말하기 전사 라벨링 데이터)
- 말하기 교육 및 평가용 음성데이터의 발음오류가 그대로 드러나는 수동 발음전사 데이터(JSON)

(발음오류 태깅 라벨링 데이터)
- 발음 교육 및 평가용 음성데이터와 대응되는 음절 및 음소 열의 정보와 발음오류에 대한 태깅 데이터(JSON, TextGrid)

(말하기/발음 평가 라벨링 데이터)
- 데이터 건당 음성 & 전사 데이터와 매치되는 발음 및 말하기 레벨 스코어링 평가 결과(JSON)

◯ 데이터 포맷
분류	구분	파일포맷	샘플링	비트	채널	비고
분류	구분	파일포맷	레이트	비트	채널	비고
원시/원천 데이터	음원	wav	44.1KHz	16bit	Mono	-
학습 데이터	메타정보	json	-	-	-
학습 데이터	오류태깅	TextGrid	-	-	-	-

◯ 데이터 구성
발음문항

◯ 데이터 구성 발음문항
Key	Description	Type
UserID	발화자ID 5자리	string
SpeakerMetadata	발화자 메타정보	object
birth_year	생년(00~99)	string
gender	성별(F, M, O)	string
nationality	국적	string
language	모국어	string
proficiency	한국어 능숙도("Beginner", "Intermediate", "Advance", "Fluent")	string
topik_score	토픽점수(0~300)	number
topik_level	토픽등급(0~6)	number
education	최종학력("High School Diploma", "College Diploma", "Technical Diploma", "Bachelor’s Degree", "Master’s Degree", "Doctorate Degree", "Other")	string
learning_period	학습방법	string
korea_residency	한국거주 기간 (단위 년)	string
purpose	한국어 학습 목적	string
learning_method	학습방법	string
recording_level	문항세트 등급("Beginner", "Advanced")	string
sound_id	녹음 파일 ID 7자리	string
RecordingMetadata	녹음메타 정보	object
task_create	녹음시작 시간(YYYY-MM-DD HH:MM:SS)	string
task_end	녹음종료 시간(YYYY-MM-DD HH:MM:SS)	string
RecordedTime	녹음된 시간(단위 초)	number
sound_environment	녹음 환경("on-line", "off-line")	string
prompt	발음 문항 낭독 지문	string
phonemic	발음 문항 음소열 전사 결과	object
words	단어열 정보	array
word	단어	string
start	시작시간(단위 초)	number
end	종료시간(단위 초)	number
phones	음소열 정보	array
phone	음소	string
start	시작시간(단위 초)	number
end	종료시간(단위 초)	number
error_tags	태깅정보	array
tag	태깅	string
start	시작시간(단위 초)	number
end	종료시간(단위 초)	number
EvaluationMetadata	평가메타 정보	object
PronunProfEval	발음숙련도 평가점수(1~5점)	number
FluencyEval	유창성 평가점수(1~5점)	number
ComprehendEval	이해가능도 평가점수(1~5점)	number
TaggingMetadata	발음 오류태깅 메타데이터	object
file_type	오류태깅 정보가 담긴 파일 유형	string
filename	오류태깅 정보 TextGrid 파일 명	string

말하기 문항

◯ 데이터 구성 말하기 문항
Key	Description	Type
UserID	발화자ID 5자리	string
SpeakerMetadata	발화자 메타정보	object
birth_year	생년(00~99)	string
gender	성별(F, M, O)	string
nationality	국적	string
language	모국어	string
proficiency	한국어 능숙도("Beginner", "Intermediate", "Advance", "Fluent")	string
topik_score	토픽점수(0~300)	number
topik_level	토픽등급(0~6)	number
education	최종학력("High School Diploma", "College Diploma", "Technical Diploma", "Bachelor’s Degree", "Master’s Degree", "Doctorate Degree", "Other")	string
learning_period	학습방법	string
korea_residency	한국거주 기간 (단위 년)	string
purpose	한국어 학습 목적	string
learning_method	학습방법	string
recording_level	문항세트 등급("Beginner", "Advanced")	string
sound_id	녹음 파일 ID 7자리	string
RecordingMetadata	녹음메타 정보	object
task_create	녹음시작 시간(YYYY-MM-DD HH:MM:SS)	string
task_end	녹음종료 시간(YYYY-MM-DD HH:MM:SS)	string
RecordedTime	녹음된 시간(단위 초)	number
sound_environment	녹음 환경("on-line", "off-line")	string
prompt	문항 제시문	string
orthographic	말하기문항 철자 전사 결과	string
EvaluationMetadata	말하기 평가 메타정보	object
DeliveryEval	전달력 평가점수(0~5점)	number
LanguageUseEval	연어사용 평가 점수(0~5점)	number
ContentEval	내용 평가점수(0~5점)	number

◯ 어노테이션 데이터 포맷
발음문항

◯ 어노테이션 데이터 포맷 발음문항
구분				속성명	타입	필수여부	설명	범위	비고
1				UserID	string	Y	발화자 ID	5자리 숫자
2				SpeakerMetadata	object	Y	발화자 메타데이터
	2-1			birth_year	string	Y	출생년	00~99
	2-2			gender	string	Y	성별	"M", "F", "O"
	2-3			nationality	string	Y	국적
	2-4			language	string	Y	모국어	[별첨1. 언어별_권역_분류.xlsx] 참조
	2-5			proficiency	string	Y	한국어 능숙도	"Beginner", "Intermediate", "Advance", "Fluent"
	2-6			topik_score	number	Y	TOPIK 점수	0~300
	2-7			topik_level	number	Y	TOPIK 등급	0~6
	2-8			education	string	Y	최종학력	"High School Diploma", "College Diploma", "Technical Diploma", "Bachelor’s Degree", "Master’s Degree", "Doctorate Degree", "Other"
	2-9			learning_period	string	Y	한국어 학습기간	0~99	단위: 년
	2-10			korea_residency	string	Y	한국거주 기간	0~99	단위: 년
	2-11			purpose	string	Y	한국어 학습 목적
	2-12			learning_method	string	Y	한국어 학습 방법
	2-13			recording_level	string	Y	녹음 문항 수준	“Beginner”, “Advanced”
3				sound_id	string	Y	녹음 파일 ID	7자리 숫자
4				RecordingMetadata	object	Y	녹음 메타데이터
	4-1			task_create	string	Y	녹음 시작시간
	4-2			task_end	string	Y	녹음 종료시간
	4-3			RecordedTime	number	Y	녹음파일 시간		단위:초
	4-4			sound_environment	string	Y	녹음환경	"online", "offline"
	4-5			prompt	string	Y	발음문항 낭독 지문
	4-6			Phonemic	object	Y	발음문항 음소열
	4-6			Phonemic	object	Y	전사 결과
		4-6-1		words	array	Y	단어열 정보
			1	word	string	Y	단어
			2	start	number	Y	단어 시작시간
			3	end	number	Y	단어 종료시간
		4-6-2		phones	array	Y	음소열 정보
			1	phone	string	Y	음소
			2	start	number	Y	음소 시작시간
			3	end	number	Y	음소 종료시간
		4-6-3		error_tags	array	Y	음소열 정보
			1	tag	string	N	음소
			2	start	number	N	음소 시작시간
			3	end	number	N	음소 종료시간
5				EvaluationMetadata	object	Y	평가 메타데이터
	5-1			PronunProfEval	number	Y	발음숙련도 평가점수
	5-2			FluencyEval	number	Y	유창성 평가점수
	5-3			ComprehendEval	number	Y	이해가능도 평가점수
6				TaggingMetadata	object	Y	발음 오류태깅 메타데이터
	6-1			File_type	string	Y	오류태깅 정보가 담긴 파일 유형
	6-2			Filename	string	Y	오류태깅 정보 TextGrid 파일 명

말하기 문항

◯ 어노테이션 데이터 포맷 말하기 문항
구분		속성명	타입	필수여부	설명	범위	비고
1		UserID	string	Y	발화자 ID	5자리 숫자
2		SpeakerMetadata	object	Y	발화자 메타데이터
	2-1	birth_year	string	Y	출생년	00~99
	2-2	gender	string	Y	성별	"M", "F", "O"
	2-3	nationality	string	Y	국적
	2-4	language	string	Y	모국어	[별첨1. 언어별_권역_분류.xlsx] 참조
	2-5	proficiency	string	Y	한국어 능숙도	"Beginner", "Intermediate", "Advance", "Fluent"
	2-6	topik_score	number	Y	TOPIK 점수	0~300
	2-7	topik_level	number	Y	TOPIK 등급	0~6
	2-8	education	string	Y	최종학력	"High School Diploma", "College Diploma", "Technical Diploma", "Bachelor’s Degree", "Master’s Degree", "Doctorate Degree", "Other"
	2-9	learning_period	string	Y	한국어 학습기간	0~99	단위: 년
	2-10	korea_residency	string	Y	한국거주 기간	0~99	단위: 년
	2-11	purpose	string	Y	한국어 학습 목적
	2-12	learning_method	string	Y	한국어 학습 방법
	2-13	recording_level	string	Y	녹음 문항 수준	“Beginner”, “Advanced”
3		sound_id	string	Y	녹음 파일 ID	7자리 숫자
4		RecordingMetadata	object	Y	녹음 메타데이터
	4-1	task_create	string	Y	녹음 시작시간
	4-2	task_end	string	Y	녹음 종료시간
	4-3	RecordedTime	number	Y	녹음파일 시간		단위:초
	4-4	sound_environment	string	Y	녹음환경	"online", "offline"
	4-5	prompt	string	N	문항 제시문
	4-6	orthographic	string	Y	말하기문항 철자 전사 결과
5		EvaluationMetadata	object	Y	평가 메타데이터
	5-1	DeliveryEval	number	Y	전달력 평가점수
	5-2	LanguageUseEval	number	Y	연어사용 평가 점수
	5-3	ContentEval	number	Y	내용 평가점수

◯ 실제 데이터

◆ 원천음원(wav)
실제 데이터 원천음원(wav)

◆ 메타 데이터 (JSON)

- 파일명: 01972-F-99-ZH-A-RS049-0468797.JSON

메타 데이터 (JSON)

◆ Pratt TextGrid 태깅정보

- 파일명: 01972-F-99-ZH-A-RS049-0468797.TextGrid

File type = "ooTextFile"
Object class = "TextGrid"
xmin = 0.33
xmax = 5.34

tiers?
size = 3
item []:
item [1]:
class = "IntervalTier"
name = "words"
xmin = 0.33
xmax = 5.34
intervals: size = 8
intervals [1]:
xmin = 0.33
xmax = 0.87
text = "갈등"
intervals [2]:
xmin = 0.87
xmax = 1.54
text = "해결을"
( 중 략 )
intervals [8]:
xmin = 3.79
xmax = 5.34
text = "예정이십니까"
item [2]:
class = "IntervalTier"
name = "phones"
xmin = 0.33
xmax = 5.34
intervals: size = 45
intervals [1]:
xmin = 0.33
xmax = 0.45
text = "ㄱ"
intervals [2]:
xmin = 0.45
xmax = 0.59
text = "ㅏ"
intervals [3]:
xmin = 0.59
xmax = 0.66
text = "ㄹ"
intervals [4]:
xmin = 0.66
xmax = 0.7
text = "ㄷ"
( 중 략 )
intervals [45]:
xmin = 4.93
xmax = 5.34
text = "ㅏ"
item [3]:
class = "IntervalTier"
name = "tags"
xmin = 0.33
xmax = 5.34
intervals: size = 3
intervals [1]:
xmin = 0.33
xmax = 0.66
text = ""
intervals [2]:
xmin = 0.66
xmax = 0.7
text = "경음화"
intervals [3]:
xmin = 0.7
xmax = 5.34
text = ""

데이터셋 구축 담당자

수행기관(주관) : ㈜엔에스데블

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
김종훈	02-1661-1878	kim@nsdevil.com	데이터 관리

수행기관(참여)

수행기관(참여)
기관명	담당업무
㈜나라지식정보	말하기 전사
㈜넥타르소프트	말하기 정제
㈜테리뉴	데이터 검사
네이버 주식회사	데이터 정제
서울대학교	발음평가, 발음오류태깅, AI모델 개발
성균관대학교	말하기 평가
서강대학교	말하기 평가, AI모델 개발
사단법인 대한 음성확회	데이터 검수

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
김종훈	02-1661-1878	kim@nsdevil.com

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의