-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.2 2023-11-21 데이터 추가 개방 1.1 2023-11-03 데이터 최종 개방 1.0 2023-07-31 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-12-08 산출물 전체 공개 2023-11-03 데이터 설명서, 구축가이드, 교육동영상 공개 2023-09-14 메타데이터(데이터구축량) 수정 소개
● 인공지능 학습용 중일어 사용자의 한국어 음성 데이터 수집 및 가공 ● 발음 및 말하기 교육과 평가에 활용할 수 있는 인공지능 프로그램 개발에 실질적으로 도움을 줄 수 있는 고품질의 음성데이터 수집 및 가공
구축목적
● 인공지능 학습용 데이터 구축 ● 인공지능 기반 한국어 교육 및 평가용 서비스 모델 개발 및 실증 ● 인공지능 데이터 생태계 조성
-
메타데이터 구조표 데이터 영역 교육 데이터 유형 오디오 데이터 형식 WAV 데이터 출처 자체 수집 라벨링 유형 전사(음성), 오류태깅(음성), 평가(음성) 라벨링 형식 JSON 데이터 활용 서비스 한국어 말하기 교육 및 평가용 자동채점 시스템 개발, 발음 피드백이 가능한 프로그램 개발 데이터 구축년도/
데이터 구축량2022년/1,006.2시간 -
발화자별 발화 시간(다양성 통계)
발화 오류 유형(다양성 통계)
한국어 학습 기간(다양성 통계)
한국 거주 기간(다양성 통계)
한국어 학습 목표(다양성 통계)한국어 학습 방법(다양성 통계)
발화자 학력(다양성 통계)
평가별 점수 분포(다양성 통계)
유형별 텍스트 길이(다양성 통계)
성별(다양성 통계)
과제 유형(다양성 요건)
화자 출신지역(다양성 요건)
발화자 연령(다양성 요건)
발화자 수준(다양성 요건)
-
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드◯ 음성데이터 활용에 최적화한 Wavegram-Logmel-CNN, ResNet, Trident ResNet 등 활용AI모델을 제시합니다.
① 한국어 말하기 내용과 언어사용을 평가하는 말하기 내용 및 언어사용 평가 모델
② 음성인식 오류율에 기반하여 전달력을 평가하는 말하기 전달력 평가 모델
③ 문장 구사 실력에 대한 숙달도 평가 모델
④ 개별적인 소리가 맞는 발음인지 틀린 발음인지를 판단하는 개별 발음 평가 모델
⑤ 숙련도, 이해가능도, 유창성에 대하여 발음을 평가하는 발음평가 모델
◯ 응용서비스에서는 지능형 한국어 발음·말하기 자동평가 시스템개발을 지원합니다.
① 외국인의 한국어 발음 자동 채점 서비스
② 한국어 시험의 말하기 영역 자동 채점 서비스
③ 발음 및 운율의 정확성과 자연스러움에 대한 평가 서비스
④ 대화 기반 표현력, 구성력, 내용 적절성 평가 서비스
◯ 수요주체와의 긴밀한 네트워크를 통해 응용서비스 개발과 데이터 즉시 활용
① 주관 및 참여기관: 엔에스데블과 서울대 언어교육원의 지능형 평가플랫폼 개발시 AI 자동채점 활용, 네이버클로바 기능 고도화
② 예상 수요기관(기업): 한글과 컴퓨터, 글로벌 챗봇 심심이, 보이스웨어, 이드웨어, 스마트미디어테크, 휴먼미디어테크, 브이에스웍스 등
③ 예상 수요기관(공공): 교육부 국립국제교육원 TOPIK 시험, 한국전자통신연구원(ETRI) 등 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 한국어 말하기 전달력 평가 음성인식 정확도 Speech Recognition Conformer-CTC small CER 12 % 11.41 % 2 한국어 발음 평가 정확도 Audio Classification Wav2vec2.0 Correlation(Pearson) 0.6 단위없음 0.85 단위없음 3 한국어 발음 평가 정확도 Audio Classification Wav2vec2.0 F1-Score 0.7 점 0.9545 점 4 한국어 말하기 내용, 언어사용 평가 정확도 Action Recognition LSTM QWK 0.55 단위없음 0.85 단위없음 5 한국어 말하기 능숙도 평가 분류 정확도 Audio Classification KcELECTRA Weighted Classification Error 30 % 9.39 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드◯ 데이터 포맷
(원천 음성데이터)
- 발화 앞·뒤 500~1000ms의 묵음이 들어간 단어 단위, 문장 단위, 문단 단위, 전체 스토리 단위의 PCM 형식의 영어 모어 화자의 한국어 음성데이터
- 원시 음성데이터는 CD 품질(16비트, 44.1kHz 샘플링레이트)로 녹음하고, 발화자의 문항별로 wav 파일의 음성 파일명 부여 원칙에 입각하여 저장(발화자 메타데이터)
- 녹음 진행 전 부여받은 계정을 통해 워크벤치 내 발화자 메타데이터를 입력하여 Json 형식으로 저장(말하기 전사 라벨링 데이터)
- 말하기 교육 및 평가용 음성데이터의 발음오류가 그대로 드러나는 수동 발음전사 데이터(JSON)(발음오류 태깅 라벨링 데이터)
- 발음 교육 및 평가용 음성데이터와 대응되는 음절 및 음소 열의 정보와 발음오류에 대한 태깅 데이터(JSON, TextGrid)(말하기/발음 평가 라벨링 데이터)
- 데이터 건당 음성 & 전사 데이터와 매치되는 발음 및 말하기 레벨 스코어링 평가 결과(JSON)◯ 데이터 포맷 분류 구분 파일포맷 샘플링 비트 채널 비고 레이트 원시/원천 데이터 음원 wav 44.1KHz 16bit Mono - 학습 데이터 메타정보 json - - - 오류태깅 TextGrid - - - - ◯ 데이터 구성
발음문항◯ 데이터 구성 발음문항 Key Description Type UserID 발화자ID 5자리 string SpeakerMetadata 발화자 메타정보 object birth_year 생년(00~99) string gender 성별(F, M, O) string nationality 국적 string language 모국어 string proficiency 한국어 능숙도("Beginner", "Intermediate", "Advance", "Fluent") string topik_score 토픽점수(0~300) number topik_level 토픽등급(0~6) number education 최종학력("High School Diploma", "College Diploma", "Technical Diploma", "Bachelor’s Degree", "Master’s Degree", "Doctorate Degree", "Other") string learning_period 학습방법 string korea_residency 한국거주 기간 (단위 년) string purpose 한국어 학습 목적 string learning_method 학습방법 string recording_level 문항세트 등급("Beginner", "Advanced") string sound_id 녹음 파일 ID 7자리 string RecordingMetadata 녹음메타 정보 object task_create 녹음시작 시간(YYYY-MM-DD HH:MM:SS) string task_end 녹음종료 시간(YYYY-MM-DD HH:MM:SS) string RecordedTime 녹음된 시간(단위 초) number sound_environment 녹음 환경("on-line", "off-line") string prompt 발음 문항 낭독 지문 string phonemic 발음 문항 음소열 전사 결과 object words 단어열 정보 array word 단어 string start 시작시간(단위 초) number end 종료시간(단위 초) number phones 음소열 정보 array phone 음소 string start 시작시간(단위 초) number end 종료시간(단위 초) number error_tags 태깅정보 array tag 태깅 string start 시작시간(단위 초) number end 종료시간(단위 초) number EvaluationMetadata 평가메타 정보 object PronunProfEval 발음숙련도 평가점수(1~5점) number FluencyEval 유창성 평가점수(1~5점) number ComprehendEval 이해가능도 평가점수(1~5점) number TaggingMetadata 발음 오류태깅 메타데이터 object file_type 오류태깅 정보가 담긴 파일 유형 string filename 오류태깅 정보 TextGrid 파일 명 string 말하기 문항
◯ 데이터 구성 말하기 문항 Key Description Type UserID 발화자ID 5자리 string SpeakerMetadata 발화자 메타정보 object birth_year 생년(00~99) string gender 성별(F, M, O) string nationality 국적 string language 모국어 string proficiency 한국어 능숙도("Beginner", "Intermediate", "Advance", "Fluent") string topik_score 토픽점수(0~300) number topik_level 토픽등급(0~6) number education 최종학력("High School Diploma", "College Diploma", "Technical Diploma", "Bachelor’s Degree", "Master’s Degree", "Doctorate Degree", "Other") string learning_period 학습방법 string korea_residency 한국거주 기간 (단위 년) string purpose 한국어 학습 목적 string learning_method 학습방법 string recording_level 문항세트 등급("Beginner", "Advanced") string sound_id 녹음 파일 ID 7자리 string RecordingMetadata 녹음메타 정보 object task_create 녹음시작 시간(YYYY-MM-DD HH:MM:SS) string task_end 녹음종료 시간(YYYY-MM-DD HH:MM:SS) string RecordedTime 녹음된 시간(단위 초) number sound_environment 녹음 환경("on-line", "off-line") string prompt 문항 제시문 string orthographic 말하기문항 철자 전사 결과 string EvaluationMetadata 말하기 평가 메타정보 object DeliveryEval 전달력 평가점수(0~5점) number LanguageUseEval 연어사용 평가 점수(0~5점) number ContentEval 내용 평가점수(0~5점) number ◯ 어노테이션 데이터 포맷
발음문항◯ 어노테이션 데이터 포맷 발음문항 구분 속성명 타입 필수여부 설명 범위 비고 1 UserID string Y 발화자 ID 5자리 숫자 2 SpeakerMetadata object Y 발화자 메타데이터 2-1 birth_year string Y 출생년 00~99 2-2 gender string Y 성별 "M", "F", "O" 2-3 nationality string Y 국적 2-4 language string Y 모국어 [별첨1. 언어별_권역_분류.xlsx] 참조 2-5 proficiency string Y 한국어 능숙도 "Beginner", "Intermediate", "Advance", "Fluent" 2-6 topik_score number Y TOPIK 점수 0~300 2-7 topik_level number Y TOPIK 등급 0~6 2-8 education string Y 최종학력 "High School Diploma", "College Diploma", "Technical Diploma", "Bachelor’s Degree", "Master’s Degree", "Doctorate Degree", "Other" 2-9 learning_period string Y 한국어 학습기간 0~99 단위: 년 2-10 korea_residency string Y 한국거주 기간 0~99 단위: 년 2-11 purpose string Y 한국어 학습 목적 2-12 learning_method string Y 한국어 학습 방법 2-13 recording_level string Y 녹음 문항 수준 “Beginner”, “Advanced” 3 sound_id string Y 녹음 파일 ID 7자리 숫자 4 RecordingMetadata object Y 녹음 메타데이터 4-1 task_create string Y 녹음 시작시간 4-2 task_end string Y 녹음 종료시간 4-3 RecordedTime number Y 녹음파일 시간 단위:초 4-4 sound_environment string Y 녹음환경 "online", "offline" 4-5 prompt string Y 발음문항 낭독 지문 4-6 Phonemic object Y 발음문항 음소열 전사 결과 4-6-1 words array Y 단어열 정보 1 word string Y 단어 2 start number Y 단어 시작시간 3 end number Y 단어 종료시간 4-6-2 phones array Y 음소열 정보 1 phone string Y 음소 2 start number Y 음소 시작시간 3 end number Y 음소 종료시간 4-6-3 error_tags array Y 음소열 정보 1 tag string N 음소 2 start number N 음소 시작시간 3 end number N 음소 종료시간 5 EvaluationMetadata object Y 평가 메타데이터 5-1 PronunProfEval number Y 발음숙련도 평가점수 5-2 FluencyEval number Y 유창성 평가점수 5-3 ComprehendEval number Y 이해가능도 평가점수 6 TaggingMetadata object Y 발음 오류태깅 메타데이터 6-1 File_type string Y 오류태깅 정보가 담긴 파일 유형 6-2 Filename string Y 오류태깅 정보 TextGrid 파일 명 말하기 문항
◯ 어노테이션 데이터 포맷 말하기 문항 구분 속성명 타입 필수여부 설명 범위 비고 1 UserID string Y 발화자 ID 5자리 숫자 2 SpeakerMetadata object Y 발화자 메타데이터 2-1 birth_year string Y 출생년 00~99 2-2 gender string Y 성별 "M", "F", "O" 2-3 nationality string Y 국적 2-4 language string Y 모국어 [별첨1. 언어별_권역_분류.xlsx] 참조 2-5 proficiency string Y 한국어 능숙도 "Beginner", "Intermediate", "Advance", "Fluent" 2-6 topik_score number Y TOPIK 점수 0~300 2-7 topik_level number Y TOPIK 등급 0~6 2-8 education string Y 최종학력 "High School Diploma", "College Diploma", "Technical Diploma", "Bachelor’s Degree", "Master’s Degree", "Doctorate Degree", "Other" 2-9 learning_period string Y 한국어 학습기간 0~99 단위: 년 2-10 korea_residency string Y 한국거주 기간 0~99 단위: 년 2-11 purpose string Y 한국어 학습 목적 2-12 learning_method string Y 한국어 학습 방법 2-13 recording_level string Y 녹음 문항 수준 “Beginner”, “Advanced” 3 sound_id string Y 녹음 파일 ID 7자리 숫자 4 RecordingMetadata object Y 녹음 메타데이터 4-1 task_create string Y 녹음 시작시간 4-2 task_end string Y 녹음 종료시간 4-3 RecordedTime number Y 녹음파일 시간 단위:초 4-4 sound_environment string Y 녹음환경 "online", "offline" 4-5 prompt string N 문항 제시문 4-6 orthographic string Y 말하기문항 철자 전사 결과 5 EvaluationMetadata object Y 평가 메타데이터 5-1 DeliveryEval number Y 전달력 평가점수 5-2 LanguageUseEval number Y 연어사용 평가 점수 5-3 ContentEval number Y 내용 평가점수 ◯ 실제 데이터
◆ 원천음원(wav)
◆ 메타 데이터 (JSON)
- 파일명: 01972-F-99-ZH-A-RS049-0468797.JSON
◆ Pratt TextGrid 태깅정보
- 파일명: 01972-F-99-ZH-A-RS049-0468797.TextGrid
File type = "ooTextFile"
Object class = "TextGrid"
xmin = 0.33
xmax = 5.34tiers?
size = 3
item []:
item [1]:
class = "IntervalTier"
name = "words"
xmin = 0.33
xmax = 5.34
intervals: size = 8
intervals [1]:
xmin = 0.33
xmax = 0.87
text = "갈등"
intervals [2]:
xmin = 0.87
xmax = 1.54
text = "해결을"
( 중 략 )
intervals [8]:
xmin = 3.79
xmax = 5.34
text = "예정이십니까"
item [2]:
class = "IntervalTier"
name = "phones"
xmin = 0.33
xmax = 5.34
intervals: size = 45
intervals [1]:
xmin = 0.33
xmax = 0.45
text = "ㄱ"
intervals [2]:
xmin = 0.45
xmax = 0.59
text = "ㅏ"
intervals [3]:
xmin = 0.59
xmax = 0.66
text = "ㄹ"
intervals [4]:
xmin = 0.66
xmax = 0.7
text = "ㄷ"
( 중 략 )
intervals [45]:
xmin = 4.93
xmax = 5.34
text = "ㅏ"
item [3]:
class = "IntervalTier"
name = "tags"
xmin = 0.33
xmax = 5.34
intervals: size = 3
intervals [1]:
xmin = 0.33
xmax = 0.66
text = ""
intervals [2]:
xmin = 0.66
xmax = 0.7
text = "경음화"
intervals [3]:
xmin = 0.7
xmax = 5.34
text = ""
-
데이터셋 구축 담당자
수행기관(주관) : ㈜엔에스데블
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김종훈 070-7576-1072 kim@nsdevil.com 데이터 관리 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜나라지식정보 말하기 전사 ㈜넥타르소프트 말하기 정제 ㈜테리뉴 데이터 검사 네이버 주식회사 데이터 정제 서울대학교 발음평가, 발음오류태깅, AI모델 개발 성균관대학교 말하기 평가 서강대학교 말하기 평가, AI모델 개발 사단법인 대한 음성확회 데이터 검수 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김종훈 070-7576-1072 kim@nsdevil.com
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.