AI-Hub

한국인의 주제적응형 영어말하기 평가데이터

분야한국어
유형 오디오 , 비디오 , 텍스트

구축년도 : 2022 갱신년월 : 2023-12 조회수 : 21,741 다운로드 : 141 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2023-12-06	데이터 최종 개방
1.0	2023-07-31	데이터 개방(Beta Version)

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2023-12-15	산출물 전체 공개

소개

ㅇ 영어말하기 평가 음성데이터 수집 (1,016.81시간) 및 가공 학습용 데이터 구축
   - 데이터 규모 : 발화음성 총 1,016.81시간
   - 활용 도구 : 음성데이터 추출(ffmpeg), STT 자동전사도구, 전사 교정 워크벤치, 평가 워크벤치 AI 모델링 서버

구축목적

ㅇ 양질의 영어 말하기평가 데이터 구축을 통한, AI 자동평가 시스템 개발
ㅇ 비용이 저렴하고, 높은 학습효과의 AI 자동평가 시스템 보급으로, 사회적 비용 절감 및 교육/취업의 균등한 기회 제공

메타데이터 구조표
데이터 영역	한국어	데이터 유형	오디오 , 비디오 , 텍스트
데이터 형식	wav	데이터 출처	자체 수집
라벨링 유형	질의응답(자연어)	라벨링 형식	json
데이터 활용 서비스	학습서비스, 자동 평가 서비스, 분석 데이터 정의	데이터 구축년도/ 데이터 구축량	2022년/1,016.81 시간

데이터 통계

데이터 구축 규모 및 분포

데이터 구축량
원시 데이터
 1,200시간 영상데이터

원천 데이터
 한국인의 영어 말하기평가 음성데이터 1,016.81시간
※ 발화 전후 비음성구간 500ms는 목표 시간 (약 1,000시간) 산출에서 제외

학습 데이터
 문장 단위, 단락 단위 구조화 저장
 2인 이상의 교사 채점(주제 설계 참여 교사 연계)
 실제 작성 학생 데이터 기준 메타 데이터 정보 포함

데이터 분포

 해당언어 구사 수준/발화방법/성별/지역별 고르게 분포
아래의 인원수는 최종 구축된 데이터 수량으로, 데이터 목표시간인 1,000시간을 엄수하도록 20% 이상 추가 모집

데이터 분포
등급	레벨	인원(명)	시간(분)
5	NA (Native)	291	7,720.80
4	TH (Talented High)	775	19,563
3	TM (Talented Mid)	1,015	24,223.80
2	TL (Talented Low)	450	8,416.80
1	IG (Ignite) 이하	109	1,084.20
계		2,640	61,008.60

※ 레벨별 오차범위 5% 적용


구분	구분	인원(명)	시간 합계(분)
직업별	대학생 및 구직자	1,787	41,717.40
	직장인 및 일반 성인	853	19,291.20
	합계	2,640	61,008.60
성별	남성	1,026	22,802.40
	여성	1,614	38,206.20
	합계	2,640	61,008.60
지역별	서울, 경기권	1,584	37,515
	강원권	73	1,562.40
	충청권	239	5,576.40
	전라, 제주권	231	5,161.20
	경상권	513	11,193.60
	합계	2,640	61,008.60

※ 5% 오차범위 허용

 연령, 성별, 발화 환경, 학습자별 분석, 학습자별 평가

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드

AI 모델 상세 설명서 다운로드

AI 모델 상세 설명서 다운로드 AI 모델 다운로드


구분	내용
모델명	한국인의 주제적응형 영어스피킹 자동평가를 위한 분석영역별 평가모델
분석 단위	단위 문항별 한 개 이상의 문장으로 구성되는 단위 발화
모델 특성	- 단위 발화별로 분석 영역별 수준을 단계별로 제시 - 분석영역별 점수 제시 . Task Completion . Delivery . Accuracy . Appropriateness
입력 특징	- 모델별로 입력 특징을 심층신경망의 입력층에 인가하고 전문가 점수를 목표값으로 하여 분석영역별 유창성 설명 모델을 학습 - AI 모델 주요 입력 특징 . 문항별 질문 . 응시자 답변 문장
성능지표	피어슨 상관 계수(Pearson Correlation Coefficient, ρ) * 단위 발화에 대한 전문가 평가 점수 대비 AI 모델 기반의 자동 평가 점수 간 선형 상관계수를 추정함
데이터 활용	전체 1,016.81시간 데이터에 대해 학습 약 824시간, 개발 약 98시간, 평가 약 96시간으로 분할하여 학습 및 평가에 활용함
성능목표	분석영역 평가모델별 ρ = 0.72 이상
응용서비스 예시	- 공인영어능력 시험의 말하기 및 쓰기 자동 평가 서비스 - 공인영어능력 시험을 준비하는 국민을 위한 학습 서비스 - 한국어, 중국어 등 타 외국어에 대한 자동 평가 및 학습 서비스

기타 정보

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	화용적 기능 자동평가모델	Audio Classification	Transformer	PCC	0.72 %	76.91 %
2	정확성 자동평가모델	Audio Classification	Transformer	PCC	0.72 %	74.05 %
3	답안 내용과 문맥 자동평가모델	Audio Classification	Transformer	PCC	0.72 %	73.3 %
4	텍스트 유형 자동평가모델	Audio Classification	Transformer	PCC	0.72 %	72.52 %

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

데이터 포맷

데이터 포맷
수집 대상	형태
원천데이터	wav 음성 파일
메타데이터	- JSON 파일 - 대상자 상세정보 (성별/지역/직업/레벨) - 질문유형 및 질문내용과 대답내용 - 어휘별 발화 시간과 평가점수

- 원천데이터(음성파일)과 메타데이터(JSON)으로 구분
- 원천데이터(음성파일)와 메타데이터(JSON)는 각각의 파일명으로 구분
(예시 : ESPEAK_0030_IG_STUD_F_SG_01.json / ESPEAK_0030_IG_STUD_F_SG_01.wav)
- 원천데이터(음성파일)와 메타데이터(JSON)

데이터 구성 및 어노테이션 포맷

데이터 구성 및 어노테이션 포맷
구분		속성명	타입	필수여부	설명
1		*Speaker*	string	Y	화자 정보
	1-1	ID	string	Y	화자 아이디
	1-2	Name	string	Y	화자 이름
	1-3	age	string	Y	화자 연령대
	1-4	self_grade	string	Y	설문 응답 자기 등급
	1-5	gender	string	Y	화자 성별
	1-6	location	string	Y	거주 지역
	1-7	recording_device	string	Y	응시장치정보
	1-8	interview	object	Y	사전 인터뷰 정보
	1-9	종사_분야	string	Y	직장인, 취준생
	1-10	현_거주_환경	string	Y	거주환경 형태
	1-11	여가_활동_취미	array	Y	여가활동, 취미 생활
	1-12	영어권_거주_여부	string	Y	영어권 거주 여부
	1-13	영어권_거주_기간	string	Y	영어권 거주 기간
	1-14	level	object	Y	평가 등급
	1-15	Combo0_Q1	string	Y	Combo0 점수
	1-16	Combo1_Q2_Q4	string	Y	Combo1 점수
	1-17	Combo2_Q5_Q7	string	Y	Combo2 점수
	1-18	Combo3_Q8_Q10	string	Y	Combo3 점수
	1-19	Combo4_Q11_Q13	string	Y	Combo4 점수
	1-20	Combo5_Q14_Q15	string	Y	Combo5 점수
	1-21	final	string	Y	최종 등급
2		*Prompt*	object		질문 상세정보
	2-1	Interview_Relation	object	Y	사전인터뷰 연관정보
	2-2	interview_question	string		사전인터뷰 문항 중 연관 질문 번호
	2-3	interview_answer	string		사전인터뷰 문항 연관 질문 답변
	2-4	Question_number	string	Y	응시 문항 번호
	2-5	Question_type	string	Y	응시 문항 종류
	2-6	prompt	string	Y	응시 문항 질문 내용
3		*Utterance*	object		답변발화정보
	3-1	id	string	Y	발화 파일 아이디
	3-2	start	string	Y	녹음파일 시작 시간(초)
	3-3	end	string	Y	녹음파일 종료 시간(초)
	3-4	speaker_id	string	Y	화자 아이디
	3-5	wav_file	string	Y	wav 파일 위치
	3-6	transcription	string		전사문
	3-7	words	array		단어 단위 정보
	3-8	id	string		단어 아이디
	3-9	name	string		단어 이름
	3-10	start	string		단어 시작 시간(초)
	3-11	end	string		단어 끝 시간(초)
4		*Rating*	object	Y	전문가평가정보
	4-1	type	string	Y	평가요소 이름
	4-2	rater1_id	string	Y	평가자1 아이디
	4-3	rater2_id	string	Y	평가자2 아이디
	4-4	rater1	string	Y	평가자1 점수
	4-5	rater2	string	Y	평가자2 점수
	4-6	rater_final	string	Y	최종점수
	4-7	rater_diff	string	Y	평가자 간 점수 차
5		*Acoustic feature*	object		음향학적 메타정보
	5-1	F0semitoneFrom27.5Hz_sma3nz_amean	string		Mean of logarithmic F0 on a semitone frequency scale, starting at 27.5 Hz
	5-2	F0semitoneFrom27.5Hz_sma3nz_meanFallingSlope	string		Mean of the slope of falling signal parts of F0
	5-3	F0semitoneFrom27.5Hz_sma3nz_meanRisingSlope	string		Mean of the slope of rising signal parts of F0
	5-4	F0semitoneFrom27.5Hz_sma3nz_pctlrange0-2	string		Range of 20-th to 80-th of logarithmic F0 on a semitone frequency scale, starting at 27.5 Hz
	5-5	F0semitoneFrom27.5Hz_sma3nz_percentile20.0	string		Percentile 20-th of logarithmic F0 on a semitone frequency scale, starting at 27.5 Hz
	5-6	F0semitoneFrom27.5Hz_sma3nz_percentile50.0	string		Percentile 50-th of logarithmic F0 on a semitone frequency scale,starting at 27.5 Hz
	5-7	F0semitoneFrom27.5Hz_sma3nz_percentile80.0	string		Percentile 80-th of logarithmic F0 on a semitone frequency scale,starting at 27.5 Hz
	5-8	F0semitoneFrom27.5Hz_sma3nz_stddevFallingSlope	string		Standard deviation of the slope of falling signal parts of F0
	5-9	F0semitoneFrom27.5Hz_sma3nz_stddevNorm	string		Coefficient of variation of logarithmic F0 on a semitone frequency scale,starting at 27.5 Hz
	5-10	F0semitoneFrom27.5Hz_sma3nz_stddevRisingSlope	string		Standard deviation of the slope of rising signal parts of F0
	5-11	jitterLocal_sma3nz_amean	string		Mean of the deviations in individual consecutive F0 period lengths
	5-12	jitterLocal_sma3nz_stddevNorm	string		Coefficient of variation of the deviations in individual consecutive F0 period lengths
	5-13	loudness_sma3_amean	string		Mean of estimate of perceived signal intensity from an auditory spectrum
	5-14	loudness_sma3_meanFallingSlope	string		Mean of the slope of falling signal parts of loudness
	5-15	loudness_sma3_meanRisingSlope	string		Mean of the slope of rising signal parts of loudness
	5-16	loudness_sma3_pctlrange0-2	string		Range of 20-th to 80-th of estimate of perceived signal intensity from an auditory spectrum
	5-17	loudness_sma3_percentile20.0	string		Percentile 20-th of estimate of perceived signal intensity from an auditory Spectrum
	5-18	loudness_sma3_percentile50.0	string		Percentile 50-th of estimate of perceived signal intensity from an auditory Spectrum
	5-19	loudness_sma3_percentile80.0	string		Percentile 80-th of estimate of perceived signal intensity from an auditory spectrum
	5-20	loudness_sma3_stddevFallingSlope	string		Standard deviation of the slope of falling signal parts of loudness
	5-21	loudness_sma3_stddevNorm	string		Coefficient of variation of estimate of perceived signal intensity from an auditory spectrum
	5-22	loudness_sma3_stddevRisingSlope	string		Standard deviation of the slope of rising signal parts of loudness
	5-23	shimmerLocaldB_sma3nz_amean	string		Mean of difference of the peak amplitudes of consecutive F0 periods
	5-24	shimmerLocaldB_sma3nz_stddevNorm	string		Coefficient of variation of difference of the peak amplitudes of consecutive F0 periods
	5-25	loudnessPeaksPerSec	string		The number of the loudness peaks per second
	5-26	MeanVoicedSegmentLengthSec	string		Mean of continuously voiced regions
	5-27	MeanUnvoicedSegmentLength	string		Mean of unvoiced regions
	5-28	StddevVoicedSegmentLengthSec	string		Standard deviation of continuously voiced regions
	5-29	StddevUnvoicedSegmentLength	string		Standard deviation of unvoiced regions
	5-30	VoicedSegmentsPerSec	string		The number of continuous voiced regions per second

실제 예시

{
"metadata": {
"title": "ESPEAK_0030_IG_STUD_F_SG_01",
"creator": "SLIEdu",
"distributor": "NIA",
"year": "2022",
"date": "20221125",
"file_format": {
"format": "wav",
"sampling_rate": "16kHz",
"channel": "mono",
"bit": "16bit",
"byte_order": "little_endian"
}
},
"speaker": {
"id": "ESPEAK_0030_IG_STUD_F_SG",
"name": "ESPEAK_0030_IG_STUD_F_SG",
"age": "20",
"self_grade": "TM",
"gender": "female",
"location": "경기",
"recoding_device": "None",
"interview": {
"종사_분야": "대학(원)생",
"현_거주_환경": "가족(배우자/자녀/기타 가족일원)과 함께 거주",
"여가_활동_취미": [
"예술활동",
"운동"
],
"영어권_거주_여부": "없음",
"영어권_거주_기간": "없음"
},
"level": {
"Combo0_Q1": "2.25",
"Combo1_Q2_Q4": "1.08",
"Combo2_Q5_Q7": "1.88",
"Combo3_Q8_Q10": "1.50",
"Combo4_Q11_Q13": "1.38",
"Combo5_Q14_Q15": "1.06",
"final": "IG"
}
},
"prompt": {
"Interview_Relation": {
"interview_question": "NULL",
"interview_answer": "NULL"
},
"Question_number": "01",
"Question_type": "자기소개",
"prompt": "Can you introduce yourself in as much detail as possible?"
},
"utterance": {
"id": "ESPEAK_0030_IG_STUD_F_SG_01",
"start": "0.00",
"end": "12.01",
"speaker_id": "ESPEAK_0030_IG_STUD_F_SG",
"wav_file": "train/Ignite/ESPEAK_0030_IG_STUD_F_SG_wav/ESPEAK_0030_IG_STUD_F_SG_01.wav",
"transcription": "uhm my name is don kim and twenty one years old uh and i'm attending in suwon science college",
"words": [
{
"id": 1,
"name": "",
"start": "0.01",
"end": "0.03"
},

~~...~~

데이터셋 구축 담당자

수행기관(주관) : ㈜에스엘아이평생교육원

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
박진석	02-541-7158	vceo@sliedu.com	데이터 수집, 데이터 평가, 데이터 품질검수, 크라우드 소싱인력 관리

수행기관(참여)

수행기관(참여)
기관명	담당업무
성신여대 연구산학협력단	데이터 선정/설계, 데이터 품질검수
㈜튜터러스랩스	AI모델 개발

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
박진석	02-541-7158	vceo@sliedu.com

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

파일 목록

전체 다운로드 AI 허브 Shell 다운로드 AI 허브 오픈 API 이용안내

오프라인 데이터 이용 안내

본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.

K-ICT 빅데이터센터는 데이터 안심구역으로 지정되어
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.

데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

K-ICT 빅데이터센터 이동

연관 데이터

생활환경소음 AI학습용 데이터 및 민원 관리 서비스 구축 사업

한국어 지식기반 관계 데이터

아동·청소년 상담데이터

한국어 방언 발화(충청도)

한국어-중국어 번역 말뭉치(기술과학)

구음장애 음성인식 데이터

주제별 텍스트 일상 대화 데이터

다양한 형태의 한글 문자 OCR

한국인의 주제적응형 영어말하기 평가데이터

데이터 개요

데이터 변경이력

데이터 히스토리

소개

구축목적

메타데이터 구조표

데이터 통계

교육활용 동영상

저작도구

저작도구 설명서 및 저작도구 다운로드

활용 AI 모델 및 코드

AI 모델 상세 설명서 다운로드

데이터 성능 지표

데이터 성능 점수

데이터 성능 지표

어노테이션 포맷 및 데이터 구조

설명서 및 활용가이드 다운로드

구축 업체

데이터셋 구축 담당자

수행기관(주관) : ㈜에스엘아이평생교육원

수행기관(참여)

데이터 관련 문의처

안심존 소개

안심존 이용절차

안심존사용신청서 및 첨부서류목록

안심존 이용문의

파일 목록

오프라인 데이터 이용 안내

연관 데이터