-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2022-07-29 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2022-11-23 수행기관 연락처 변경 2022-10-21 신규 샘플데이터 개방 2022-07-29 콘텐츠 최초 등록 소개
수어 번역 데이터셋은 한국어를 한국수어로 변환하기 위한 AI 학습용 데이터로써, 한국어 문장과 매칭되는 한국수어 문법이 반영된 문장, 형태소, 동작에 대한 시간 정보 그리고 얼굴 표정 등과 같은 비수지 정보들을 포함하는 말뭉치 셋임
구축목적
– 재난 안전 정보가 포함된 원천 데이터(문장, 수어영상)로부터, 형태소 및 비수지 정보와 키포인트 데이터를 추출한 고품질 AI데이터셋 구축 및 배포 – 한국어-한국수어 변환 AI알고리즘을 사용한 실증서비스 구현 및 서비스 구현 가능성 확인
-
메타데이터 구조표 데이터 영역 재난안전환경 데이터 유형 텍스트 , 비디오 데이터 형식 TXT, MP4 데이터 출처 TXT : 재난안전문자 데이터(출처 : 국민재난안전포털 공개 데이터 수집 및 증강, 직접 작성), 일기예보(기상청 공개 자료 및 기사 수집) MP4 : 대면, 비대면 촬영(출처 : 직접 제작) 라벨링 유형 번역(자연어) / 키포인트(동영상) 라벨링 형식 JSON, XML 데이터 활용 서비스 수어 – 한국어 번역 서비스 데이터 구축년도/
데이터 구축량2021년/201,684 세트 -
데이터 분포(촬영 비율)
데이터 분포(촬영 비율) 한국어 문장 대 영상 비율 1:01 1:02 1:03 계 한국어문장 수(문장) 124,365 21,345 18,665 164,375 수어 영상(건) 소계 114,182 35,080 51,764 201,026 대면촬영 40,780 35,080 51,764 127,624 비대면촬영 73,402 - - 73,402 수어 스크립트 114,182 35,080 51,764 201,026 데이터 분포(카테고리 분류)
데이터 분포(카테고리 분류) 대분류 중분류 소분류 한국어 문장 데이터 수량 (영상) 데이터 수량 (키포인트) 데이터 수량 (형태소/비수지) 재해
(70%)사회재난 16 46,949 60,380 60,380 60,380 자연재난 18 59,588 66,277 66,277 66,277 기타재난 9 12,838 14,825 14,825 14,825 생활정보
(30%)날씨 1 45,000 59,544 59,544 59,544 계(100%) - 44 164,375 201,026 201,026 201,026 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 영상기반 언어인 수어의 인공지능 번역 모델개발을 위해 Transformer Model(수어 형태소, 비수지), Pointer Model(지화 예측), Prosody Model(운율)을 복합적으로 반영하여 구현
[한국어-수어 번역 엔진 모델 설계 개념도]
- Transformer Network(기본 번역 모델)
[Transformer network 구성 및 예시]
- Pointer Model 모델 : 한국어 문장에서 지화로 표현해야 하는 단어 및 어휘를 추출
[Pointer 모델 적용 예시]
- Prosody Model: 수어 영상 생성 시 수어 단어간 겹침 및 속도 예측
- BLEU 점수를 반영한 검증 : 기계번역의 품질을 측정하는데 사용하는 지표. 실제 사람이 번역한 결과와 기계번역 결과의 유사성을 계산하는 방식으로 결괏값을 구했으며, 최종 16.33%의 최종 모델 개발
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 번역성능 Machine Translation Korean GPT model BLEU 0.15 점 0.1633 점 2 수어 동작 유사도 Pose Estimation Korean GPT model mASS 30 % 68.82 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 데이터 예시
- 한국어 문장 데이터 (TXT)
- 영상데이터(MP4)
- 키포인트 가공 데이터 – MXL
- json
2. 가공 데이터 구조 설명
- XML – 신체 특징점 가공 주요 속성 (keypoint)
2. 가공 데이터 구조 설명 XML – 신체 특징점 가공 주요 속성 (keypoint) 항목명 타입 필수여부 설명 범위 labels object Y 객체 class 정의 부분 label array Y 객체 class 정의 부분 name string Y 객체 class 정보 size string Y xml파일이 어노테이션 정보를 포함하고 있는 가공 영상 이미지의 개수 original_size object Y 영상 이미지 크기 정보 width string Y 영상 이미지 가로 해상도 height string Y 이미지 파일 세로 해상도 track array Y 영상 개별 이미지 keypoint 정보를 담고 있는 상위 테그 id string Y 현재 xml파일 내의 테그 순서 정보 label string Y 영상 이미지 객체의 class 정보 [pose_keypoints_2d, face_keypoints_2d, hand_right_keypoints_2d, hand_left_keypoints_2d] body array Y 신체 객체 2d keypoint 정보 points string Y [0~1920] face array Y 얼굴 객체 2d keypoint 정보 points string Y [0~1920] leftHand array Y 왼손 객체 2d keypoint 정보 points string Y [0~1920] rightHand array Y 오른손 객체 2d keypoint 정보 points string Y [0~1920]
- JSON – 형태소 비수지 가공 주요 속성
– 모든 수어 표현에 대한 sign_gesture를 입력하지만, 수어의 특성상 양손, 우세/비우세손은 항상 발생하지 않음. 따라서 sign_gesture는 필수로 입력되나, Sign_gestures_both(양손층렬), sign_gestures_strong (우세손층렬), sign_gestures_weak(비우세손층렬)은 발생할 경우만 선택적으로 입력함
– sentence_loc : 한국어와 문장 체계가 상이한 수어 중 한국어 단어와 완전히 1:1로 대응되는 경우 sign_gesture에 별도로 표기함2. 가공 데이터 구조 설명 JSON – 형태소 비수지 가공 주요 속성 속성 값 Metadata (dictionary) 메타 데이터
◦ id : (String) 한국어문장, 영상 파일의 이름(데이터 중분류(group), 소분류(카테고리, 카테고리별 일련번호, 1:1-1:3 촬영속성, 촬영장 구분(강남대, 테스트웍스), 대면촬영, 수연가 아이디 포함)
◦ editor“ (String) 영상파일의 현장 검수자의 정보
◦ signer : (String) 영상파일에서 나온 수연가의 정보
◦ augment : 한국어 문장의 증강여부
◦ annotator : 가공자 정보
◦ video_fps : 영상의 초당 이미지 수
◦ translater : (String) 영상파일의 번역가 정보의 정보
◦ date : (date) 관련된 영상파일 찍는 날짜landmarks (dictionary) 키포인트 데이터
◦ camera_parameter : 대면촬영 카메라 파라메터
◦ face_keypoints_2d / 3d - (list): 비대면 2D, 대면 3D 키포인트 정보
◦ pose_keypoints_2d / 3d - (list) : 비대면 2D, 대면 3D 키포인트 정보
◦ hand_left_keypoints_2d / 3d - (list) : 비대면 2D, 대면 3D 키포인트 정보
◦ hand_right_keypoints_2d / 3d - (list) : 비대면 2D, 대면 3D 키포인트 정보nms_script
(선택)(list) 비수지 필드 : Hno, Mo1, Mmo, Hs, Ebf, Mctr, Ci, Tbt,
◦ end : (Float) 종료 시간 (초)
◦ start : (Float) 시작 시간 (초)
◦ descriptor : (String) 마우딩에서 발음된 단어Korean text 한국어 문장(String) Sign_gestures (양손층렬)Sign_gestures_both (list) 수지 스크립트 - 수지글로스 우세, 비우세 (양손 층렬)
◦ gloss_id : (String) 글로스명
◦ express : (Char) 수지/지수어 구분 (수지 “s”, 지화 “f”, 동적숫자 : “d”, 숫자 “n”)
◦ position : (Char) 수어발화 공간(27개로 구분)
◦ direction : (String) 일치동사 정보 (설정된 공간에 따라 (1,2), (1,3), (2,1), (2,3), (3,1), (3,2), (3,3))
◦ start : (Float) 시작 시간 (초)
◦ end : (Float) 종료 시간 (초)
◦ sentence_loc : (dictionary) 발화된 수어와 일치하는 한국어 단어를 의미하는 대응관계 정보 (start ~ end : (int) 한국어 문장 몇 번째 음절 표시)(우세손층렬)
sign_gestures_strong(list) 수지 스크립트 - 수지글로스 우세, 비우세 (양손 층렬)
◦ gloss_id : (String) 글로스명
◦ express : (Char) 수지/지수어 구분 (수지 “s”, 지화 “f”, 동적숫자 : “d”, 숫자 “n”)
◦ position : (Char) 수어발화 공간(27개로 구분)
◦ direction : (String) 일치동사 정보 (설정된 공간에 따라 (1,2), (1,3), (2,1), (2,3), (3,1), (3,2), (3,3))
◦ start : (Float) 시작 시간 (초)
◦ end : (Float) 종료 시간 (초)
◦ sentence_loc : (dictionary) 발화된 수어와 일치하는 한국어 단어를 의미하는 대응관계 정보 (start ~ end : (int) 한국어 문장 몇 번째 음절 표시)(비우세손층렬)
sign_gestures_weak(list) 수지 스크립트 - 수지글로스 우세, 비우세 (양손 층렬)
◦ gloss_id : (String) 글로스명
◦ express : (Char) 수지/지수어 구분 (수지 “s”, 지화 “f”, 동적숫자 : “d”, 숫자 “n”)
◦ position : (Char) 수어발화 공간(27개로 구분)
◦ direction : (String) 일치동사 정보 (설정된 공간에 따라 (1,2), (1,3), (2,1), (2,3), (3,1), (3,2), (3,3))
◦ start : (Float) 시작 시간 (초)
◦ end : (Float) 종료 시간 (초)
- 한국어 문장 데이터 (TXT)
-
데이터셋 구축 담당자
수행기관(주관) : ㈜테스트웍스
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 안상훈 02) 422-5178 shahn@testworks.co.kr · 사업 총괄 · 키포인트 가공 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜이큐포올(마지웅 / 02-6207-7898) · 인공지능 개발 강남대학교 산학협력단(031-280-3825) · 형태소/비수지 전사 데이터 가공 및 관리 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 안상훈 02) 422-5178 shahn@testworks.co.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.