콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#수어번역 # 형태소/비수지 한국수어 # 한국어-수어 # 수어영상 # 재난안전문자 # 날씨정보

재난 안전 정보 전달을 위한 수어영상 데이터

재난 안전 정보 전달을 위한 수어영상
  • 분야재난안전환경
  • 유형 텍스트 , 비디오
구축년도 : 2021 갱신년월 : 2022-07 조회수 : 11,018 다운로드 : 537 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2022-07-29 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2022-11-23 수행기관 연락처 변경
    2022-10-21 신규 샘플데이터 개방
    2022-07-29 콘텐츠 최초 등록

    소개

    수어 번역 데이터셋은 한국어를 한국수어로 변환하기 위한 AI 학습용 데이터로써, 한국어 문장과 매칭되는 한국수어 문법이 반영된 문장, 형태소, 동작에 대한 시간 정보 그리고 얼굴 표정 등과 같은 비수지 정보들을 포함하는 말뭉치 셋임

    구축목적

    – 재난 안전 정보가 포함된 원천 데이터(문장, 수어영상)로부터, 형태소 및 비수지 정보와 키포인트 데이터를 추출한 고품질 AI데이터셋 구축 및 배포
    –  한국어-한국수어 변환 AI알고리즘을 사용한 실증서비스 구현 및 서비스 구현 가능성 확인
  • 데이터 분포(촬영 비율)

    데이터 분포(촬영 비율)
    한국어 문장 대 영상 비율 1:01 1:02 1:03
    한국어문장 수(문장) 124,365 21,345 18,665 164,375
    수어 영상(건) 소계 114,182 35,080 51,764 201,026
    대면촬영 40,780 35,080 51,764 127,624
    비대면촬영 73,402 - - 73,402
    수어 스크립트 114,182 35,080 51,764 201,026

     

    데이터 분포(카테고리 분류)

    데이터 분포(카테고리 분류)
    대분류 중분류 소분류 한국어 문장 데이터 수량 (영상) 데이터 수량 (키포인트) 데이터 수량 (형태소/비수지)
    재해
    (70%)
    사회재난 16 46,949 60,380 60,380 60,380
    자연재난 18 59,588 66,277 66,277 66,277
    기타재난 9 12,838 14,825 14,825 14,825
    생활정보
    (30%)
    날씨 1 45,000 59,544 59,544 59,544
    계(100%) - 44 164,375 201,026 201,026 201,026

     

    재난 안전 정보 전달을 위한 수어영상- 데이터 분포(카테고리 분류)- 자연재난 데이터 분포 그래프

    재난 안전 정보 전달을 위한 수어영상- 데이터 분포(카테고리 분류)- 사회재난 데이터 분포 그래프

    재난 안전 정보 전달을 위한 수어영상- 데이터 분포(카테고리 분류)- 날씨정보 그래프

    재난 안전 정보 전달을 위한 수어영상- 데이터 분포(카테고리 분류)- 기타재난 데이터 분포 그래프

  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드
    • 영상기반 언어인 수어의 인공지능 번역 모델개발을 위해 Transformer Model(수어 형태소, 비수지), Pointer Model(지화 예측), Prosody Model(운율)을 복합적으로 반영하여 구현

    재난 안전 정보 전달을 위한 수어영상- 한국어-수어 번역 엔진 모델 설계 개념도

    [한국어-수어 번역 엔진 모델 설계 개념도]

    • Transformer Network(기본 번역 모델)

    재난 안전 정보 전달을 위한 수어영상- Transformer network 구성 및 예시

    [Transformer network 구성 및 예시]

     

    • Pointer Model 모델 : 한국어 문장에서 지화로 표현해야 하는 단어 및 어휘를 추출

    재난 안전 정보 전달을 위한 수어영상- Pointer 모델 적용 예시

    [Pointer 모델 적용 예시]

     

    • Prosody Model: 수어 영상 생성 시 수어 단어간 겹침 및 속도 예측
    • BLEU 점수를 반영한 검증 : 기계번역의 품질을 측정하는데 사용하는 지표. 실제 사람이 번역한 결과와 기계번역 결과의 유사성을 계산하는 방식으로 결괏값을 구했으며, 최종 16.33%의 최종 모델 개발
  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 번역성능 Machine Translation Korean GPT model BLEU 0.15 0.1633
    2 수어 동작 유사도 Pose Estimation Korean GPT model mASS 30 % 68.82 %

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    1. 데이터 예시

    • 한국어 문장 데이터 (TXT)
      재난 안전 정보 전달을 위한 수어영상- 데이터 예시- 한국어 문장 데이터 (TXT)

       
    • 영상데이터(MP4)
      재난 안전 정보 전달을 위한 수어영상- 데이터 예시- 영상데이터(MP4)

       
    • 키포인트 가공 데이터 – MXL
      재난 안전 정보 전달을 위한 수어영상- 데이터 예시- 키포인트 가공 데이터 – MXL

       
    • json
      재난 안전 정보 전달을 위한 수어영상- 데이터 예시- json

       

    2. 가공 데이터 구조 설명

    • XML – 신체 특징점 가공 주요 속성 (keypoint)
      2. 가공 데이터 구조 설명 XML – 신체 특징점 가공 주요 속성 (keypoint)
      항목명 타입 필수여부 설명 범위
      labels object Y 객체 class 정의 부분  
      label array Y 객체 class 정의 부분   
      name string Y 객체 class 정보   
      size string Y xml파일이 어노테이션 정보를 포함하고 있는 가공 영상 이미지의 개수  
      original_size object Y 영상 이미지 크기 정보  
      width string Y 영상 이미지 가로 해상도  
      height string Y 이미지 파일 세로 해상도  
      track array Y 영상 개별 이미지 keypoint 정보를 담고 있는 상위 테그   
      id string Y 현재 xml파일 내의 테그 순서 정보  
      label string Y 영상 이미지 객체의 class 정보 [pose_keypoints_2d, face_keypoints_2d, hand_right_keypoints_2d, hand_left_keypoints_2d]
      body array Y 신체 객체 2d keypoint 정보  
      points string Y   [0~1920]
      face array Y 얼굴 객체 2d keypoint 정보  
      points string Y   [0~1920]
      leftHand array Y 왼손 객체 2d keypoint 정보   
      points string Y   [0~1920]
      rightHand array Y 오른손 객체 2d keypoint 정보   
      points string Y   [0~1920]

       
    • JSON – 형태소 비수지 가공 주요 속성
      – 모든 수어 표현에 대한 sign_gesture를 입력하지만, 수어의 특성상 양손, 우세/비우세손은 항상 발생하지 않음. 따라서 sign_gesture는 필수로 입력되나, Sign_gestures_both(양손층렬), sign_gestures_strong (우세손층렬), sign_gestures_weak(비우세손층렬)은 발생할 경우만 선택적으로 입력함
      – sentence_loc : 한국어와 문장 체계가 상이한 수어 중 한국어 단어와 완전히 1:1로 대응되는 경우 sign_gesture에 별도로 표기함
      2. 가공 데이터 구조 설명 JSON – 형태소 비수지 가공 주요 속성
      속성
      Metadata (dictionary) 메타 데이터
      ◦ id : (String) 한국어문장, 영상 파일의 이름(데이터 중분류(group), 소분류(카테고리, 카테고리별 일련번호, 1:1-1:3 촬영속성, 촬영장 구분(강남대, 테스트웍스), 대면촬영, 수연가 아이디 포함)
      ◦ editor“ (String) 영상파일의 현장 검수자의 정보
      ◦ signer : (String) 영상파일에서 나온 수연가의 정보
      ◦ augment : 한국어 문장의 증강여부
      ◦ annotator : 가공자 정보
      ◦ video_fps : 영상의 초당 이미지 수
      ◦ translater : (String) 영상파일의 번역가 정보의 정보
      ◦ date : (date) 관련된 영상파일 찍는 날짜
      landmarks (dictionary) 키포인트 데이터
      ◦ camera_parameter : 대면촬영 카메라 파라메터
      ◦ face_keypoints_2d / 3d - (list): 비대면 2D, 대면 3D 키포인트 정보
      ◦ pose_keypoints_2d / 3d - (list) : 비대면 2D, 대면 3D 키포인트 정보
      ◦ hand_left_keypoints_2d / 3d - (list) : 비대면 2D, 대면 3D 키포인트 정보
      ◦ hand_right_keypoints_2d / 3d - (list) : 비대면 2D, 대면 3D 키포인트 정보 
      nms_script
      (선택)
      (list) 비수지 필드 : Hno, Mo1, Mmo, Hs, Ebf, Mctr, Ci, Tbt,
      ◦ end : (Float) 종료 시간 (초)
      ◦ start : (Float) 시작 시간 (초)
      ◦ descriptor : (String) 마우딩에서 발음된 단어 
      Korean text 한국어 문장(String)
      Sign_gestures (양손층렬)Sign_gestures_both (list) 수지 스크립트  - 수지글로스 우세, 비우세 (양손 층렬)
      ◦ gloss_id : (String) 글로스명
      ◦ express : (Char) 수지/지수어 구분 (수지 “s”, 지화 “f”, 동적숫자 : “d”, 숫자 “n”)
      ◦ position : (Char) 수어발화 공간(27개로 구분)
      ◦ direction : (String) 일치동사 정보 (설정된 공간에 따라 (1,2), (1,3), (2,1), (2,3), (3,1), (3,2), (3,3))
      ◦ start : (Float) 시작 시간 (초)
      ◦ end : (Float) 종료 시간 (초)
      ◦ sentence_loc : (dictionary) 발화된 수어와 일치하는 한국어 단어를 의미하는 대응관계 정보 (start ~ end : (int) 한국어 문장 몇 번째 음절 표시)
      (우세손층렬)
      sign_gestures_strong
      (list) 수지 스크립트  - 수지글로스 우세, 비우세 (양손 층렬)
      ◦ gloss_id : (String) 글로스명
      ◦ express : (Char) 수지/지수어 구분 (수지 “s”, 지화 “f”, 동적숫자 : “d”, 숫자 “n”)
      ◦ position : (Char) 수어발화 공간(27개로 구분)
      ◦ direction : (String) 일치동사 정보 (설정된 공간에 따라 (1,2), (1,3), (2,1), (2,3), (3,1), (3,2), (3,3))
      ◦ start : (Float) 시작 시간 (초)
      ◦ end : (Float) 종료 시간 (초)
      ◦ sentence_loc : (dictionary) 발화된 수어와 일치하는 한국어 단어를 의미하는 대응관계 정보 (start ~ end : (int) 한국어 문장 몇 번째 음절 표시)
      (비우세손층렬)
      sign_gestures_weak
      (list) 수지 스크립트  - 수지글로스 우세, 비우세 (양손 층렬)
      ◦ gloss_id : (String) 글로스명
      ◦ express : (Char) 수지/지수어 구분 (수지 “s”, 지화 “f”, 동적숫자 : “d”, 숫자 “n”)
      ◦ position : (Char) 수어발화 공간(27개로 구분)
      ◦ direction : (String) 일치동사 정보 (설정된 공간에 따라 (1,2), (1,3), (2,1), (2,3), (3,1), (3,2), (3,3))
      ◦ start : (Float) 시작 시간 (초)
      ◦ end : (Float) 종료 시간 (초)
      [어노테이션 속성 정보]
  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜테스트웍스
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    안상훈 02) 422-5178 shahn@testworks.co.kr · 사업 총괄 · 키포인트 가공
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜이큐포올(마지웅 / 02-6207-7898) · 인공지능 개발
    강남대학교 산학협력단(031-280-3825) · 형태소/비수지 전사 데이터 가공 및 관리
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    안상훈 02) 422-5178 shahn@testworks.co.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.