안면인식 영상

안면인식 영상

데이터셋명 안면인식 영상
데이터 분야 안전 데이터 유형 이미지
구축기관 ㈜씨유박스 데이터 관련 문의처 담당자명 박준석
가공기관 인피닉 전화번호 02-6277-7800
검수기관 씨유박스, 인피닉 이메일 cubox@cubox.aero
구축 데이터량 5.4만 구축년도 2020년
버전 1.0 최종수정일자 2021.06.25
소개 다양한 종류의 안면인식 보안 영상 강화를 위한 학습용 데이터
주요 키워드 안면인식, 안면 위변조 감지, 얼굴인식, 얼굴 위변조 감지, 안티 스푸핑, 라이브니스 디텍션, CASIA-SURF
저작권 및 이용정책 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기]
데이터설명서 자료보기 구축활용가이드 자료보기
샘플데이터 교육활용동영상
저작도구 다운로드 AI모델 다운로드
데이터 변경이력
버전 일자 변경내용 비고
1.0 2021.06.25 데이터 최초 개방  
구축 목적
  • 얼굴 인식 분야의 위변조 방지를 위한 인공지능 모델 학습
활용 분야
  • 프린트, 영상 리플레이, 3D 마스크를 사용한 얼굴 위변조 공격 데이터를 일반 RGB 카메라를 통해 확보함으로써 face anti-spoofing을 위한 인공지능 모델 학습을 위한 데이터셋을 제공
소개
  • 안면 위변조 감지 (Face Recognition Detection) 알고리즘 학습을 위한 싱글 모달(RGB) 데이터셋 구축
    ‒ 스마트폰, 테블릿 등 총 20여종의 스마트 디바이스를 이용한 싱글 모달(RGB) 데이터셋 구축
    ‒ 3,040명 이상의 촬영 대상자별로 총 54,150 개의 동영상 데이터셋 구축
    ‒ 다양한 종류의 안면 위변조 시도 (Print, Media Replay, 3D Mask) 등의 영상을 생성, 분류하여 데이터셋을구축, 안면위변조 감지 알고리즘 학습에 기여
    ‒ 안면 위변조 시나리오를 작성하고 이를 바탕으로 동영상을 획득한다. 정제된 원시데이터는 RGB 영상 가공자동화 공정을 통해 동영상의 프레임에서 지정된 수량의 이미지들을 추출하고 마스킹 처리를 한 뒤 인공지능 학습에 적합한 이미지로 정제하여 RGB 영상학습 데이터셋을 구축

 

RGB 영상학습 데이터셋 구축 과정
< RGB 영상학습 데이터셋 구축 과정 >

 

구축 내용 및 제공 데이터량
  • 1. 데이터 구축 규모
    - 카메라별 구축 규모
카메라별 구축 규모
카메라 모달리티유형 대상인원 영상수 스푸핑 공격 종류
(Spoof attacks)
스마트폰, 태블릿총 20여 종 중 2종 선택 및 GoPro RGB 3,040 54,870 Print, Replay, 3D Mask

 

- 위변조 학습 데이터셋 규모

위변조 학습 데이터셋 규모
주요 내용 사람수 영상수 이미지수 데이터형식
안면 위변조 감지를 위한 RGB 영상 학습 데이타셋 3,040명 54,870개 1,646,100개 - 동영상: MP4
- 이미지: jpg

 

- 전체 동영상 개수

전체 동영상 개수
조명(A) 카메라(B) 공격 유형(C) 1명당 동영상 수량(D)
[D = A x B x C]
촬영인원(E) 전체 동영상 개수
([F = D x E]
3 1 6 (Live 2, Print 2, Replay 2) 18 3,040 54,870

 

- 전체 3D Mask 동영상 개수

전체 3D Mask 동영상 개수
조명(A) 카메라(B) 공격 유형(C) 1명당 동영상 수량(D)
[D = A x B x C]
촬영인원(E) 전체 동영상 개수
([F = D x E]
3 1 1(3D Mask) 3 50 150

 

- 전체 추출 이미지 개수

전체 추출 이미지 개수
전체 동영상 개수
[G = F + F‘]
동영상당 추출 이미지 개수 (H) 전체 이미지 개수 (I)
[I = G x H]
54,870 30 1,646,100

 

- 전체 Masking 이미지 개수

전체 Masking 이미지 개수
전체 이미지 개수(I) 전체 Masking 이미지 개수 전체 Masking 이미지 개수(K)
(K = I x J)
1,646,100 1 1,646,100

 

- 데이터셋의 용도별 수량 정보

데이터셋의 용도별 수량 정보
  Training Validation Testing Total
안면위변조 감지를 위한 RGB 영상 학습 데이터셋 할당 비율 80% 10% 10% 100%
구분 촬영대상자 304 304 3,040
동영상 43,896 5,487 5,487 54,870
정제이미지 1,316,880 164,610 164,610 1,646,100
대표 도면
  • Live 원본 이미지 예시

    001002

 

  • Live Masking 이미지 예시

 

001 crop 0002 crop

 

  • Print Attack 원본 이미지 예시
     

001 0001 1

 

  • Print Attack Masking 이미지 예시
     

001 crop 1001 crop 2

 

 

  • Replay Attack 원본 이미지 예시
     

001 2001 3

 

  • Replay Attack Masking 이미지 예시
     

001 crop 3001 crop 4

필요성
  • 안면인식 시스템에 대한 공격 증가
    ‒ 안면인식 시스템의 증가에 따라서 정교한 얼굴 도용 및 위변조를 통해서 안면인식 시스템을 무력화하려는 시도도 증가
    ‒ 이러한 시도를 프레젠테이션 공격 또는 스푸핑(Spoofing)이라고 함
    ‒ 프레젠테이션 공격(스푸핑)의 종류
         사진 또는 비디오 공격: 인터넷 또는 개인의 소셜미디어 계정을 통해서 구한 인물 사진 또는 비디오를 이용
        ⊙ 합성 비디오(Synetic Video) 또는 딥 페이크(Deepfake): 촬영한 사진 또는 비디오를 애니매이션 소프트웨어로 편집함으로써 특정인이 대화하거나 얼굴을 움직이는 모습을 재현
        ⊙ 모델 및 3D 마스크: 정교하게 타인의 얼굴을 모방한 모델 또는 3D 입체마스크를 제작 착용
     
  • 안면 위변조 감지 (Face Liveness Detection)
    ‒ 얼굴 인식은 해당 얼굴이 누구인지를 확인하는 과정임에 반해서 안면 위변조 감지는 탐지한 얼굴이 실제 얼굴(Live Face)인지를 확인
    ‒ 안면 위변조 감지(Face Liveness Detection)가 구현된 안면인식 시스템은 다음과 같은 측면에서 매우 중요하고 유용한 인증 수단임
      < 방어적 측면 >
          ⊙ 얼굴 인증 솔루션 사용 증가에 따라서 정교한 얼굴 도용 및 위조를 통해 안면인식 시스템을 무력화하려는 시도도 증가하므로 이를 차단 또는 방어해야 함
          ⊙ 얼굴 인식 알고리즘은 얼굴 이미지의 일치 여부는 확인하지만, 라이브 상태의 얼굴 이미지와 그렇지 않은 이미지를 구별해내는 기능은 없음
          ⊙ 안면 위변조 감지 기능이 없는 얼굴 인증 솔루션을 공개된 장소에서 이용하는 경우 제삼자의 모니터링이 가능하므로 큰 문제가 없으나 스마트폰과 같이 원격에서 이용하는 경우 가짜 계정 생성 및 타인 계정 침해 등 심각한 위험을 초래할 수 있음

      < 공세적 측면 >
          ⊙ 타인 얼굴 사진, 딥페이크 동영상, 가면 또는 분장 등을 통해서 온라인 계정을 생성하거나 액세스하는 것을 원천 봉쇄
          ⊙ 완벽한 안면 위변조 감지 기능 구현은 가짜 계정 생성, 타인 계정에 대한 불법 또는 대리 접속을 원천적으로 차단할 수 있는 유일한 수단
          ⊙ 즉, 안면 인증 솔루션과 안면 위변조 감지 기능의 결합하면 얼굴의 라이브니스 여부 확인이 완료된 안면 이미지 데이터는 일회용 키 역할을 하며 접속할 때마다 사용된 적이 없는 새로운 키를 사용하게 되므로 완벽한 계정 보안 달성 가능

    ‒ 안면 위변조 감지을 위한 데이터셋 부재
        ⊙ 국내에서 제작된 안면 위변조 감지(Face Liveness Detection) 연구용 공개 데이터셋이 없으며, 해외의 경우에도 19개에 불과
        ⊙ 대부분의 기존 안면위변조 감지 학습용 데이터셋은 대상자 및 영상의 수가 작은 편임. 즉, 제한된 규모의 연구 외에 실생활에서 적용하기 위한 안면 위변조 감지 알고리즘 연구를 위해서 미흡.
        ⊙ 한편, CASIA-SURF 데이터셋 2종만이 1,000명 이상의 대상자와 20,000개 이상의 비디오로 구성되어 가장 효과적인 데이터셋으로 인정 받고 있음
        ⊙ 학습 모델에 사용한 데이터 타입의 수에 따른 결과 수치를 비교해 보면, 단일 모달리티 보다는 CASIA-SURF와 같이 복수개의 모달리티를 활용한 데이터셋의 스푸핑 공격에 대한 검출 능력이 훨씬 뛰어난 것을 확인할 수 있음.

 

모달리티 유형 및 조합에 따른 정확도)
Modality TPR(%) APCER(%) NPCER(%) ACER(%)
@FPR=10-2 @FPR=10-3 @FPR=10-4
RGB 51.7 27.5 14.6 40.3 1.6 21.0
DEPTH 96.8 86.5 67.3 6.0 1.2 3.6
IR 62.5 29.4 15.9 38.6 0.4 19.4
RGB & DEPTH 97.1 97.5 71.1 5.8 0.8 3.3
RGB * IR 87.4 60.3 37.0 36.5 0.005 18.3
DEPTH & IR 99.4 95.2 81.2 2.0 0.3 1.1
RGB & IR & DEPTH 99.7 97.4 92.4 1.9 0.1 1.0

 

  •     ⊙ SWIR, BRSU, MLFP, WMCA 데이터 셋의 경우도 멀티 모달리티의 데이터셋을 활용하여 개발되었으나, 대상 데이터셋의 크기가 매우 작고 연구실 환경에서의 검증에 가까워 실제 학습 모델로의 적합성이 검증되기 어려움.
        ⊙ 이러한 이유들로 현재 안면 위변조 감지를 위해 가장 실제 환경에 유사하게 검증된 모델은 CASIA-SURF 가 유일한 모델임.
     
  • 안면 위변조 감지(Face Liveness Detection) 연구용 공개 데이터셋의 필요성
    ‒ 안면 위변조 감지는 안면인식 솔루션의 보안성 및 사용자 경험(User Experience)을 향상시키는 필수 생체 인식 기술
    ‒ 그러나 해외의 연구기관 및 관련 업체들에 비해서 상대적으로 국내 기술 개발 수준이 뒤처져 있음
    ‒ 하지만 얼굴 인식 기술에 대한 수요는 급격히 확대되고 있으며 해외 시장 규모도 급성장하고 있으므로 얼굴 인식 기술 상용화의 핵심 요소인 안면 위변조 감지 알고리즘 연구 및 솔루션 개발을 위한 유용한 데이터셋의 확보가 반드시 필요함
데이터 구조
  • 1. 데이터 구성
수행기관 (주관)
Tag Name 타입 설명 종속 대상
version string 메타 파일 버전 정보 촬영 대상자
id string 대상자 아이디
sex int 성별
age int 연령대
glasses int 안경(선글라스 포함) 유무
mask int 마스크 착용 유무
hat int 모자 착용 유무
3d_mask int 3D 마스크 촬영 여부
Phone string 촬영 스마트폰 촬영 카메라
Tablet string 촬영 태블릿
Camera string 촬영 일반 카메라
M-Camera string 촬영 멀티모달 카메라
  • 2. 어노테이션 포맷
수행기관 (주관)
Tag Name 타입 설명 파일 포맷 저장 위치
face_box int 얼굴 영역 박스 좌표(left, top, right, bottom) json 추출된 이미지디렉토리 (이미지마다 생성됨)
version string 메타 파일 버전 정보 json 촬영 대상자 디렉토리
id string 대상자 아이디
sex int 성별
age int 연령대
glasses int 안경(선글라스 포함) 유무
mask int 마스크 착용 유무
hat int 모자 착용 유무
3d_mask int 3D 마스크 좔영 여부
Phone string 촬영 스마트폰
Tablet string 촬영 태블릿
Camera string 촬영 일반 카메라
M-Camera string 촬영 멀티모달 카메라
데이터셋 구축 담당자
수행기관(주관) : (주)씨유박스
수행기관 (주관)
책임자명 전화번호 대표이메일 담당업무
박준석 02-6277-7800 cubox@cubox.aero · 데이터 구축 및 프로젝트 총괄
수행기관(참여)
수행기관(참여)
기관명 담당업무 기관명 담당업무
(주)인피닉 · 데이터 수집 (주)이스트소프트 · AI 모델 및 응용서비스 개발
고려대학교 DSBA 연구실 · AI 요약모델 개발 한국과학기술연구원