-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.2 2023-12-08 데이터 최종 개방 1.1 2023-11-02 데이터 최초 개방 1.0 2023-05-26 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-12-08 산출물 전체 공개 소개
실제 상황에서 CCTV 등 수요가 증가하고 있는 IR 카메라로 촬영된 안면 이미지와 이미지 내의 1인 또는 다수의 안면에 대한 안면 위치 및 랜드마크 라벨링 가공을 진행하여 안면 인식 및 검출 모델의 성능 정확도를 높이기 위한 인공지능 학습용 데이터 구축
구축목적
- 대부분의 안면 인식 및 검출 데이터셋은 RGB 이미지로 구축되어 있음. CCTV 등 수요가 증가하고 있는 IR 카메라를 이용하는 안면 인식 및 검출 성능을 강화하기 위해 실제 상황에서 IR 카메라로 촬영해서 수집된 안면 이미지 데이터셋 구축이 필요함 - IR 카메라를 이용한 안면 인식 및 검출 데이터를 통해 CCTV를 이용한 신원 확인, 동선 추적 등 CCTV 활용도를 높이고 안면 위변조를 통한 공격 감지 성능도 확보하고자 함
-
메타데이터 구조표 데이터 영역 재난안전환경 데이터 유형 이미지 데이터 형식 PNG 데이터 출처 자체 수집 라벨링 유형 바운딩박스, 키포인트 라벨링 형식 JSON 데이터 활용 서비스 공공안전서비스(신원 확인 및 추적서비스), 보안 및 경비(PAD(Presentation Attack Detection) 서비스) 데이터 구축년도/
데이터 구축량2022년/240,712건 -
1. 데이터 구축 규모
1. 데이터 구축 규모 데이터명 상세 구분 원천 데이터(png) 라벨링 데이터(json) IR 실제 환경 안면 검출 및 인식 데이터 인식용 IR 안면 데이터 216,072장
(3,001명 x 72장/인)216,072개 검출용 IR 안면 데이터 24,640장
(308팀 x 80장/팀)24,640개 합계 240,712장 240,712개 1. 데이터 분포
인식용 데이터 참여자 성별/연령대별 분포
1. 데이터 분포 인식용 데이터 참여자 성별/연령대별 분포 항목 구분 수량 비율(%) 인식용 데이터
참여자 성별남자 103,752건 52.00% 여자 112,320건 48.00% 합계 216,072건 100.00% 인식용 데이터
참여자 연령20대 58,320건(10대 72건) 26.90% 30대 52,488건 24.30% 40대 50,112건 23.20% 50세 이상 55,152건 25.50% 합계 216,072건 100.00% 인식용 데이터 촬영 환경 분포
1. 데이터 분포 인식용 데이터 촬영 환경 분포 항목 구분 수량 비율(%) 인식용 데이터
촬영 환경 분포실내 환경 71,013건 33.30% 실외 - 직광 72,042건 33.30% 실외 - 역광 72,017건 33.30% 합계 216,072건 100.00% 검출용 데이터 촬영 상황별 분포
1. 데이터 분포 검출용 데이터 촬영 상황별 분포 항목 구분 수량 비율(%) 검출용 데이터
촬영 상황별 분포CCTV indoor 6,160건 25.00% outdoor 6,160건 25.00% wider face 기반 indoor 6,160건 25.00% outdoor 6,160건 25.00% 합계 24,640건 100.00% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드IR 기반 안면 인식 AI 모델: ArcFace
모델 개요
● IR 카메라로 촬영된 2개의 이미지를 입력받아 두 이미지 안의 인물이 동일 인물인지 판단하는 모델임
● 기존 안면 인식 모델에서는 inter-class 간 분별력(Discriminative)을 극대화하는 데 초점을 맞추어 모델 구조 및 Loss 설계에 집중하나, 안면 인식 task의 특성 상 intra-class의 밀집력(compactness) 역시 고려해야 함
● Intra-class 밀집력을 극대화할 경우 inter-class 간 분별력도 증가하는 것이 확인됨
● ArcFace는 기존 Angular Margin 기반의 안면 인식 모델들에 Additive한 Loss를 추가하여 intra-class 분별력 성능을 높인 모델임IR 기반 안면 검출 AI 모델: RetinaFace
모델 개요
안면 검출 task의 경우, 객체 검출과는 다르게 얼굴 영역의 종횡비 variation이 작아 얼굴 특성에 맞춰 1:1 종횡비의 Anchor Box를 사용하는 모델을 고려함. Retinaface는 Anchor Box를 기반으로 탐지를 수행하는 모델임. 5-Point Landmark, Bbox, Classification 및 Dense regression을 하나의 Loss로 Multi-task Learning하여 탐지 성능을 극대화한 모델임서비스 활용 예시
서비스 활용 예시 활용 분야 활용 서비스 공공안전 서비스 신원 확인 및 추적 서비스 - CCTV IR 카메라를 이용하여 저조도, 야간에도 효과적이고 정확한 신원 확인 - 여러 대의 CCTV 카메라를 이용하여 특정 대상자를 반복 식별하고 동선을 추적하는 서비스 보안 및 경비 PAD(Presentation Attack Detection) 서비스 출력된 얼굴 사진 혹은 영상으로 재생되는 얼굴 이미지로 신원 인증을 받아 안면 인식 장치 또는 인증 시스템을 무력화하려는 공격을 IR 카메라를 이용하여 차단 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 얼굴 인식 성능 Face Recognition Retinaface Accuracy 92 % 94.93 % 2 얼굴 탐지 성능 Object Detection Arcface mAP 90 % 97.86 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 데이터 예시
IR 안면 인식용 데이터
[원천데이터]
[라벨링 데이터 시각화]
[라벨링 데이터]
IR 안면 검출용 데이터
[원천데이터]
[라벨링 데이터 시각화]
[라벨링 데이터]
1. 어노테이션 포맷
IR 안면 인식용 데이터 JSON 구성 요소
1. 어노테이션 포맷 IR 안면 인식용 데이터 JSON 구성 요소 구분 속성명 타입 필수 설명 1 filename string 필수 원천데이터 이름 2 id string 필수 ID(4자리 숫자) 3 date string 선택 촬영연도(4자리 숫자) 4 format string 필수 포맷(png, PNG) 5 imgsize string 필수 이미지 파일 크기(MB) 6 width number 필수 이미지 가로길이 7 height number 필수 이미지 세로길이 8 device string 필수 촬영 기기 정보 9 gender string 필수 성별(male, female) 10 birth string 필수 피촬영자 출생연도(4자리 숫자) 11 location string 필수 촬영장소 (indoor, outdoor) 12 annotation array 필수 12-1 box object 필수 안면 바운딩박스 x number 필수 안면 바운딩박스 min의 x 좌표값 y number 필수 안면 바운딩박스 min의 y 좌표값 w number 필수 안면 바운딩박스의 width h number 필수 안면 바운딩박스의 height 12-2 landmark array 필수 안면 5개 points $value$ number 필수 안면 5개 points x,y 좌표값 IR 안면 검출용 데이터 JSON 구성요소
1. 어노테이션 포맷 IR 안면 검출용 데이터 JSON 구성요소 구분 속성 타입 필수 설명 1 filename string 필수 원천데이터 이름 2 id string 필수 ID(4자리 숫자) 3 date string 선택 촬영연도(4자리 숫자) 4 format string 필수 포맷(png, PNG) 5 imgsize string 필수 이미지 파일 크기(MB) 6 width number 필수 이미지 가로길이 7 height number 필수 이미지 세로길이 8 device string 필수 촬영 기기 정보 9 location string 필수 촬영장소(indoor, outdoor) 10 scene number 선택 시나리오 번호(4자리 숫자)
- 1,000개 시나리오 설정
- wider 항목만 해당11 annotation array 필수 11-1 box object 필수 안면 바운딩박스 x number 필수 안면 바운딩박스 min의 x 좌표값 y number 필수 안면 바운딩박스 min의 y 좌표값 w number 필수 안면 바운딩박스 width h number 필수 안면 바운딩박스 height 11-2 landmark array 필수 안면 5개 points $value$ number 필수 안면 5개 points x,y 좌표값 3. 라벨링 데이터 실제 예시
IR 안면 인식용 데이터IR 안면 검출용 데이터
-
데이터셋 구축 담당자
수행기관(주관) : ㈜씨유박스
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 박준석 02-6227-7035 jspark@cubox.aero 과제 총괄, 데이터 품질 검증, 모델 개발 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜알체라 데이터 수집·정제·가공 ㈜딥핑소스 데이터 수집 ㈜솔트룩스 데이터 가공 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 박준석 02-6227-7035 jspark@cubox.aero
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.