NEW 안면 인식 에이징(aging) 이미지 데이터
- 분야재난안전환경
- 유형 이미지
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-11-03 데이터 최종 개방 1.0 2023-05-26 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-11-27 산출물 전체 공개 소개
한 인물의 유아기부터 현재까지의 연령대별 안면 이미지와 해당 이미지 내의 안면 위치, 랜드마크 등을 라벨링하여 동일 인물의 시간의 경과에 따른 노화로 발생하는 안면 변화 정보를 담고 있는 안면 인식용 인공지능 학습용 데이터 구축
구축목적
- 시간의 경과에 따른 안면 변화에도 강건한 안면 인식 성능을 확보하기 위해 동일 인물의 연령대별 안면 이미지 정보를 포함한 데이터셋 구축 필요 - 크롤링 기반으로 구축된 기존 안면 인식 에이징 데이터들은 잘못된 정보, 한정된 대상 인물 등으로 인해 노이즈 발생 가능성이 크고 학습 데이터양이 충분하지 않지만, 나이별 안면 사진을 보유한 충분한 규모의 대상자로부터 초상권 사용 승인을 득하여 에이징 데이터를 구축함으로써 안면 인식 모델 성능 제고, 나이 추정 및 얼굴 변환 등 관련 연구, 산업 분야에 활용할 수 있음
-
메타데이터 구조표 데이터 영역 재난안전환경 데이터 유형 이미지 데이터 형식 png 데이터 출처 자체 수집 라벨링 유형 바운딩박스, 키포인트 라벨링 형식 JSON 데이터 활용 서비스 공공안전서비스(신원 확인), 엔터테인먼트(캐릭터의 시대별 얼굴 생성) 데이터 구축년도/
데이터 구축량2022년/50,250건 -
1. 데이터 구축 규모
구분 상세 내용 형식 수량 원천 데이터 - 참여자 1인당 50장의 유아~현재까지의 연령대별 사진
- 초상권 사용 동의를 얻는 참여자 안면 제외하고 사진 블러링 처리PNG 50,250 라벨링 데이터 - 참여자 출생년도, 현재 나이, 사진 상 나이, 원본 사진 촬영 기기 등의 수집 메타 정보
-얼굴 바운딩박스 및 5점 키포인트 가공 정보JSON 50,250 2. 데이터 분포
항목 구분 비율(%) 수량(건) 참여자 성별 남자 44.6% 22,400건 여자 55.4% 27,850건 합계 100.0% 50,250건 참여자 연령 분포 20~35세 41.6% 20,900건 36~49세 35.7% 17,950건 50세 이상 22.7% 11,400건 합계 100.0% 50,250건 이미지 연령 분포 사진 상 연령 참여자 연령 20~35세 36~49세 50세 이상 비율 수량 비율 수량 비율 수량 0~5세 32.50% 7,135건 16.70% 2,830건 5.50% 623건 6~9세 10~15세 42.20% 9,273건 24.40% 4,126건 15.60% 1,775건 16~19세 20~25세 25.20% 5,542건 22.30% 3,766건 16.50% 1,882건 26~29세 30~35세 36.60% 6,178건 15.60% 1,779건 36~39세 40~45세 15.50% 1,766건 46~49세 50세 이상 31.40% 3,575건 계 100.00% 21,950건 100.00% 16,900건 100.00% 11,400건 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드나이 추정 모델 : C3AE(Exploring the Limits of Compact Model for Age Estimation)
● 이미지 내 안면의 나이를 학습하고, 이를 기반으로 이미지 내 안면의 나이 추정
● 사람은 이미지의 화질과 이미지 속 얼굴의 크기에 상관없이 나이를 예측할 수 있다는 점에 착안하여 Compact, Cascade, Context-based의 아이디어를 사용한 모델
● 작은 사이즈(64 × 64)의 이미지를 처리하기 위해서 MobileNet 논문에서 제시한 depth-wise separable convolution을 사용하지 않고 일반 convolution만을 사용하여 네트워크 구성나이 추정 모델(C3AE)
나이 변환 얼굴 생성 모델 : SAM (Only a Matter of Style: Age Transformation Using a Style-Based Regression Model)
● 이미지 내 안면의 나이와 안면 특징을 학습하고, 이를 기반으로 변환하고자 하는 나이의 안면을 생성
● SAM은 StyleGAN을 활용하여 타켓 나이의 얼굴을 생성하는 모델임
● pSp 인코더, age 인코더, map2style 블록과 StyleGAN으로 구성되어 있으며, 효과적인 학습을 위해 pSp 인코더와 StyleGAN은 사전학습된 weights 값을 사용
● 생성 모델로 학습 시 사용되는 loss는 L2 loss, LPIPS loss, Regularization loss, Identity loss, Aging loss로 각 loss는 효과적인 학습과 얼굴 이미지 생성 시 정확한 복원을 위해 계산나이 변환 얼굴 생성 모델(SAM)
서비스 활용 예시
- 신원 확인
● 미아, 기억 상실에 의한 행방불명 등으로 장기 실종 상태인 대상자의 현재 얼굴과 실종 신고 시 사용되었던 당시 얼굴 사진으로 본인 여부 확인
● 발급한 지 오래된 신분증 사진으로 본인 여부 확인
● 안면 노화가 진행될 정도로 오랜 기간 동안, 등록된 얼굴 이미지 교체 없이 안면 인식 출입통제 장치 성능 유지- 엔터테인먼트
● 대상자 얼굴의 노화 및 유소년기 상태의 얼굴 생성이 가능하므로 미디어 영상, 메타버스, 게임 등에서 캐릭터의 시대별 얼굴 생성에 활용 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 얼굴 변환 Image Generation SAM Accuracy 40 % 44.45 % 2 나이 추정 Image Classification C3AE MAE 5 단위없음 3.96 단위없음
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 데이터 예시
원천 데이터 라벨링 데이터 라벨링 데이터 시각화 샘플 데이터는 촬영 모델 얼굴을 블러링 처리하였으나, AI-Hub 상에서 해당 데이터 신청 승인을 득한 후 다운로드 받으면 촬영 모델 얼굴이 정상적으로 표시됨
2. 어노테이션 포맷구분 속성명 타입 필수여부 설명 범위 1 filename string 필수 원천데이터 이름 2 id number 필수 ID 3 birth number 필수 참여자 출생연도 4자리 숫자 4 age_now number 필수 현재 나이 5 age_past number 필수 촬영 당시 나이 6 format string 필수 포맷 png, PNG 7 imgsize string 필수 이미지 파일 크기(MB) (MB) 8 width number 필수 이미지 가로길이 9 height number 필수 이미지 세로길이 10 device string 필수 원본 사진 촬영 기기 정보 film, digital 11 gender string 필수 성별 male, female 12 annotation array 필수 12-1 box object 필수 안면 바운딩 박스 x number 필수 안면 바운딩 박스의 min의 x 좌표값 y number 필수 안면 바운딩 박스의 min의 y 좌표값 w number 필수 안면 바운딩 박스의 width h number 필수 안면 바운딩 박스의 height 12-2 landmark array 필수 안면 5개 points $value$ number 필수 안면 5개 points x,y 좌표값 3. 라벨링 데이터(JSON) 예시
-
데이터셋 구축 담당자
수행기관(주관) : ㈜씨유박스
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 박준석 02-6227-7035 jspark@cubox.aero 과제 총괄, 데이터 품질 검증, 모델 개발 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜알체라 데이터 수집·정제·가공 ㈜딥핑소스 데이터 수집 ㈜솔트룩스 데이터 가공 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 박준석 02-6227-7035 jspark@cubox.aero
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.