BETA 글로벌 다인종 피부색 데이터
- 분야헬스케어
- 유형 텍스트 , 이미지
- 생성 방식LMM
※ 26년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2026-06-05 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2026-06-05 산출물 최종 공개 소개
본 데이터셋은 글로벌 시장 진출을 위한 현지화 메이크업 전략 수립을 목적으로 구축되었으며, 인종·지역·연령·환경 정보를 포함한 다인종 전안 이미지와 피부색 컬러값 데이터를 기반으로 한다. 전안 이미지 10,100장과 피부색 측색값 2,525건(xlsx 1건) 활용해 피부톤별 맞춤형 메이크업 방법을 제시하는 질의응답쌍 10,245쌍의 가공데이터를 포함한다.
구축목적
백인 및 동아시아인에 치우친 데이터셋의 한계를 극복하고 지역, 피부색, 연령 등에 따른 메이크업 상품 개발 및 판매를 위한 환경 조성
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 텍스트 , 이미지 데이터 형식 .jpg 데이터 출처 자체 수집 라벨링 유형 질의응답 (자연어) 라벨링 형식 json 데이터 활용 서비스 타겟 시장에 맞춘 메이크업 색상 및 쉐이드 개발, 자사 상품의 색상, 레시피(성분 및 함량)를 연계한 상품 추천 등 데이터 구축년도/
데이터 구축량2025년/- 전안이미지 10,100장 - 피부색 측색값 2,525건(xlsx 1건) - 질의응답쌍 10,245쌍 -
1. 데이터 구축 규모
• 전안 이미지 데이터 : 10,100장
- 2,525명을 인당 4가지 조건(밝기 2조건, 색온도 2조건)으로 촬영 (2,525명 x 4장)
• 컬러값 데이터 : 2,525건(xlsx 1건)
- 2,525명을 인당 4개 포인트(이마 중앙, 우뺨 중앙, 좌뺨 중앙, 목 중앙) 촬영한 2종 측색 유형 CIE Lab, sRGB
• 메이크업 질의응답쌍 : 10,245쌍
- 2,525명의 전안 이미지, 컬러값 데이터, 설문조사 내용을 바탕으로 한 질의응답쌍 10,245쌍 (일부 인원의 질문의 수가 4건에 미치지 못하거나 넘어가는 경우가 있어 정확히 10,100건으로 맞추어져있지 않음.
2. 데이터 분포
• (동일한 환경 기반) 총 2,525명 / 인당 4장 이상 촬영데이터 분포-국가 권역 분포표 항목명 구분 구축 비율 국가 권역 분포 동북아권 31.76% 동남아권 30.37% 북미권 3.98% 유럽권 12.65% 중동권 2.35% 남아시아권 5.20% 기타 13.68% 전체 100.00% - 기타 : 호주, 남미, 아프리카 등
데이터 분포-성별 분포표 항목명 구분 구축 비율 성별 분포 남성 20.44% 여성 79.56% 전체 100.00% 데이터 분포-메이크업 부위 분포표 항목명 구분 구축 비율 메이크업
부위 분포피부 25.27% 눈밑 21.57% 코/콧대 15.29% 뺨 9.50% 눈 7.87% 얼굴 윤곽 4.59% 입술 3.42% 눈두덩이 2.87% 광대 2.84% 눈썹 2.15% 기타 4.65% 전체 100.00% 데이터 분포-피부색 분포표 항목명 구분 구축 비율 피부색 분포 흰피부 (I~II) 21.00% 중간색 (III~IV) 70.97% 어두운색 (V~VI) 8.03% 전체 100.00% 데이터 분포-밝기별 표 항목명 구분 구축 비율 밝기별 500lux 3200K 25% 5600K 25% 5000lux 3200K 25% 5600K 25% 전체 100.00% 데이터 분포-촬영 부위별 피부색 컬러값 유형 분포표 항목명 구분 구축 비율 촬영 부위별
피부색 컬러값
유형 분포이마 중앙 CIE Lab 12.50% sRGB 12.50% 뺨(좌) CIE Lab 12.50% sRGB 12.50% 뺨(우) CIE Lab 12.50% sRGB 12.50% 목 중앙 CIE Lab 12.50% sRGB 12.50% 전체 100.00% 데이터 분포-연령별 분포표 항목명 구분 구축 비율 연령별 분포 20대 54.94% 30대 29.40% 40대 9.62% 50대 이상 6.03% 전체 100.00% 데이터 분포-최소 어절 수 표 항목명 구분 구축 비율 최소 어절 수 질의문 어절 수 14어절 서술형 답변문 어절 수 37어절 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드가) 모델명: LLaVA-NeXT
a) 목적: 분류
b) 선정 사유
- 다양한 인종의 미묘한 피부톤과 질감을 정확하게 분석하기 위해서는 고해상도 이미지 처리 능력이 매우 중요
- LLaVA-NeXT는 고해상도 이미지 처리 분야에서 명확한 개선을 보여주었으며, 이는 임무1(분류)의 정확도를 높이고 결과적으로 임무 2(추론)와 임무 3(생성)의 완성도 향상에 기여할 것으로 판단됨
- 405B 모델까지 공개되어 향후 더 높은 성능이 요구될 경우 확장 가능성도 열려 있음.
- LLaVA-NeXT는 개선된 추론 능력과 강력한 기반 언어 모델(Llama-3)의 생성 능력을 결합하여, 합리적인 추천(임무2)과 함께 설득력 있고 자연스러운 설명 및 가이드 생성(임무3)에서 시너지를 발휘할 가능성이 높음
c) 모델 아키텍처
d) 모델 구조
- LLaVA-NeXT는 이미지와 텍스트를 동시에 처리할 수 있는 멀티모달 구조를 기반으로 고해상도 이미지는 AnyRes 기법을 통해 여러 패치로 나누어 처리되며, 이 정보는 Vision Transformer 기반의 인코더를 통해 시각적 임베딩으로 변환
- 동시에, 사용자로부터 입력된 질문이나 지시는 텍스트 형태로 언어 모델(예: LLaMA3, Qwen 등)에 주어지며, 이미지 임베딩과 텍스트 임베딩은 통합되어 대규모 언어 모델(LLM)의 입력으로 전달되고, 이 모델은 이를 바탕으로 자연어 형태의 응답 또는 추론 결과를 생성
- 이 구조는 단순하면서도 효율적인 데이터 흐름을 통해 고성능의 시각-언어 이해 능력을 달성하며, 특히 OCR과 문서 이해, 비정형 시각 정보 처리에 강점나) 모델명: LLaMA 3.1
a) 목적: 합성, 생성
b) 선정 사유
- 국가 R&D 사업의 결과물로써 확장성 및 기술 내재화 측면에서 모델 가중치 접근 및 수정이 자유로움
- 본 과제에서 구축 예정인 데이터 특성(특히 한국어)에 최적화되어 있으며, 커스터마이징도 가능하여 적합할 것으로 판단함
- 현재 가장 활발한 오픈소스 LLM 생태계를 보유하고 있으며, 다양한 커뮤니티 활동으로 파인튜닝 도구, PEFT 기법 등 다양한 연구자료 확보 가능
- LLaMA 3.1은 다양한 크기로 제공되며, 특히 70B 이상 모델은 파인튜닝을 통해 특정 도메인 및 instruction following 작업에서 매우 우수한 성능을 달성
- 다수의 연구를 통해 검증됨. 405B 모델까지 공개되어 향후 더 높은 성능이 요구될 경우 확장 가능
- 데이터 주권, 보안, 한국어 특화 및 최적화 등을 고려할 때 국내 환경에서 직접 운영과 관리가 가능한 오픈소스 모델이 적합할 것으로 판단
- LLaMA는 다양한 요구사항을 충족하며, 다수의 검증을 통해
안정성도 확보한 모델로 판단함
c) 모델 아키텍처
d) 모델 구조
- LLaMA 3.1 모델은 기본적으로 Transformer 아키텍처를 따르며, 각 층은 ‘셀프 어텐션(Self-Attention)’과 ‘피드포워드 네트워크(FFN)’로 구성
- 활성화 함수로는 SwiGLU가 사용되며, 포지셔널 정보는 RoPE(Rotary Positional Embedding)를 통해 처리
- LayerNorm 대신 RMSNorm 정규화 기법이 도입되어 안정성과 효율을 향상시켰고, Attention 기법에는 Multi-Query Attention(MQA) 또는 ‘Grouped-Query Attention (GQA)’이 일부 변형 버전에 도입 가능
- 고정된 어휘집(Vocabulary)과 Tokenizer를 기반으로 입력된 텍스트는 임베딩 레이어를 거쳐 수백억 개의 파라미터를 가진 네트워크를 통과하며 문맥 기반의 출력을 생성하며, 큰 모델일수록 깊은 레이어 수, 넓은 히든 사이즈, 많은 헤드를 갖음
e) AI 모델 성능LLaMA 3.1 AI모델 성능 표 품질특성 항목명 측정 지표 정량 목표 피부톤 TOP-1 Accuracy 97% 이상 97.10% 특성 분류 맞춤형 메이크업 BERT Score 85% 이상 0.8529 추천 추론 설명 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드세부데이터 표 구분 속성명 타입 필수
여부설명 1 Data_info Object Y 데이터 정보 1-1 license String Y 저작권 2 Human_info Object Y 대상자 정보 2-1 UID String Y 참가자 식별자 2-2 Age String Y 연령 2-3 Gender String Y 성별 2-4 Continent String Y 권역 2-5 Country of Birth String Y 출생국가 2-6 Region of Residence in Country of Birth String Y 출생국가 거주지역 2-7 Region of Residence in Korea String Y 국내 거주지역 2-8 Duration of Stay in Korea String N 국내 체류기간 3 Shoot_info Object Y 촬영 정보 3-1 Date of Shooting String Y 촬영일자 3-2 Shooting Device String Y 촬영기기 3-3 Resolution String Y 해상도 3-4 File Extension String Y 파일 확장자 3-5 Image File Name1 String Y 500l3200k 이미지 파일명 3-6 Image1_Ev String Y 조도1 3-7 Image1_ISO String Y 감도1 3-8 Image1_S String Y 셔터속도1 3-9 Image1_lux String Y 이미지 밝기1 3-10 Image1_Kelvin (K) String Y 이미지 색온도1 3-11 Image File Name2 String Y 500l5600k 이미지 파일명 3-12 Image2_Ev String Y 조도2 3-13 Image2_ISO String Y 감도2 3-14 Image2_S String Y 셔터속도2 3-15 Image2_lux String Y 이미지 밝기2 3-16 Image2_Kelvin (K) String Y 이미지 색온도2 3-17 Image File Name3 String Y 5000l3200k 이미지 파일명 3-18 Image3_Ev String Y 조도3 3-19 Image3_ISO String Y 감도3 3-20 Image3_S String Y 셔터속도3 3-21 Image3_lux String Y 이미지 밝기3 3-22 Image3_Kelvin (K) String Y 이미지 색온도3 3-23 Image File Name4 String Y 5000l5600k 이미지 파일명 3-24 Image4_Ev String Y 조도4 3-25 Image4_ISO String Y 감도4 3-26 Image4_S String Y 셔터속도4 3-27 Image4_lux String Y 이미지 밝기4 3-28 Image4_Kelvin (K) String Y 이미지 색온도4 4 Skin_info Object Y 측색 데이터 정보 4-1 Skin Colorimeter String Y 피부 측색기기 4-2 Forehead Colorimeter Reading (Lab) String Y 이마 측색값 (Lab) 4-3 Left Cheek Reading (Lab) String Y 왼쪽 뺨 측색값 (Lab) 4-4 Right Cheek Reading (Lab) String Y 오른쪽 뺨 측색값 (Lab) 4-5 Neck Reading (Lab) String Y 목 측색값 (Lab) 4-6 Forehead Colorimeter Reading (RGB) String Y 이마 측색값 (RGB) 4-7 Left Cheek Reading (RGB) String Y 왼쪽 뺨 측색값 (RGB) 4-8 Right Cheek Reading (RGB) String Y 오른쪽 뺨 측색값 (RGB) 4-9 Neck Reading (RGB) String Y 목 측색값 (RGB) 4-10 Forehead Colorimeter Reading (ITA) String Y 이마 측색기 측정값 (ITA) 4-11 Left Cheek Reading (ITA) String Y 왼쪽 뺨 측정값 (ITA) 4-12 Right Cheek Reading (ITA) String Y 오른쪽 뺨 측정값 (ITA) 4-13 Neck Reading (ITA) String Y 목 측정값 (ITA) 4-14 ITA Avg. String Y ITA 평균 4-15 Fitzpatrick String Y 광피부형 4-16 Skin Tone String Y 피부톤 5 Survey_info Object Y 설문데이터 정보 5-1 Survey_Skin Condition String Y 피부 상태 구분 5-2 Survey_Glasses String Y 안경착용 5-3 Survey_Beard String Y 수염인지여부 5-4 Survey_Hair String Y 헤어길이 5-5 Survey_Hair texture String Y 헤어텍스쳐 5-6 Survey_Hair style String Y 헤어스타일 5-7 Survey_Hair Color String Y 헤어색 5-8 Survey_focus areas String Y 피부 고민 부위 6 Survey_setting_info Object Y 상황설정 설문 데이터 정보 6-1 Survey_setting_Makeup Season String Y 상황_계절 6-2 Survey_setting_Makeup Purpose String Y 상황_메이크업 목적 6-3 Survey_setting_Makeup Clothes String Y 상황_옷 6-4 Survey_setting_Makeup Style String Y 상황_메이크업 스타일 6-5 Survey_setting_Makeup Condition String Y 상황_메이크업 컨디션 7 Annotation_info Object Y 질문 및 답변 정보 7-1 User Question String Y 이용자 질문 7-2 Makeup Response String Y 메이크업 답변 데이터 예시
{
"Data_info": {
"license": "㈜데이터쿡"
},
"Human_info": {
"UID": "ET20488",
"Age": "20대",
"Gender": "여성",
"Continent": "기타",
"Country of Birth": "카자흐스탄",
"Region of Residence in Country of Birth": "Шымкент",
"Region of Residence in Korea": "서울",
"Duration of Stay in Korea": "1"
},
"Shoot_info": {
"Date of Shooting": "2025/09/04",
"Shooting Device": "GALAXY 24 Ultra",
"Resolution": "3000X4000",
"File Extension": "JPG",
"Image File Name1": "ET20488_5L32K.jpg",
"Image1_Ev": "Auto",
"Image1_ISO": "100",
"Image1_S": "1/125",
"Image1_lux": "500",
"Image1_Kelvin (K)": "3200",
"Image File Name2": "ET20488_5L56K.jpg",
"Image2_Ev": "Auto",
"Image2_ISO": "100",
"Image2_S": "1/125",
"Image2_lux": "500",
"Image2_Kelvin (K)": "5600",
"Image File Name3": "ET20488_5KL32K.jpg",
"Image3_Ev": "Auto",
"Image3_ISO": "100",
"Image3_S": "1/250",
"Image3_lux": "5000",
"Image3_Kelvin (K)": "3200",
"Image File Name4": "ET20488_5KL56K.jpg",
"Image4_Ev": "Auto",
"Image4_ISO": "100",
"Image4_S": "1/250",
"Image4_lux": "5000",
"Image4_Kelvin (K)": "5600"
},
"Skin_info": {
"Skin Colorimeter": "Spectrophotometer CM26d",
"Forehead Colorimeter Reading (Lab)": "65.32667, 7.65667, 17.58333",
"Left Cheek Reading (Lab)": "69.64000, 7.72000, 16.15667",
"Right Cheek Reading (Lab)": "68.73667, 8.13333, 15.53333",
"Neck Reading (Lab)": "65.10667, 7.01333, 18.33667",
"Forehead Colorimeter Reading (RGB)": "183.70433, 152.92046, 127.63807",
"Left Cheek Reading (RGB)": "195.03442, 164.41118, 141.33932",
"Right Cheek Reading (RGB)": "192.85375, 161.77875, 140.13003",
"Neck Reading (RGB)": "182.43487, 152.69664, 125.70047",
"Forehead Colorimeter Reading (ITA)": "41.0781",
"Left Cheek Reading (ITA)": "50.55827",
"Right Cheek Reading (ITA)": "50.34044",
"Neck Reading (ITA)": "39.51036",
"ITA Avg.": "45.37179",
"Fitzpatrick": "II",
"Skin Tone": "흰피부"
},
"Survey_info": {
"Survey_Skin Condition": "복합성 피부결(부위별로 건조/유분/각질 등이 섞여 있는 피부)",
"Survey_Glasses": "아니오",
"Survey_Beard": "아니오",
"Survey_Hair": "롱(등에 닿음)",
"Survey_Hair texture": "직모",
"Survey_Hair style": "머리를 묶지 않음",
"Survey_Hair Color": "다크브라운",
"Survey_focus areas": "눈"
},
"Survey_setting_info": {
"Survey_setting_Makeup Season": "여름",
"Survey_setting_Makeup Purpose": "데일리",
"Survey_setting_Makeup Clothes": "드레스업 캐주얼 (미니스커트, 크롭탑 등)",
"Survey_setting_Makeup Style": "성숙/우아",
"Survey_setting_Makeup Condition": "기분이 좋은"
},
"Annotation_info": {
"User Question": "20대 카자흐스탄 여성으로 장발입니다. 한국 여름은 날씨가 너무 더워 두꺼운 파운데이션을 사용하기 꺼려집니다. 땀 때문에 화장이 쉽게 무너져서 고민인데, 얇은 베이스로도 화장이 오래 지속되고 번짐 없는 여름철 메이크업 픽서 활용법이 궁금합니다.",
"Makeup Response": "20대 카자흐스탄 여성의 복합성 피부는 한국 여름철의 덥고 습한 기후에서 쉽게 땀이 나 화장이 무너질 수 있습니다. 카자흐스탄은 내추럴하면서도 정돈된 피부 표현을 선호하므로, 얇은 베이스와 픽서를 활용해 지속력을 높이는 방법이 바람직합니다. 여름철 땀으로 인한 화장 무너짐을 해결하기 위해 파운데이션을 브러시나 스펀지에 소량만 묻혀 얇게 펴 바르고, 픽서를 베이스 전, 후 두 차례 사용하는 것이 효과적입니다. 먼저 파운데이션 브러시에 픽서를 가볍게 뿌려 함께 밀착시킨 후, 메이크업 완성 후 얼굴 전체에 안개처럼 픽서를 분사하면 무너짐 없이 오래 지속됩니다. 이러한 방법으로 메이크업을 시도하면 도움이 됩니다."
}
} -
데이터셋 구축 담당자
수행기관(주관) : ㈜데이터쿡
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김성근 02-6380-3000 ksg@datacook.kr 사업총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜메트릭스 원천데이터 수집 ㈜아비스 데이터 정제 아이이씨코리아(주) 전안이미지 촬영, 피부색 측정 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김홍건 02-6244-0783 hkkim@metrix.co.kr AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 김성근 02-6380-3000 ksg@datacook.kr 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 김홍건 02-6244-0783 hkkim@metrix.co.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의