BETA 스킨케어 성분-효능 추천 데이터
- 분야헬스케어
- 유형 텍스트 , 이미지
- 생성 방식LMM
※ 26년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다 ※ 스킨케어 성분-효능 추천 데이터의 비식별화된 안면 이미지 등은 개인정보 동의를 받아 수집된 데이터입니다.
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2026-05-19 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2026-05-19 산출물 최종 공개 소개
개인별 맞춤형 화장품 추천을 위한 피부 고민에 따른성분 효능 관리법 등에 대한 단계적 사고 과정이 포함된 스킨케어 데이터
구축목적
개인별 피부 특성(고민, 타입, 상태 등) 및 외부 환경 요인을 종합적으로 고려하여, 최적의 스킨케어 성분·효능·관리법을 과학적 근거 기반의 단계적 사고 과정(CoT)과 함께 추천하는 AI 학습용 데이터셋 구축
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 텍스트 , 이미지 데이터 형식 jpg/csv 데이터 출처 자체 수집 라벨링 유형 구조화된 CoT(Chain-of-Thought) 텍스트 생성 및 연관 정보 태깅 라벨링 형식 jsonl 데이터 활용 서비스 맞춤형 화장품 성분/제품 추천, 피부 관리 교육 및 컨설팅, 피부 연구 및 제품 개발 데이터 구축년도/
데이터 구축량2025년/• 원천 데이터: 이미지 10,000 장, 설문조사 10,000 건 • 라벨링 데이터: Q-CoT-A 10,000 건 -
◯ 성별 분포
◯ 성별 분포 성별 인원수 비율(%) 특징 여성 5,643명 56.43% K-뷰티 주 소비층 남성 4,357명 43.57% 남성 뷰티 시장 확대 합계 10,000명 100.00% 균형잡힌 구성 ◯ 기본 연령특성 분포
◯ 기본 연령특성 분포 통계항목 값 의미 평균 연령 43.79세 중년층 중심 중앙값 43.0세 평균과 일치 표준편차 13.37세 다양한 연령 분포 최소 연령 13세 10대 청소년 포함 최대 연령 69세 60대 후반까지 25 백분위수 33.0세 젊은층 경계 75 백분위수 55.0세 중장년층 경계 ◯ 기본 연령 분포
◯ 기본 연령 분포 연령대 인원수 비율(%) 주요 피부 고민 10대 181명 1.81% 여드름, 피지 20대 1,553명 15.53% 모공, 피지, 여드름 30대 2,291명 22.91% 색소침착, 모공, 주름 40대 2,362명 23.62% 주름, 탄력, 색소침착 50대 1,909명 19.09% 주름, 처짐, 건조 60대 1,704명 17.04% 깊은 주름, 탄력 저하 합계 10,000명 100.00% - ◯ 피부 타입 분석
◯ 피부 타입 분석 피부 타입 인원수 비율(%) 특성 복합성 4,093명 40.93% T존 지성 + 볼 건성 중성 2,416명 24.16% 균형잡힌 피부 지성 1,838명 18.38% 피지 과다 건성 1,653명 16.53% 수분 부족 합계 10,000명 100.00% - ◯ 피부 고민 분포
◯ 피부 고민 분포 피부 고민 인원수 비율(%) 순위 미백(색소침착/기미/칙칙함) 4,674명 46.74% 1위 모공 3,077명 30.77% 2위 주름 1,283명 12.83% 3위 여드름/뾰루지 808명 8.08% 4위 붉어짐(홍조) 69명 0.69% 5위 과각질/악건성 69명 0.69% 5위 민감성(트러블/자극감) 12명 0.12% 7위 피부처짐/탄력저하 8명 0.08% 8위 ◯ 외부 요인 1순위
◯ 외부 요인 1순위 외부 요인 선택 횟수 비율(%) 영향 자외선/블루라이트 5,582회 55.82% 광노화, 색소침착 호르몬 변화 1,529회 15.29% 생리, 갱년기 계절적 요인 1,401회 14.01% 온습도 변화 스트레스 998회 9.98% 피부 장벽 약화 생활습관 199회 1.99% 수면, 식습관 대기오염물질 195회 1.95% 미세먼지, 황사 화장품 96회 0.96% 제품 자극 ◯ 외부 요인 2순위
◯ 외부 요인 2순위 외부 요인 선택 횟수 비율(%) 복합 영향 대기오염물질 2,536회 25.36% 미세먼지 노출 스트레스 1,822회 18.22% 업무/생활 환경 생활습관 1,676회 16.76% 수면/식습관 화장품 1,228회 12.28% 제품 변경/사용법 계절적 요인 1,113회 11.13% 환절기 자외선/블루라이트 193회 1.93% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드가. 모델 설계 개요
본 과제는 피부 이미지와 설문 데이터를 통합 분석하여 개인 맞춤형 스킨케어 성분을 추천하는 멀티모달 AI 모델 설계. 모델은 Chain-of-Thought(CoT) 기반의 단계적 추론을 통해 추천 근거를 명확히 제시하도록 설계.가. 모델 설계 개요 구분 내용 모델명 LLaVA-1.5-7B (Large Language and Vision Assistant) 모델 임무 유형 이미지-텍스트 분석, 텍스트 생성, 단계적 질의응답 기반 스킨케어 성분 추천 어노테이션 유형 CoT(Chain-of-Thought) 기반 QA 학습 방식 LoRA (Low-Rank Adaptation) Fine-tuning 목표 성능 Semantic Cosine Similarity ≥0.85, F1-점수 ≥0.96 나. 모델 선정 근거
(1) 모델 선정 요구사항나. 모델 선정 근거 (1) 모델 선정 요구사항 요구사항 내용 선정 모델의 충족 여부 절차적 지식 처리 CoT 기반 단계별 추론 능력 LLaVA의 언어모델이 CoT 추론 지원 한국어 지원 한국어 질문/답변 생성 능력 다국어 토크나이저로 한국어 처리 검증 멀티모달 처리 이미지 + 텍스트 통합 분석 Vision Tower로 이미지 인코딩 지원 효율적 학습 제한된 GPU 환경에서 학습 가능 LoRA로 파라미터 효율적 미세조정 (2) 모델 아키텍처

나. 모델 선정 근거 (2) 모델 아키텍처 컴포넌트 역할 파라미터 Vision Tower 피부 이미지 시각적 특징 추출 CLIP ViT-L/14 (336px) Multi-modal Projector 이미지 임베딩을 언어 공간으로 투영 2-layer MLP LLM Backbone CoT 추론 및 텍스트 생성 Vicuna-7B (3) 멀티모달 CoT 프레임워크
나. 모델 선정 근거 (3) 멀티모달 CoT 프레임워크 Stage 입력 출력 주요 처리 Stage 1 이미지 + Question CoT (3단계) 문제 분석 → 원인 파악 → 성분 선택 근거 Stage 2 CoT Answer 추천 성분, 사용법, 주의사항 종합 다. 학습 환경 및 조건
(1) 하드웨어 환경다. 학습 환경 및 조건 (1) 하드웨어 환경 구성 요소 사양 CPU Intel Xeon 32 cores Memory 128 GB 이상 GPU NVIDIA RTX PRO 6000 Blackwell Max-Q Workstation Edition VRAM 95 GB 이상 (권장) Storage 2 TB OS Windows 10/11 Pro (64-bit) (2) 소프트웨어 환경
다. 학습 환경 및 조건 (2) 소프트웨어 환경 구성 요소 버전 Python 3.10.12 PyTorch 2.9.0+cu130 Transformers 4.40.0 PEFT (LoRA) 0.10.0 환경 관리 Conda (3) 학습 조건
다. 학습 환경 및 조건 (3) 학습 조건 항목 설정값 비고 학습 방식 LoRA Fine-tuning 파라미터 효율적 미세조정 샘플링 Random Sampling 80/10/10 분할 LoRA 미세조정 대상 Vision Tower + Multi-modal Projector 언프리즈 Epochs 5 - Batch Size 32 GPU 메모리에 따라 조정 임베딩 모델 KLUE RoBERTa 한국어 의미 유사성 평가용 (4) LoRA 설정
다. 학습 환경 및 조건 (4) LoRA 설정 하이퍼파라미터 값 설명 LoRA Rank (r) 16 Low-rank 행렬 차원 LoRA Alpha 32 스케일링 팩터 Target Modules q_proj, v_proj Attention 레이어 대상 Dropout 0.05 과적합 방지 라. AI 모델 성능
라. AI 모델 성능 TASK 명 모델명 지표 목표치 최종 결과 CoT 의미론적 유사성 LLaVA 1.5 7b Semantic Similarity ≥0.85 0.884 추천 성능 LLaVA 1.5 7b F1 Score
(KEA 기반)≥0.96 0.978 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 데이터 구성
• 원천데이터 ① (JPG 포맷)
- 피부이미지 10,000장
• 원천데이터 ② (CSV 포맷)
- 설문데이터 10,000건
• 원천데이터 ③ (CSV 포맷)
- 지식성분데이터 74,183,963 어절
• 라벨링 데이터 (JSONL 포맷)
- CoT(Chain of Thought) 설문 기반 질문 및 단계적 사고 과정 라벨링 데이터 10,000건2. 어노테이션 포맷
2. 어노테이션 포맷 구분 속성명 타입 필수여부 설명 범위 비고 1 info Object Y 기본 정보 1-1 info.id String Y 고유식별자 ^COT_([A-Z]+)_([A-Z])_([A-Z0-9]+)_(\d+)$ 1-2 info.source_survey_id String Y 본 설문 데이터 ID ^\d{5}$ 1-3 info.target_concern String Y 사용자의 핵심 피부 고민 여드름/뾰루지, 미백(색소침착/기미/칙칙함), 주름, 모공, 민감성(트러블/자극감), 피부처짐/탄력저하, 과각질/악건성, 붉어짐(홍조) 1-4 info.question String Y 사용자의 상황과 요구사항을 요약한 질문 50어절 이상 1-5 info.answer String Y question에 대한 최종 요약 답변 50어절 이상 1-6 info.evidence_sources Array
[String]Y answer의 근거가 되는 자료 ID 목록 최소 1개 이상 2 meta Object Y 메타 정보 2-1 meta.gender String Y 성별 여성, 남성 2-2 meta.age Integer Y 나이 10-99 ^[1-9][0-9]$ 2-3 meta.initial_skin_condition String N 초기 피부 상태 진단 코드 7개의 카테고리별 상태코드를 '/'로 연결된 형식 2-4 meta.skin_type String N 사용자 인지 피부 타입 중성, 건성, 지성, 복합성 2-5 meta.skin_concerns Array
[String]Y 사용자의 모든 피부 고민 목록 여드름/뾰루지, 미백(색소침착/기미/칙칙함), 주름, 모공, 민감성(트러블/자극감), 피부처짐/탄력저하, 과각질/악건성, 붉어짐(홍조) 2-6 meta.image_filename String Y 사용자 피부 이미지 파일명 ^\d{5}\.jpg$ 3 external Array
[Object]Y 피부에 영향을 미치는 외부 요인 3-1 external.priority Integer Y 외부 요인 항목
우선 순위1, 2, 3, 4 3-2 external.factor String Y 외부 요인 항목
대분류계절적요인, 스트레스, 자외선/블루라이트, 호르몬변화, 대기오염물질, 생활습관, 화장품 3-3 external.details String Y 외부 요인 항목
소분류온습도변화(더위, 추위), 환절기(바람), 업무환경(잔업, 대인관계), 생활환경(수면부족, 복잡한일상), 햇빛(UV), 블루라이트(핸드폰), 음주, 흡연, 다이어트, 생리 영향, 갱년기, 화장품변경, 화장품사용습관(횟수, 양)변경, 미세먼지, 황사 4 chain_of_thought Array
[Object]Y 논리적 추론 과정 최소 3개(단계) 이상 4-1 chain_of_thought.step Integer Y 추론 단계 순번 1부터 순차적으로 증가 4-2 chain_of_thought.title String Y 단계별 소제목 문제 분석 및 원인 파악, 성분 선택 및 근거 제시, 사용법 및 관리방안 4-3 chain_of_thought.content String Y 단계별 상세 추론 내용 최소 50어절 3. 데이터 포맷
• 원천데이터(JGP, CSV) - 가공데이터(형식: JSONL)4. 실제 예시
• 원천데이터 ① (JPG 포맷)

• 원천데이터 ② (CSV 포맷)

• 원천데이터 ③ (CSV 포맷)

• 라벨링 데이터 (JSONL 포맷)
{"info": {"id": "COT_ETC_F_O40_00023", "source_survey_id": "00004", "target_concern": "모공", "question": "47세 여성분의 복합지성 피부, 특히 민감성으로 인한 피부 트러블이 주요 고민이시라면, 피부 장벽 강화에 초점을 맞춘 과학적인 접근이 필요합니다. 세라마이드, 판테놀과 같은 피부 보호막을 강화하는 성분과, 외부 자극으로부터 피부를 진정시켜주는 병풀추출물, 알란토인 성분을 함유한 제품을 꼼꼼하게 선택하여 사용하시는 것이 좋습니다. 또한, 피부 자극을 최소화하기 위해 저자극, 무향료 제품을 선택하고, 화장품 사용 후에는 충분한 수분 공급을 위해 히알루론산 성분의 수분크림을 덧발라 피부 수분 밸런스를 유지하는 것이 중요합니다. 각질 제거는 자극적인 스크럽 대신 저자극 AHA, BHA 성분의 제품을 일주일에 1~2회 정도 사용하여 부드럽게 각질을 관리하고, 피부 재생을 돕는 비타민C 유도체 제품을 꾸준히 사용하면 피부톤과 탄력 개선에 도움이 될 수 있습니다. 하지만 민감성 피부이므로, 새로운 제품 사용 시에는 패치 테스트를 통해 피부 반응을 꼼꼼히 확인하고, 자외선 차단제는 SPF 30 이상의 제품을 매일 꼼꼼하게 사용하여 외부 자극으로부터 피부를 보호하는 것이 전반적인 피부 개선에 중요한 부분입니다. 그리고 충분한 수면과 스트레스 관리 또한 피부 건강에 큰 영향을 미치므로, 규칙적인 생활 습관을 유지하는 것도 잊지 마세요.", "answer": "47세 여성분의 복합지성, 민감성 피부를 위해 다음과 같은 성분과 관리법을 추천합니다. 나이아신아마이드(5%)와 판테놀(1%)을 사용하고, 세라마이드와 히알루론산을 보조적으로 사용하여 피부 장벽을 강화하고 수분을 공급합니다. 처음 2주간은 나이아신아마이드와 판테놀을 저녁에만 사용하고, 이후 아침 저녁으로 사용 빈도를 늘립니다. 아침에는 세안 - 토너 - 나이아신아마이드/판테놀 - 히알루론산 - 자외선 차단제 순으로, 저녁에는 세안 - 토너 - 나이아신아마이드/판테놀 - 세라마이드 - 수분크림 순으로 사용합니다. 4-6주 후 피부 개선이 시작될 것이며, 꾸준히 사용하면 피부 장벽이 강화되고 민감도가 감소할 것입니다. 부작용으로는 일시적인 홍조나 가려움증이 발생할 수 있으며, 증상이 심해지면 사용을 중단하고 전문의와 상담하세요.", "evidence_sources": ["DOI:10.1111/j.1468-3083.2005.01554.x", "PMID:19123963"]}, "meta": {"gender": "여성", "age": 47, "initial_skin_condition": "S/P0/W0/NA/NVP/NSA/ND/NR", "skin_type": "복합성", "skin_concerns": ["모공"], "image_filename": "00004.jpg"}, "external": [{"priority": 1, "factor": "화장품", "detail": "최근에 바꾼 화장품이 피부에 맞지 않는 것 같습니다."}, {"priority": 2, "factor": "화장품변경", "detail": "새로운 브랜드의 스킨케어 제품을 사용한 후로 피부가 뒤집어졌습니다."}], "chain_of_thought": [{"step": 1, "title": "문제 분석 및 원인 파악", "content": "47세 여성, 복합지성 피부로 진단 코드는 S/P0/W0/NA/NVP/NSA/ND/NR입니다. 주요 고민인 '민감성'은 나이, 피부 타입, 환경적 요인 등이 복합적으로 작용한 결과입니다. 노화로 인해 콜라겐 생성이 감소하고 피부 장벽 기능이 약화되어 외부 자극에 대한 방어력이 떨어집니다. 복합지성 피부는 T존 부위의 과도한 피지 분비와 U존 부위의 수분 부족이 공존하여 피부 밸런스가 무너지기 쉽고, 이는 민감성을 악화시키는 요인이 됩니다. 또한, 40대 후반 여성은 여성호르몬 감소로 인한 피부 변화를 겪을 수 있으며, 이로 인해 피부가 더욱 예민해질 수 있습니다."}, {"step": 2, "title": "성분 선택 및 근거 제시", "content": "피부 장벽 강화 및 진정 효과를 위해 나이아신아마이드(5%)와 판테놀(1%)을 주성분으로 선택합니다. 나이아신아마이드는 세라마이드 합성을 촉진하여 피부 장벽을 강화하고, 항염 효과를 통해 민감성 피부를 진정시킵니다. 판테놀은 피부 재생을 촉진하고 수분 손실을 방지하여 피부 장벽을 보호합니다. 보조 성분으로는 세라마이드와 히알루론산을 선택합니다. 세라마이드는 피부 장벽 구성 성분으로, 손상된 피부 장벽을 복구하고 외부 자극으로부터 피부를 보호합니다. 히알루론산은 강력한 수분 공급 효과를 통해 피부 건조를 예방하고 피부 탄력을 유지합니다. 나이아신아마이드와 판테놀은 함께 사용 시 시너지 효과를 낼 수 있으며, 세라마이드와 히알루론산은 피부 장벽 강화 및 수분 공급 효과를 높입니다."}, {"step": 3, "title": "사용법 및 관리 방안", "content": "처음 2주간은 나이아신아마이드와 판테놀을 저녁에만 사용하고, 피부 적응 후 아침 저녁으로 사용합니다. 아침에는 세안 - 토너 - 나이아신아마이드/판테놀 - 히알루론산 - 자외선 차단제 순으로, 저녁에는 세안 - 토너 - 나이아신아마이드/판테놀 - 세라마이드 - 수분크림 순으로 사용합니다. 4-6주 후 피부 개선이 시작될 것이며, 12주 후에는 뚜렷한 개선 효과를 기대할 수 있습니다. 부작용으로는 일시적인 홍조나 가려움증이 발생할 수 있습니다. 이 경우 사용을 중단하고 전문의와 상담하십시오. 또한, 새로운 제품 사용 시 소량 테스트를 통해 피부 반응을 확인하는 것이 중요합니다."}]}
-
데이터셋 구축 담당자
수행기관(주관) : ㈜카이로스랩
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 나준채 070-4699-7340 david@kailoslab.com 사업 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 아이이씨코리아(주) 피험자 모집, 데이터 수집·정제, 비식별화 처리 ㈜엑티브온 데이터 가공·검수, 품질 검증, 외부 전문가 자문 관리 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 나준채 070-4699-7340 david@kailoslab.com 조용은 070-4699-7340 kevin@kailoslab.com AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 나준채 070-4699-7340 david@kailoslab.com 조용은 070-4699-7340 kevin@kailoslab.com 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 나준채 070-4699-7340 david@kailoslab.com 조용은 070-4699-7340 kevin@kailoslab.com
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.