BETA 문제성 피부 메이크업 추천 데이터
- 분야헬스케어
- 유형 텍스트
- 생성 방식LLM
※ 26년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2026-06-05 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2026-06-05 산출물 최종 공개 소개
문제성 피부 메이크업 추천 서비스 구현을 위하여 문제성 피부 유형별 메이크업 방법에 대한 질의응답 데이터 (지식데이터 50,120,919토큰, 질의응답쌍 10,043쌍)
구축목적
‘커버’에서 ‘치유’로 문제성 피부 메이크업 패러다임 전환을 주도하고, 안정성과 효능을 동시에 추구하는 개발 환경 조성을 위한 데이터 구축
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 텍스트 데이터 형식 .doc, .json 데이터 출처 자체 수집 라벨링 유형 질의응답 (자연어) 라벨링 형식 .json 데이터 활용 서비스 자사 상품의 레시피를 연계한 상품 추천, 피부 문제 조기 발견 및 피부 고민에 따른 고객 맞춤형 브랜드 및 상품 기획 데이터 구축년도/
데이터 구축량2025년/- 지식 데이터 : 50,120,919 토큰 (9,377건(doc, json 파일)) - 질의응답쌍 10,043쌍 -
1. 데이터 구축 규모
• 지식 데이터 : 50,120,919 토큰 (9,377건(doc, json 파일))
- 문제성 피부 메이크업 추천 성분 및 주의 성분, 메이크업 방법 등에 대한 지식데이터
• 메이크업 질의응답쌍 : 10,043쌍
- 원천데이터를 바탕으로 작성한 다양한 문제성 피부 고민에 대한 메이크업 질의응답쌍데이터 구축 규모표 항목명 구분 토큰수 합 문제성 피부 분포 염증성 피부 화농성 여드름 피부 11,485,942 토큰 면포성 여드름 피부 지루성 피부염 피부 주사 피부 민감성 피부 민감성 피부 16,078,040 토큰 아토피 피부 홍조 피부 모세혈관 확장 피부 색소 문제 피부 색소 침착 피부 5,019,834 토큰 기미 주근깨 피부 조직 변화 피부 노화 피부 17,537,103 토큰 모공 확장 피부 켈로이드성 피부 전체 50,120,919 토큰 2. 데이터 분포
데이터 분포 표-성별분포 항목명 구분 구축 비율 성별 분포 남성 30.73% 여성 69.27% 전체 100.00% 데이터 분포-메이크업 부위 분포 항목명 구분 구축 비율 메이크업 부위 분포 볼 27.15% 코주변 14.42% 턱 13.65% 이마 12.54% 얼굴전체 10.73% 입가 5.96% 눈가/눈밑 4.93% 목 2.92% 광대 1.13% 기타 6.57% 전체 100.00% 데이터 분포-문제성 피부 분포 항목명 구분 구축 비율 문제성 피부 분포 염증성 피부 화농성 여드름 피부 30.67% 면포성 여드름 피부 지루성 피부염 피부 주사 피부 민감성 피부 민감성 피부 38.44% 아토피 피부 홍조 피부 모세혈관 확장 피부 색소 문제 피부 색소 침착 피부 10.94% 기미 주근깨 피부 조직 변화 피부 노화 피부 19.94% 모공 확장 피부 켈로이드성 피부 전체 100.00% 데이터 분포-연령대 분포 항목명 구분 구축 비율 연령대 분포 20대 29.72% 30대 30.12% 40대 19.53% 50대 이상 20.63% 전체 100.00% 데이터 분포-최소 어절 수 항목명 구분 구축 비율 최소 어절 수 질의문 어절 수 20어절 서술형 답변문 어절 수 47어절 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드가) 모델명: LLaMA 3.1
a) 목적: 합성, 생성
b) 선정 사유
- 국가 R&D 사업의 결과물로써 확장성 및 기술 내재화 측면에서 모델 가중치 접근 및 수정이 자유로움
- 본 과제에서 구축 예정인 데이터 특성(특히 한국어)에 최적화되어 있으며, 커스터마이징도 가능하여 적합할 것으로 판단함
- 현재 가장 활발한 오픈소스 LLM 생태계를 보유하고 있으며, 다양한 커뮤니티 활동으로 파인튜닝 도구, PEFT 기법 등 다양한 연구자료 확보 가능
- LLaMA 3.1은 다양한 크기로 제공되며, 특히 70B 이상 모델은 파인튜닝을 통해 특정 도메인 및 instruction following 작업에서 매우 우수한 성능을 달성
- 다수의 연구를 통해 검증됨. 405B 모델까지 공개되어 향후 더 높은 성능이 요구될 경우 확장 가능
- 데이터 주권, 보안, 한국어 특화 및 최적화 등을 고려할 때 국내 환경에서 직접 운영과 관리가 가능한 오픈소스 모델이 적합할 것으로 판단
- LLaMA는 다양한 요구사항을 충족하며, 다수의 검증을 통해 안정성도 확보한 모델로 판단함
c) 모델 아키텍처
d) 모델 구조
- LLaMA 3.1 모델은 기본적으로 Transformer 아키텍처를 따르며, 각 층은 ‘셀프 어텐션(Self-Attention)’과 ‘피드포워드 네트워크(FFN)’로 구성
- 활성화 함수로는 SwiGLU가 사용되며, 포지셔널 정보는 RoPE(Rotary Positional Embedding)를 통해 처리
- LayerNorm 대신 RMSNorm 정규화 기법이 도입되어 안정성과 효율을 향상시켰고, Attention 기법에는 Multi-Query Attention(MQA) 또는 ‘Grouped-Query Attention (GQA)’이 일부 변형 버전에 도입 가능
- 고정된 어휘집(Vocabulary)과 Tokenizer를 기반으로 입력된 텍스트는 임베딩 레이어를 거쳐 수백억 개의 파라미터를 가진 네트워크를 통과하며 문맥 기반의 출력을 생성하며, 큰 모델일수록 깊은 레이어 수, 넓은 히든 사이즈, 많은 헤드를 갖음
e) AI 모델 성능AI 모델성능 품질특성 항목명 측정 지표 정량 목표 전문가형
문제성피부
Q&A 자동생성 성능BERTScore 0.90 이상 0.9078 SFT 모델 응답
최적화 성능Perplexity 6.0 이하 2.4676 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드세부데이터 표 구분 속성명 타입 필수
여부설명 1 Data_info Object Y 출처 정보 1-1 License String Y 저작권자 1-2 SEQ String Y ID 2 Source_info1 Object Y 지식 데이터 소스 정보 (Source_info1) 2-1 Status1 String Y 도서여부 2-2 Knowledge Data1 String Y 지식데이터 2-3 Title1 String Y 도서명 2-4 Author Name1 String Y 저자명 2-5 Publisher Name (Institution Name)1 String Y 출판사명(기관명) 2-6 Year of Publication1 Number Y 출판연도 2-7 File Name1_1 String Y 지식데이터 파일명 2-8 File Extension1_1 String Y 파일 확장자 2-9 File Name1_2 String Y 원천데이터 파일명 2-10 File Extension1_2 String Y 파일 확장자 3 Source_info2 Object N 지식 데이터 소스 정보 (Source_info2) 3-1 Status2 String N 도서여부 3-2 Knowledge Data2 String N 지식데이터 3-3 Title2 String N 도서명 3-4 Author Name2 String N 저자명 3-5 Publisher Name (Institution Name)2 String N 출판사명(기관명) 3-6 Year of Publication2 Number N 출판연도 3-7 File Name2_1 String N 지식데이터 파일명 3-8 File Extension2_1 String N 파일 확장자 3-9 File Name2_2 String N 원천데이터 파일명 3-10 File Extension2_2 String N 파일 확장자 4 Source_info3 Object N 지식 데이터 소스 정보 (Source_info3) 4-1 Status3 String N 도서여부 4-2 Knowledge Data3 String N 지식데이터 4-3 Title3 String N 도서명 4-4 Author Name3 String N 저자명 4-5 Publisher Name (Institution Name)3 String N 출판사명(기관명) 4-6 Year of Publication3 Number N 출판연도 4-7 File Name3_1 String N 지식데이터 파일명 4-8 File Extension3_1 String N 파일 확장자 4-9 File Name3_2 String N 원천데이터 파일명 4-10 File Extension3_2 String N 파일 확장자 5 Source_info4 Object N 지식 데이터 소스 정보 (Source_info4) 5-1 Status4 String N 도서여부 5-2 Knowledge Data4 String N 지식데이터 5-3 Title4 String N 도서명 5-4 Author Name4 String N 저자명 5-5 Publisher Name (Institution Name)4 String N 출판사명(기관명) 5-6 Year of Publication4 Number N 출판연도 5-7 File Name4_1 String N 지식데이터 파일명 5-8 File Extension4_1 String N 파일 확장자 5-9 File Name4_2 String N 원천데이터 파일명 5-10 File Extension4_2 String N 파일 확장자 6 Source_info5 Object N 지식 데이터 소스 정보 (Source_info5) 6-1 Status5 String N 도서여부 6-2 Knowledge Data5 String N 지식데이터 6-3 Title5 String N 도서명 6-4 Author Name5 String N 저자명 6-5 Publisher Name (Institution Name)5 String N 출판사명(기관명) 6-6 Year of Publication5 Number N 출판연도 6-7 File Name5_1 String N 지식데이터 파일명 6-8 File Extension5_1 String N 파일 확장자 6-9 File Name5_2 String N 원천데이터 파일명 6-10 File Extension5_2 String N 파일 확장자 7 Human_info Object Y 대상자 정보 7-1 Gender String Y 성별 7-2 Age String Y 연령 7-3 makeup frequency String Y 평소 메이크업 빈도 7-4 frequent makeup products String Y 자주 사용하는 메이크업 제품 7-5 important attributes String Y 메이크업 제품 사용 고려 속성 7-6 makeup purpose String Y 메이크업 목적 7-7 Skin Problem Type String Y 피부 문제 유형 7-8 Makeup focus areas String Y 메이크업 관심 부위 7-9 skin care methods String Y 문제성 피부 관리 방법 8 Skin_info Object Y 피부 관련 정보 8-1 worry level/situation String Y 피부 고민이 심해지는 정도 및 상황 8-2 worry season String Y 피부 고민이 심해지는 주요 계절 8-3 Skin condition category String Y 피부 유형 8-4 Skin Brightness String Y 피부 밝기 9 Annotation_info Object Y Annotation 정보 9-1 User Question String Y 이용자 질문 9-2 Makeup Response String Y 메이크업 방법 9-3 Recommended Ingredients String Y 추천 성분 9-4 Ingredients to Avoid String Y 주의성분 데이터 예시
{
"Data_info": {
"License": "㈜데이터쿡",
"SEQ": "A000176_01_QA2"
},
"Source_info1": {
"Status1": "",
"Knowledge Data1": "논코메도제닉 제품(Non-comedogenic product)으로 피지가 축적되어 여드름이 생길 가능성이 있는 피부에 사용 할 수 있으며 여드름이나 피부 염증을 예방하고 개선하기 위해 만들어진 화장품이다",
"Title1": "MZ세대 여드름 피부 인식에 따른 코스메슈티컬 화장품 선택속성과 구매행동 의도에 미치는 영향 여드름관리 화장품 중심으로",
"Author Name1": "",
"Publisher Name (Institution Name)1": "",
"Year of Publication1": 0,
"File Name1_1": "",
"File Extension1_1": "",
"File Name1_2": "",
"File Extension1_2": ""
},
"Source_info2": {
"Status2": "",
"Knowledge Data2": "현재 사용되고 있는 erythromycin, isotretinoin, benzoly peroxide,vitamin A acid,triclosa, azelaicacid 등의 약제들은 구순 염,점막 건조감,최기 형성작용,기미,혈전등 부작용 유발 가능성과 항생제에 내성을 갖는 P.acnes 증가의 문제가 제기되고 있으며 치료 중단시의 재발 등의 문제점이 보고되고 있다",
"Title2": "Propionibacterium acnes와 항생제 내성Staphylococcusaureus에 대한 Bifidobacterium 종의 항균과 항염증 효과\nIn vitroevaluation ofantibacterial activitesand anti-inflammatory effectsofBifidobacterium spp.\naddressing acnevulgaris",
"Author Name2": "",
"Publisher Name (Institution Name)2": "",
"Year of Publication2": 0,
"File Name2_1": "",
"File Extension2_1": "",
"File Name2_2": "",
"File Extension2_2": ""
},
"Source_info3": {
"Status3": "",
"Knowledge Data3": "",
"Title3": "",
"Author Name3": "",
"Publisher Name (Institution Name)3": "",
"Year of Publication3": 0,
"File Name3_1": "",
"File Extension3_1": "",
"File Name3_2": "",
"File Extension3_2": ""
},
"Source_info4": {
"Status4": "",
"Knowledge Data4": "",
"Title4": "",
"Author Name4": "",
"Publisher Name (Institution Name)4": "",
"Year of Publication4": 0,
"File Name4_1": "",
"File Extension4_1": "",
"File Name4_2": "",
"File Extension4_2": ""
},
"Source_info5": {
"Status5": "",
"Knowledge Data5": "",
"Title5": "",
"Author Name5": "",
"Publisher Name (Institution Name)5": "",
"Year of Publication5": 0,
"File Name5_1": "",
"File Extension5_1": "",
"File Name5_2": "",
"File Extension5_2": ""
},
"Human_info": {
"Gender": "남성",
"Age": "30대",
"makeup frequency": "매일 한다",
"frequent makeup products": [
"자외선 차단제 (선크림, 선쿠션, 선스프레이 등)"
],
"important attributes": [
"지속력",
"트러블 여부",
"가격"
],
"makeup purpose": [],
"Skin Problem Type": "화농성 여드름 피부",
"Skin trouble areas": "볼",
"Skin care methods": [
"직접 압출하거나 자가 처치를 하고 있다"
]
},
"Skin_info": {
"worry level/situation": "그렇지 않은 편이다",
"worry season": "",
"Skin condition category": "복합성 피부결",
"Skin Brightness": "Type-1 (밝은 흰 피부)"
},
"Annotation_info": {
"User Question": "30대 남성으로 세종에 거주 중이며, 화농성 여드름 피부를 가지고 있습니다. 피부 톤은 밝은 흰 피부이며, 피부 타입은 지성이고, 피부 결은 복합성입니다. 평소에는 티트리, 병풀(시카), 비타민C 성분이 들어간 제품을 사용하고 있으며, 인공 색소, 인공 향료, 알코올 성분은 피하고자 합니다. 볼 부위뿐 아니라 가슴 부위에도 여드름이 발생하며, 이는 피부 성향 또는 식습관 등과 관련이 있을 수 있습니다. 메이크업 시에는 지속력, 트러블 여부, 가격에 대한 고민이 있으며, 도구 없이 손으로만 메이크업을 합니다. 지속력을 높일 수 있는 컨실러 사용법과 성분에 대해 추천받고 싶습니다.",
"Makeup Response": "30대 한국 남성으로 세종에 거주하시며 얼굴뿐만 아니라 가슴 부위에도 화농성 여드름이 있어 고민이 크시겠네요. 컨실러의 지속력은 제품 자체보다는 기초 스킨케어 단계에서 피부 바탕을 어떻게 준비하느냐에 따라 크게 달라집니다. 우선 컨실러 사용 전에는 약산성 폼 클렌저로 과도한 유분과 노폐물을 제거하고, 토너를 활용해 피부 결 방향에 맞춰 가볍게 닦아내어 피부결을 정돈해 주세요. 이후에는 가벼운 젤 타입 수분 크림으로 충분히 보습한 뒤, 논코메도제닉(Non-comedogenic) 화장품을 사용하는 것이 좋습니다. 컨실러는 매트 또는 세미 매트 타입이 적합하며, 특히 나이아신아마이드와 같이 피지 조절 및 피부 장벽 강화에 도움을 주는 성분이 함유된 제품은 지속력을 높이는 데 효과적인 성분으로 추천 드립니다. 반면 여드름 치료제로 사용되는 erythromycin, isotretinoin, benzoyl peroxide, vitamin A acid 등은 구순염, 점막 건조, 색소침착, 혈전, 태아 기형 유발 등의 부작용과 함께 항생제 내성 및 치료 중단 시 재발 위험이 보고되고 있어 장기간 사용은 추천 드리지 않습니다. 또한 가슴 부위에 발생하는 여드름 역시 얼굴과 동일하게 청결 유지와 보습 관리가 중요하며, 땀이나 피지가 오래 머물지 않도록 세심한 관리가 필요합니다. 더불어 여드름은 단순한 피부 문제가 아니라 수면 패턴, 식습관, 스트레스 등 생활습관과도 밀접한 관련이 있으므로 내·외적 요인을 함께 관리하신다면 현재의 고민이 한층 완화될 수 있을 것으로 추천 드립니다.",
"Recommended Ingredients": "논코메도제닉",
"Ingredients to Avoid": "erythromycin, isotretinoin, benzoly peroxide,vitamin A acid"
}
}
-
데이터셋 구축 담당자
수행기관(주관) : ㈜데이터쿡
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김성근 02-6380-3000 ksg@datacook.kr 사업 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜메트릭스 원천데이터 수집 ㈜아비스 데이터 정제 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김홍건 02-6244-0783 hkkim@metrix.co.kr AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 김성근 02-6380-3000 ksg@datacook.kr 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 김홍건 02-6244-0783 hkkim@metrix.co.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의