BETA 생활화학제품 주성분 건강유해성 데이터
- 분야재난안전환경
- 유형 텍스트
- 생성 방식LLM
※ 26년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2026-05-19 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2026-05-19 산출물 최종 공개 소개
• 생활화학제품에 포함된 주성분의 GHS 코드, CAS 번호, 독성 수치 등 과학적 메타정보를 표준화하여 수집• 켐토피아 보유 DB 및 국내 공공기관 화학제품안전포털 초록누리, 산업안전보건공단, 해외 ECHA, PubChem, eChemportal, NITE-CRIP 웹사이트를 활용한 웹크롤링 방식으로 원시데이터 확보 • 정제 데이터는 InChI, SMILES, IUPAC 명명법, 분자식(MF), 몰질량(MW) 등 메타정보 포함 • Instruction 포맷 기반으로 가공하여, 설명분 원천데이터 1건당 1:2 Q/A 형태로 데이터 생성
구축목적
• 생활화학제품 주성분 기반 건강유해성 정보를 초거대 언어모델(LLM)에 최적화된 형태로 구조화 • GHS 분류, CAS 번호, 독성 수치 등 과학적 메타정보 기반의 고신뢰 데이터 확보
-
메타데이터 구조표 데이터 영역 재난안전환경 데이터 유형 텍스트 데이터 형식 JSON (원천데이터: .JSON / 라벨링데이터: .JSON) 데이터 출처 - 켐토피아 보유 DB, 공공기관 누리집(초록누리, 산업안전보건공단 등), MSDS, 해외 DB(ECHA, PubChem 등) 라벨링 유형 질의응답(자연어) 라벨링 형식 JSON 데이터 활용 서비스 - 생활화학제품 유해성 정보 AI 챗봇- 중소기업 안전관리(규제 대응) 지원- 공공기관 위해성 심사 및 정책 수립 지원 데이터 구축년도/
데이터 구축량2025년/- 원천데이터 100,000건- 라벨링(질의의응답)데이터 200,000건(원천:라벨링 1:2 쌍데이터 생성) -
○ 원천데이터 분포 명세
○ 원천데이터 분포 명세 제품분류 품목 수량(건) 비율 세정제품 • 세정제, 제거제 10,151 10.20% 세탁제품 • 세탁세제, 표백제, 섬유유연제 10,019 10.00% 코팅제품 • 광택코팅제, 특수목적코팅제, 녹 방지제, 윤활제, 다림질보조제, 마감제, 경화제 9,093 9.10% 접착·접합제품 • 접착제, 접합제, 경화촉진제 4,046 4.00% 방향·탈취제품 • 방향제, 탈취제 13,752 13.80% 염색·도색제품 • 물체 염색제, 물체 도색제 10,124 10.10% 자동차 전용 제품 • 자동차용 워셔액, 자동차용 부동액 507 0.50% 인쇄 및 문서관련 제품 • 인쇄용 잉크·토너, 인주, 수정액 및 수정 테이프 15,998 16.00% 미용제품 • 미용 접착제, 문신용 염료 8,064 8.10% 여가용품 관리제품 • 운동용품 세정광택제 66 0.10% 살균제품 • 살균제, 살조제, 가습기용 향균·소독제, 감영병예방용 방역 살균·소독제 4,419 4.40% 구제제품 • 기피제, 보건용 살충제, 보건용 기피제, 감영병예방용 살충제, 감영예방용 살서제 406 0.40% 보존·보존처리제품 • 목재용 보존제, 필터형 보존처리제품 413 0.40% 초 • 초(향초) 11,477 11.50% 기타 • 습기제거제, 인공 눈 스프레이, 공연용 포그액, 가습기용 생활화학제품, 가습기용 보존처리제품 1,465 1.50% 합계 100,000 100.10% ○ 라벨링데이터 분포 명세
○ 라벨링데이터 분포 명세 제품분류 품목 수량(건) 비율 세정제품 • 세정제, 제거제 20,302 10.20% 세탁제품 • 세탁세제, 표백제, 섬유유연제 20,038 10.00% 코팅제품 • 광택코팅제, 특수목적코팅제, 녹 방지제, 윤활제, 다림질보조제, 마감제, 경화제 18,186 9.10% 접착·접합제품 • 접착제, 접합제, 경화촉진제 8,092 4.00% 방향·탈취제품 • 방향제, 탈취제 27,504 13.80% 염색·도색제품 • 물체 염색제, 물체 도색제 20,248 10.10% 자동차 전용 제품 • 자동차용 워셔액, 자동차용 부동액 1014 0.50% 인쇄 및 문서관련 제품 • 인쇄용 잉크·토너, 인주, 수정액 및 수정 테이프 31,996 16.00% 미용제품 • 미용 접착제, 문신용 염료 16,128 8.10% 여가용품 관리제품 • 운동용품 세정광택제 132 0.10% 살균제품 • 살균제, 살조제, 가습기용 향균·소독제, 감영병예방용 방역 살균·소독제 8,838 4.40% 구제제품 • 기피제, 보건용 살충제, 보건용 기피제, 감영병예방용 살충제, 감영예방용 살서제 812 0.40% 보존·보존처리제품 • 목재용 보존제, 필터형 보존처리제품 826 0.40% 초 • 초(향초) 22,954 11.50% 기타 • 습기제거제, 인공 눈 스프레이, 공연용 포그액, 가습기용 생활화학제품, 가습기용 보존처리제품 2,930 1.50% 합계 200,000 100.10% ○ 라벨링데이터 클래스 분포 명세
○ 라벨링데이터 클래스 분포 명세 구분 Q/A 유형 건수 비율 일반사용자
Q/A• 제품 성분/성능 관련 질문 26,678 13.00% • 안전 사용 방법 관련 질문 27,020 14.00% • 제품 독성 정보 관련 질문 21,391 11.00% • 민감군 안전정보 관련 질문 15,532 8.00% • 제품 인증/법적 기준 관련 질문 9,379 5.00% 소계 100,000 50.00% 전문가
Q/A• 제품 성분/성능 관련 질문 24,165 12.00% • 제품 독성 정보 관련 질문 30,446 15.00% • 민감군 안전정보 관련 질문 17,446 9.00% • 제품 인증/법적 기준 관련 질문 13,981 7.00% • 데이터 출처 및 기준일 질문 13,962 7.00% 소계 100,000 50.00% 합계 200,000 100.00% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드○ 임무 정의
- 생활화학제품의 안전 정보를 자동으로 생성하고 사용자 질문에 답변하는 두 가지 핵심 임무를 수행○ 임무 선정 사유
- 생활화학제품 사용 증가로 안전 정보 수요가 급증하고 있으나, 복잡한 화학 전문 용어로 인해 일반 소비자의 이해도가 낮고 중소기업은 MSDS 작성에 어려움을 겪고 있음
- AI 기술을 활용하면 대량의 화학제품 정보를 효율적으로 처리하고, 전문 용어와 일반 언어 간 변환을 통해 24시간 자동화된 상담 서비스를 제공할 수 있음
- 본 프로젝트는 한국어 생활화학제품 안전 정보에 특화된 최초의 AI 모델 개발을 통해 중소기업의 MSDS 작성 비용 절감, 화학사고 예방, 신속한 위해성 평가 지원 등 사회적·경제적 가치를 창출함○ 학습 모델 개발 환경
- 학습 환경: Linux(Ubuntu), Python, PyTorch, GPU
- 모델리소스 및 자원 활용: 고성능 GPU 서버를 사용하여 모델 학습을 진행
- 모델 개발: 1-Cycle 자가 점검 계획에 맞춰 모델 개발
- 성능 지표 결과를 통해 가장 성능이 우수한 모델로 최종 선정모델명 Qwen/Qwen2.5-7B-Instruct 개발사 Alibaba Cloud 파라미터 7,070,000,000 (약 70억) 아키텍처 Transformer Decoder-only 컨텍스트 32,768 토큰 (최대 131,072) 다운로드 huggingface.co/Qwen/Qwen2.5-7B-Instruct ○ 최종 선정 모델
- Qwen 2.5 7B Instruct 선정
* 한국어 성능 우수: 다국어 모델로 한국어 처리 능력 검증
* Instruction Following: Q&A 및 설명문 생성에 최적화
* 적절한 크기: 7B 파라미터로 성능과 효율성 균형
* 오픈 라이선스: Apache 2.0 (상업적 사용 가능)
- Fine-tuning 방법: LoRA
* r=16 (LoRA rank)
* lora_alpha=32 (scaling factor)
* target_modules: q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj
* lora_dropout=0.05
* 학습 파라미터: 전체의 0.3% (약 2,100만 개)
* 메모리 절감: 약 70% 감소
* 학습 속도: 약 1.5배 향상○ 학습 데이터 생성
- 데이터 구조: 총 300,000건
* 원천데이터 (설명문): 100,000건
* 가공데이터 (Q&A): 200,000건
* 제품 카테고리(15개 카테고리): 세정제품, 세탁제품, 코팅제품, 접착제품, 방향제품, 염색제품, 자동차제품, 인쇄제품, 미용제품, 여가용품, 살균제품, 구제제품, 보존제품, 초, 기타
- 데이터 분할: 독립적 8:1:1 분할 전략
- 데이터 전처리
* 텍스트 검증: 길이 체크, 반복 문자 제거
* 답변 정규화: 중복 문장 제거, 길이 제한 (전문가 300자, 일반 250자)
* 토크나이징: 최대 2,048 토큰, 초과 샘플 필터링○ AI 모델 성능
○ AI 모델 성능 AI Task 알고리즘 데이터 수량 성능지표 목표치 평가결과 총
구축량학습
(80%)검증
(10%)평가
(10%)질의응답
(Q&A)Qwen 2.5 7B + LoRA 200,000 160,000 20,000 20,000 F1-Score 0.7 이상 0.9285 설명문
생성Qwen 2.5 7B + LoRA 100,000 80,000 10,000 10,000 ROUGE-L 50.0 이상 76.98 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드○ 라벨링데이터 메타정보
○ 라벨링데이터 메타정보 NO. 항목명 타입 필수여부 항목설명 예시 1 id Number Y 고유 식별자 CT001_00001 2 info_year String Y 데이터 구축년도 2025 3 info_version String Y 데이터 버전 1 4 content_type String Y 콘텐츠 유형(설명문/Q/A) 설명문 5 data_created String Y 데이터 생성일자 45839 6 source_type String Y 데이터 출처 유형 (DB/사이트/공문) 화평법 신고자료 7 source_name String Y 데이터 수집 원본 출처명 환경부 화학물질관리시스템 8 collection_method String Y 수집 방법 (API/크롤링) 크롤링 9 cas_no String Y 주성분 CAS 번호 108-88-3 10 ghs_code String Y GHS 분류 코드 H225, H361 11 hazard_class String N 주요 유해성 분류 발화성 액체 12 label_info String N 제품에 표시된 경고문 정보 요약 "흡입 시 치명적" 13 origin_language String Y 원천 데이터 언어 (한국어/영어 등) 한국어 14 copyright_info String Y 저작권 여부(O/X) O 15 modification_history String N 데이터 수정이력 여부 수정 완료 16 product_name String N 제품명(비식별화 처리) 접착제_01 17 manufacturer String N 제조사명(비식별화 처리) 제조사_01 18 collection_url String N 수집 URL 주소 www.kosha.or.kr 19 collection_date String Y 수집 일자 45823 20 collection_worker String Y 수집 담당자 ID worker_01 21 data_category String Y 데이터 분류(제품분류, 주성분 등) 세정제품 22 validation_status String Y 품질검증 결과 상태(완료/미완료) 완료 23 json_conversion_status String Y JSON 전환 여부(O/X) O ○ 라벨링데이터 어노테이션 명세
○ 라벨링데이터 어노테이션 명세 구분 속성명 항목 설명 JSON info year 데이터 작성 연도 "year": 2025 version 데이터 버전 "version": "1.0" created_data 데이터 생성일자 "created_date": "2025-06-01 00:00:00" modified_date 데이터 수정일자 "modified_date": "2025-06-01 00:00:00" origin_data id 원시데이터 고유번호 "id": CA00001 collected_category 제품유형(15개 분류) "collected_category": "세정제" collected_item 품목명(44개 품목) "collected_item": "욕실세정제" product_name 제품명(비식별처리 적용) "product_name": "제품001" collected_date 데이터 수집일자 "collected_date": "2025-05-01" collected_source 수집 출처(기관, 웹 사이트 등) "collected_source": "환경부 생활화학제품 DB" collected_method 수집 방식(웹 크롤링, DB연계등) "collected_method": "DB 연계" source_data id 원천 데이터 고유번호 "id": CA00001-S0001 main_ingredient 주요 주성분명 "main_ingredient": "염화벤잘코늄" cas_no CAS 번호 "cas_no": "8001-54-5" ghs_code GHS 코드 "ghs_code": "GHS05" toxicity_info 독성 정보(GHS 분류, 건강 영향 등) "toxicity_info": "피부 부식성 1B" hazard_statement 경고문구 (문장형) "hazard_statement": "피부에 심한 화상과 눈 손상을 일으킬 수 있음" precautionary_statement 예방 조치문구 (문장형) "precautionary_statement": "보호장갑 착용 필요" exposure_pathway 노출 경로(흡입, 피부접촉 등) "exposure_pathway": "피부 접촉" health_effects 주요 건강 유해 영향 "health_effects": "피부염 유발" source_reference 데이터 출처 근거 문서 "source_reference": "GHS 분류체계 2024 기준" annotations caption_type 설명문 "caption_type": "독성 설명" caption 설명문(캡션) 텍스트 "caption": "염화벤잘코늄은 피부 부식성 1B로 분류되며, 피부에 화상을 유발할 수 있으므로 취급 시 보호장갑 착용이 필요합니다." Q/A_user_type Q/A 사용자 유형 "Q/A_user_type": "일반사용자" (일반/전문가) Q/A_type 질의응답 유형 (성분 이해, 독성 설명, 경고문 이해, 사용법 안내 등) "Q/A_type": "독성 설명" question 질문 텍스트 "question": "염화벤잘코늄이 피부에 어떤 위험을 주나요?" answer 답변 텍스트 "answer": "염화벤잘코늄은 피부에 심각한 화상을 유발할 수 있어 보호장갑 착용이 필요합니다." ○ JSON파일 예시
{
"info": {
"year": 2025,
"version": "1.0",
"created_date": "2025-06-01 00:00:00",
"modified_date": "2025-06-01 00:00:00"
},
"origin_data": {
"id": CA00001,
"collected_category": "세정제",
"collected_item": "욕실세정제",
"product_name": "제품001",
"collected_date": "2025-05-01",
"collected_source": "환경부 생활화학제품 DB",
"collected_method": "DB 연계"
},
"source_data": {
"id": CA00001-S0001,
"main_ingredient": "염화벤잘코늄",
"cas_no": "8001-54-5",
"ghs_code": "GHS05",
"toxicity_info": "피부 부식성 1B",
"hazard_statement": "피부에 심한 화상과 눈 손상을 일으킬 수 있음",
"precautionary_statement": "보호장갑 착용 필요",
"exposure_pathway": "피부 접촉",
"health_effects": "피부염 유발",
"source_reference": "GHS 분류체계 2024 기준"
},
"annotations": {
"caption_type": "독성 설명",
"caption": "염화벤잘코늄은 피부 부식성 1B로 분류되어 피부에 심각한 화상을 유발할 수 있습니다. 취급 시 보호장갑 착용이 필요합니다.",
"Q/A": [
{
"Q/A_user_type": "일반사용자",
"Q/A_type": "독성 설명",
"question": "염화벤잘코늄이 피부에 어떤 위험을 주나요?",
"answer": "염화벤잘코늄은 피부에 심각한 화상을 유발할 수 있어 보호장갑 착용이 필요합니다."
},
]
}
} -
데이터셋 구축 담당자
수행기관(주관) : ㈜에프아이솔루션
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 오재만 070-7872-7748 jaeman1003@fisolution.co.kr 사업총괄, 품질총괄, 데이터가공(부) 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜켐토피아 데이터가공(정), 품질관리 ㈜카이로스랩 저작도구 개발, 데이터학습, AI-Hub 공개 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 연상현 070-4262-9475 yeonsh85@chemtopia.net 최순배 070-7872-7748 sbchoi@fisolution.co.kr AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 정찬 070-4699-7340 chann.jung@kailoslab.com 조용은 070-4699-7340 kevin@kailoslab.com 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 박지성 070-4699-7340 jacob@kailoslab.com 조용은 070-4699-7340 kevin@kailoslab.com
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.