콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#생활화학제품 # 주성분 유해성 # GHS 분류 # 화학물질 독성 # 안전 사용 지침 # Instruction Tuning # 질의응답 데이터셋 # 초거대 언어모델 # 건강유해성 정보

BETA 생활화학제품 주성분 건강유해성 데이터

생활화학제품 주성분 건강유해성 데이터 아이콘 이미지
  • 분야재난안전환경
  • 유형 텍스트
  • 생성 방식LLM
구축년도 : 2025 갱신년월 : 2026-05 조회수 : 23 다운로드 : 3 용량 :
샘플(경량) 데이터 ?

※ 26년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2026-05-19 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2026-05-19 산출물 최종 공개

    소개

    • 생활화학제품에 포함된 주성분의 GHS 코드, CAS 번호, 독성 수치 등 과학적 메타정보를 표준화하여 수집• 켐토피아 보유 DB 및 국내 공공기관 화학제품안전포털 초록누리, 산업안전보건공단, 해외 ECHA, PubChem, eChemportal, NITE-CRIP 웹사이트를 활용한 웹크롤링 방식으로 원시데이터 확보
    • 정제 데이터는 InChI, SMILES, IUPAC 명명법, 분자식(MF), 몰질량(MW) 등 메타정보 포함
    • Instruction 포맷 기반으로 가공하여, 설명분 원천데이터 1건당 1:2 Q/A 형태로 데이터 생성

    구축목적

    • 생활화학제품 주성분 기반 건강유해성 정보를 초거대 언어모델(LLM)에 최적화된 형태로 구조화
    • GHS 분류, CAS 번호, 독성 수치 등 과학적 메타정보 기반의 고신뢰 데이터 확보
  • ○ 원천데이터 분포 명세

    ○ 원천데이터 분포 명세
    제품분류 품목 수량(건) 비율
    세정제품 • 세정제, 제거제 10,151 10.20%
    세탁제품 • 세탁세제, 표백제, 섬유유연제 10,019 10.00%
    코팅제품 • 광택코팅제, 특수목적코팅제, 녹 방지제, 윤활제, 다림질보조제, 마감제, 경화제 9,093 9.10%
    접착·접합제품 • 접착제, 접합제, 경화촉진제 4,046 4.00%
    방향·탈취제품 • 방향제, 탈취제 13,752 13.80%
    염색·도색제품 • 물체 염색제, 물체 도색제 10,124 10.10%
    자동차 전용 제품 • 자동차용 워셔액, 자동차용 부동액 507 0.50%
    인쇄 및 문서관련 제품 • 인쇄용 잉크·토너, 인주, 수정액 및 수정 테이프 15,998 16.00%
    미용제품 • 미용 접착제, 문신용 염료 8,064 8.10%
    여가용품 관리제품 • 운동용품 세정광택제 66 0.10%
    살균제품 • 살균제, 살조제, 가습기용 향균·소독제, 감영병예방용 방역 살균·소독제 4,419 4.40%
    구제제품 • 기피제, 보건용 살충제, 보건용 기피제, 감영병예방용 살충제, 감영예방용 살서제 406 0.40%
    보존·보존처리제품 • 목재용 보존제, 필터형 보존처리제품 413 0.40%
    • 초(향초) 11,477 11.50%
    기타 • 습기제거제, 인공 눈 스프레이, 공연용 포그액, 가습기용 생활화학제품, 가습기용 보존처리제품 1,465 1.50%
    합계 100,000 100.10%

     

    ○ 라벨링데이터 분포 명세

    ○ 라벨링데이터 분포 명세
    제품분류 품목 수량(건) 비율
    세정제품 • 세정제, 제거제 20,302 10.20%
    세탁제품 • 세탁세제, 표백제, 섬유유연제 20,038 10.00%
    코팅제품 • 광택코팅제, 특수목적코팅제, 녹 방지제, 윤활제, 다림질보조제, 마감제, 경화제 18,186 9.10%
    접착·접합제품 • 접착제, 접합제, 경화촉진제 8,092 4.00%
    방향·탈취제품 • 방향제, 탈취제 27,504 13.80%
    염색·도색제품 • 물체 염색제, 물체 도색제 20,248 10.10%
    자동차 전용 제품 • 자동차용 워셔액, 자동차용 부동액 1014 0.50%
    인쇄 및 문서관련 제품 • 인쇄용 잉크·토너, 인주, 수정액 및 수정 테이프 31,996 16.00%
    미용제품 • 미용 접착제, 문신용 염료 16,128 8.10%
    여가용품 관리제품 • 운동용품 세정광택제 132 0.10%
    살균제품 • 살균제, 살조제, 가습기용 향균·소독제, 감영병예방용 방역 살균·소독제 8,838 4.40%
    구제제품 • 기피제, 보건용 살충제, 보건용 기피제, 감영병예방용 살충제, 감영예방용 살서제 812 0.40%
    보존·보존처리제품 • 목재용 보존제, 필터형 보존처리제품 826 0.40%
    • 초(향초) 22,954 11.50%
    기타 • 습기제거제, 인공 눈 스프레이, 공연용 포그액, 가습기용 생활화학제품, 가습기용 보존처리제품 2,930 1.50%
    합계 200,000 100.10%

     

    ○ 라벨링데이터 클래스 분포 명세

    ○ 라벨링데이터 클래스 분포 명세
    구분 Q/A 유형 건수 비율
    일반사용자
    Q/A
    • 제품 성분/성능 관련 질문 26,678 13.00%
    • 안전 사용 방법 관련 질문 27,020 14.00%
    • 제품 독성 정보 관련 질문 21,391 11.00%
    • 민감군 안전정보 관련 질문 15,532 8.00%
    • 제품 인증/법적 기준 관련 질문 9,379 5.00%
    소계 100,000 50.00%
    전문가
    Q/A
    • 제품 성분/성능 관련 질문 24,165 12.00%
    • 제품 독성 정보 관련 질문 30,446 15.00%
    • 민감군 안전정보 관련 질문 17,446 9.00%
    • 제품 인증/법적 기준 관련 질문 13,981 7.00%
    • 데이터 출처 및 기준일 질문 13,962 7.00%
    소계 100,000 50.00%
    합계 200,000 100.00%
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    ○ 임무 정의
     - 생활화학제품의 안전 정보를 자동으로 생성하고 사용자 질문에 답변하는 두 가지 핵심 임무를 수행

     

    ○ 임무 선정 사유
     - 생활화학제품 사용 증가로 안전 정보 수요가 급증하고 있으나, 복잡한 화학 전문 용어로 인해 일반 소비자의 이해도가 낮고 중소기업은 MSDS 작성에 어려움을 겪고 있음
     - AI 기술을 활용하면 대량의 화학제품 정보를 효율적으로 처리하고, 전문 용어와 일반 언어 간 변환을 통해 24시간 자동화된 상담 서비스를 제공할 수 있음
     - 본 프로젝트는 한국어 생활화학제품 안전 정보에 특화된 최초의 AI 모델 개발을 통해 중소기업의 MSDS 작성 비용 절감, 화학사고 예방, 신속한 위해성 평가 지원 등 사회적·경제적 가치를 창출함

     

    ○ 학습 모델 개발 환경
     - 학습 환경: Linux(Ubuntu), Python, PyTorch, GPU 
     - 모델리소스 및 자원 활용: 고성능 GPU 서버를 사용하여 모델 학습을 진행
     - 모델 개발: 1-Cycle 자가 점검 계획에 맞춰 모델 개발
     - 성능 지표 결과를 통해 가장 성능이 우수한 모델로 최종 선정

    모델명 Qwen/Qwen2.5-7B-Instruct
    개발사 Alibaba Cloud
    파라미터 7,070,000,000 (약 70억)
    아키텍처 Transformer Decoder-only
    컨텍스트 32,768 토큰 (최대 131,072)
    다운로드 huggingface.co/Qwen/Qwen2.5-7B-Instruct

     

    ○ 최종 선정 모델
     - Qwen 2.5 7B Instruct 선정
       * 한국어 성능 우수: 다국어 모델로 한국어 처리 능력 검증
       * Instruction Following: Q&A 및 설명문 생성에 최적화
       * 적절한 크기: 7B 파라미터로 성능과 효율성 균형
       * 오픈 라이선스: Apache 2.0 (상업적 사용 가능)
     - Fine-tuning 방법: LoRA
       * r=16 (LoRA rank)
       * lora_alpha=32 (scaling factor)
       * target_modules: q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj
       * lora_dropout=0.05
       * 학습 파라미터: 전체의 0.3% (약 2,100만 개)
       * 메모리 절감: 약 70% 감소
       * 학습 속도: 약 1.5배 향상

     

    ○ 학습 데이터 생성
     - 데이터 구조: 총 300,000건
       * 원천데이터 (설명문): 100,000건
       * 가공데이터 (Q&A): 200,000건
       * 제품 카테고리(15개 카테고리): 세정제품, 세탁제품, 코팅제품, 접착제품, 방향제품, 염색제품, 자동차제품, 인쇄제품, 미용제품, 여가용품, 살균제품, 구제제품, 보존제품, 초, 기타
     - 데이터 분할: 독립적 8:1:1 분할 전략
     - 데이터 전처리
       * 텍스트 검증: 길이 체크, 반복 문자 제거
       * 답변 정규화: 중복 문장 제거, 길이 제한 (전문가 300자, 일반 250자)
       * 토크나이징: 최대 2,048 토큰, 초과 샘플 필터링

     

    ○ AI 모델 성능

    ○ AI 모델 성능
    AI Task 알고리즘 데이터 수량 성능지표 목표치 평가결과

    구축량
    학습
    (80%)
    검증
    (10%)
    평가
    (10%)
    질의응답
    (Q&A)
    Qwen 2.5 7B + LoRA               200,000           160,000                20,000                20,000 F1-Score 0.7 이상 0.9285
    설명문
    생성
    Qwen 2.5 7B + LoRA               100,000             80,000                10,000                10,000 ROUGE-L 50.0 이상 76.98
  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    ○ 라벨링데이터 메타정보

    ○ 라벨링데이터 메타정보
    NO. 항목명 타입 필수여부 항목설명 예시
    1 id Number Y 고유 식별자 CT001_00001
    2 info_year String Y 데이터 구축년도 2025
    3 info_version String Y 데이터 버전 1
    4 content_type String Y 콘텐츠 유형(설명문/Q/A) 설명문
    5 data_created String Y 데이터 생성일자 45839
    6 source_type String Y 데이터 출처 유형 (DB/사이트/공문) 화평법 신고자료
    7 source_name String Y 데이터 수집 원본 출처명 환경부 화학물질관리시스템
    8 collection_method String Y 수집 방법 (API/크롤링) 크롤링
    9 cas_no String Y 주성분 CAS 번호 108-88-3
    10 ghs_code String Y GHS 분류 코드 H225, H361
    11 hazard_class String N 주요 유해성 분류 발화성 액체
    12 label_info String N 제품에 표시된 경고문 정보 요약 "흡입 시 치명적"
    13 origin_language String Y 원천 데이터 언어 (한국어/영어 등) 한국어
    14 copyright_info String Y 저작권 여부(O/X) O
    15 modification_history String N 데이터 수정이력 여부 수정 완료
    16 product_name String N 제품명(비식별화 처리) 접착제_01
    17 manufacturer String N 제조사명(비식별화 처리) 제조사_01
    18 collection_url String N 수집 URL 주소 www.kosha.or.kr
    19 collection_date String Y 수집 일자 45823
    20 collection_worker String Y 수집 담당자 ID worker_01
    21 data_category String Y 데이터 분류(제품분류, 주성분 등) 세정제품
    22 validation_status String Y 품질검증 결과 상태(완료/미완료) 완료
    23 json_conversion_status String Y JSON 전환 여부(O/X) O

     

    ○ 라벨링데이터 어노테이션 명세

    ○ 라벨링데이터 어노테이션 명세
    구분 속성명 항목 설명 JSON
    info year 데이터 작성 연도 "year": 2025
    version 데이터 버전 "version": "1.0"
    created_data 데이터 생성일자 "created_date": "2025-06-01 00:00:00"
    modified_date 데이터 수정일자 "modified_date": "2025-06-01 00:00:00"
    origin_data id 원시데이터 고유번호 "id": CA00001
    collected_category 제품유형(15개 분류) "collected_category": "세정제"
    collected_item 품목명(44개 품목) "collected_item": "욕실세정제"
    product_name 제품명(비식별처리 적용) "product_name": "제품001"
    collected_date 데이터 수집일자 "collected_date": "2025-05-01"
    collected_source 수집 출처(기관, 웹 사이트 등) "collected_source": "환경부 생활화학제품 DB"
    collected_method 수집 방식(웹 크롤링, DB연계등) "collected_method": "DB 연계"
    source_data id 원천 데이터 고유번호 "id": CA00001-S0001
    main_ingredient  주요 주성분명 "main_ingredient": "염화벤잘코늄"
    cas_no  CAS 번호 "cas_no": "8001-54-5"
    ghs_code GHS 코드 "ghs_code": "GHS05"
    toxicity_info 독성 정보(GHS 분류, 건강 영향 등) "toxicity_info": "피부 부식성 1B"
    hazard_statement 경고문구 (문장형) "hazard_statement": "피부에 심한 화상과 눈 손상을 일으킬 수 있음"
    precautionary_statement 예방 조치문구 (문장형) "precautionary_statement": "보호장갑 착용 필요"
    exposure_pathway 노출 경로(흡입, 피부접촉 등) "exposure_pathway": "피부 접촉"
    health_effects 주요 건강 유해 영향 "health_effects": "피부염 유발"
    source_reference 데이터 출처 근거 문서 "source_reference": "GHS 분류체계 2024 기준"
    annotations caption_type 설명문  "caption_type": "독성 설명"
    caption 설명문(캡션) 텍스트  "caption": "염화벤잘코늄은 피부 부식성 1B로 분류되며, 피부에 화상을 유발할 수 있으므로 취급 시 보호장갑 착용이 필요합니다."
    Q/A_user_type Q/A 사용자 유형  "Q/A_user_type": "일반사용자"
      (일반/전문가)  
    Q/A_type 질의응답 유형 (성분 이해, 독성 설명, 경고문 이해, 사용법 안내 등) "Q/A_type": "독성 설명"
    question 질문 텍스트 "question": "염화벤잘코늄이 피부에 어떤 위험을 주나요?"
    answer 답변 텍스트  "answer": "염화벤잘코늄은 피부에 심각한 화상을 유발할 수 있어 보호장갑 착용이 필요합니다."

     

    ○ JSON파일 예시
    {
      "info": {
        "year": 2025,
        "version": "1.0",
        "created_date": "2025-06-01 00:00:00",
        "modified_date": "2025-06-01 00:00:00"
      },
      "origin_data": {
        "id": CA00001,
        "collected_category": "세정제",
        "collected_item": "욕실세정제",
        "product_name": "제품001",
        "collected_date": "2025-05-01",
        "collected_source": "환경부 생활화학제품 DB",
        "collected_method": "DB 연계"
      },
      "source_data": {
        "id": CA00001-S0001,
        "main_ingredient": "염화벤잘코늄",
        "cas_no": "8001-54-5",
        "ghs_code": "GHS05",
        "toxicity_info": "피부 부식성 1B",
        "hazard_statement": "피부에 심한 화상과 눈 손상을 일으킬 수 있음",
        "precautionary_statement": "보호장갑 착용 필요",
        "exposure_pathway": "피부 접촉",
        "health_effects": "피부염 유발",
        "source_reference": "GHS 분류체계 2024 기준"
      },
      "annotations": {
      "caption_type": "독성 설명",
      "caption": "염화벤잘코늄은 피부 부식성 1B로 분류되어 피부에 심각한 화상을 유발할 수 있습니다. 취급 시 보호장갑 착용이 필요합니다.",
      "Q/A": [
        {
          "Q/A_user_type": "일반사용자",
          "Q/A_type": "독성 설명",
          "question": "염화벤잘코늄이 피부에 어떤 위험을 주나요?",
          "answer": "염화벤잘코늄은 피부에 심각한 화상을 유발할 수 있어 보호장갑 착용이 필요합니다."
        },
      ]
     }
    }

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜에프아이솔루션
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    오재만 070-7872-7748 jaeman1003@fisolution.co.kr 사업총괄, 품질총괄, 데이터가공(부)
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜켐토피아 데이터가공(정), 품질관리
    ㈜카이로스랩 저작도구 개발, 데이터학습, AI-Hub 공개
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    연상현 070-4262-9475 yeonsh85@chemtopia.net
    최순배 070-7872-7748 sbchoi@fisolution.co.kr
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    정찬 070-4699-7340 chann.jung@kailoslab.com
    조용은 070-4699-7340 kevin@kailoslab.com
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    박지성 070-4699-7340 jacob@kailoslab.com
    조용은 070-4699-7340 kevin@kailoslab.com
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

오프라인 데이터 이용 안내

본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.

K-ICT 빅데이터센터는 데이터 안심구역으로 지정되어
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.

데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 이용신청 탭 이미지

국방데이터 개방 안내

본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.