※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2025-04-16 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2025-04-16 산출물 전체 공개 소개
- 화학물질의 안전한 관리와 규제 준수를 위해 화학물질의 물리/화학적 특성(증기압, 연소열, 인화점)을 수집한 화학물질 위험성 예측 데이터
구축목적
- 화학물질의 물리/화학적 특성 데이터(증기압, 연소열, 인화점)를 포괄적으로 수집, 정리, 표준화하여, 이를 기반으로 한 위험성 예측 모델 구축 - 위험성 평가 결과를 기반으로 효율적인 대응 전략과 사고 예방 교육 프로그램을 개발하여, 화학물질 취급 시 발생할 수 있는 잠재적 위험에 대응 - REACH, GHS(전 세계 조화 시스템) 및 기타 국제 화학물질 관리 규제에 효과적으로 대응할 수 있는 지원 시스템을 구축
-
메타데이터 구조표 데이터 영역 재난안전환경 데이터 유형 텍스트 , 이미지 데이터 형식 PNG, SDF 데이터 출처 웹 크롤링, 문서 스캔, 논문 검색, Handbook 스캔 라벨링 유형 화학물질 속성(자연어) 라벨링 형식 JSON 데이터 활용 서비스 웹 기반 화학물질 위험성 예측 서비스 데이터 구축년도/
데이터 구축량2024년/원천데이터 : PNG 20,125건 / SDF 20,125건 라벨링데이터 : 20,125건 -
▣ 데이터 구축 규모
데이터 구축 규모 데이터 종류 원시데이터 수량 원천데이터 수량 라벨링 데이터 수량 증기압 10,220건 10,220건 5,110건 연소열 10,010건 10,010건 5,005건 인화점 20,020건 20,020건 10,010건 ▣ 데이터 분포
데이터 분포 품질특성 검증유형 항목명 측정지표 결과 다양성 통계 화학물질 위험성 수집 분포 구성비 구성비 중첩률 50% 측정 결과 폭발성 물질 및 혼합물 0.32% 가연성 가스 0.60% 인화성 액체 18.11% 인화성 고체 1.43% 기타 79.54% 화학물질 위험성 라벨 분포 구성비 구성비
중첩률50% 측정 결과 위험 20.34% 자료없음 26.26% 해당없음 49.98% 분류되지 않음 3.42% 화학물질 수 구성비 - 증기압-연소열 유니크 화학물질 수 8,967건 - 증기압-인화점 유니크 화학물질 수 13,122건 - 연소열-인화점 유니크 화학물질 수 13,736건 - 증기압-연소열-인화점 유니크 화학물질 수 16,560건 다양성 요건 화학물질 분포 구성비 구성비
중첩률50% 측정 결과 유기
화학물질85.93% 무기
화학물질14.07% 증기압(mmHg) 분포 구성비 구성비
중첩률50% 측정 결과 400 이상 5.11% 300이상
400미만0.82% 200이상
300미만1.49% 100이상
200미만3.01% 50이상
100미만3.56% 10이상
50미만12.80% 10미만 73.21% 연소열(kJ/mol) 분포 구성비 구성비
중첩률50% 구분 구성비 4000미만 37.94% 4000이상
6000미만28.99% 6000이상 33.07% 인화점 분포 구성비 구성비 중첩률 50% 측정 결과 23℃ 이하 12.36% 23℃ 초과
60℃ 이하18.03% 60℃ 초과
93℃ 이하24.64% 93℃ 초과 44.97% 증기압 데이터 수 수량 5,110건 연소열 데이터 수 수량 5,005건 인화점 데이터 수 수량 10,010건 화학물질 2D 이미지 수 수량 20,125건 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드▣ 화학물질 특성(증기압, 연소열, 인화점) 예측 모델(MPNN + ChemBERTa)
- 본 과제의 화학물질 특성 예측 모델을 개발하기 위해 MPNN과 ChemBERTa 모델의 장점을 결합한 모델을 사용함
- MPNN은 그래프 구조를 활용한 모델로, 노드 간 정보 전달을 통해 그래프 구조를 학습하는 모델임
- ChemBERTa는 BERT 모델 구조를 기반으로 하며, RoBERTa의 사전학습 방식을 따름. PubChem 데이터셋의 1천만개의 SMILES 문자열로 학습되어, 화학물질 특성에 대해 예측이 가능함
- 수집된 데이터로 학습을 진행하였고, ChemBERTa는 사전학습된 모델을 사용함.
- 화학 특성인 증기압(vp), 연소열(hoc), 인화점(fp)를 학습하고 예측하는 모델▣ 화학물질 위험성 종류 예측 모델 (MolT5 + MoMu)
- 화학물질 위험성 종류 예측 모델을 개발하기 위해 MolT5와 MoMu 모델을 결합한 모델을 사용함
- MolT5는 분자 데이터를 자연어로 표현하거나 텍스트를 기반으로 분자 구조를 생성할 수 있는 대규모 언어 모델로, PubChem과 ChEBI 데이터셋으로 사전학습됨
- MoMu 모델은 그래프 기반의 분자 표현 학습에 특화된 모델로, MoleculeNet과 같은 데이터셋으로 학습되어 분자의 화학적 특성을 효과적으로 학습함
- 수집된 데이터로 학습을 진행하였고, 각각의 모델은 사전학습된 모델을 사용함
- 화학물질의 위험성 종류를 multi-label로 학습하고 예측하는 모델 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드▣ 데이터 구성
데이터 구성 항목 설명 INFO 정보 DATASET_NAME 데이터셋 이름 VERSION 버전 CREATE_DATE_TIME 생성일 COPYRIGHT Copyright common_properties 공통 속성 iupac_name IUPAC name organic compound 유기화합물 여부 ghs_classification GHS 정보 hazard_statements Hazard Statements precautionary_statements Precautionary Statements signal_word Signal Word hazard_pictograms Hazard Pictograms ghs_category GHS 카테고리 ghs_Explosives 폭발성 물질 및 혼합물 ghs_Flammable_gases 가연성 가스 ghs_Flammable_liquids 인화성 액체 ghs_Flammable_solids 인화성 고체 cid PubChem CID cas_number CAS Number smiles SMILES code inchi InChI code 2D_str_img 2D 구조식 molecular_formula 분자식 mw 분자량 (g/mol) h_donor H bond donor 개수 h_acceptor H bond acceptor 개수 density Denstiy logp logP tpsa Topological Polar Surface Area aromatic_ring aromatic ring 개수 bp 끓는 점 mp 녹는 점 refractive_index 굴절율 water_solubility 물 용해도 dieletric_constant 유전상수 No_alcohol_groups Alcohol 개수 No_amide_groups Amide 개수 No_amine_groups Amine 개수 No_ester_groups Ester 개수 No_ether_groups Ehter 개수 No_halogen_atoms Halogen 원자 개수 No_imide_groups Imide 개수 No_ketene_groups Ketene 개수 No_ketone_groups Ketone 개수 No_phenol_groups Phenol 개수 No_sulfoxide_groups Sulfoxide 개수 No_sulfone_groups Sulfone 개수 No_sulfonamide_groups Sulfonamide 개수 No_sulfate_groups Sulfate 개수 No_phosphate_groups Phosphate 개수 No_cyano_groups Cyano 개수 No_azide_groups Azide 개수 No_azo_groups Azo 개수 vapor_pressure_properties 증기압 속성 vapor_pressure 증기압 (Pa) vp 증기압 (Pa) temp_kelvin 온도 (절대온도) temp_celsius 온도 (섭씨온도) datasource 레퍼런스 Antoine_eqn 앙투안 방정식 A A값 B B값 C C값 used_data 활용 데이터 vp 증기압 (Pa) temp_kelvin 온도 (절대온도) temp_celsius 온도 (섭씨온도) datasource 레퍼런스 heat_of_combustion_properties 연소열 속성 heat_combstion 연소열 heat_comb 연소열 temp_celsius 온도(섭씨온도) datasource 레퍼런스 flash_point_properties 인화점 속성 flash_point 인화점 fp 인화점 datasource 레퍼런스 ▣ 어노테이션 포맷
어노테이션 포맷 구분 항목 타입 필수구분 설명 1 INFO dictionary Y 정보 1-1 DATASET_NAME string Y 데이터셋 이름 1-2 VERSION string Y 버전 1-3 CREATE_DATE_TIME string Y 생성일 1-4 COPYRIGHT string Y Copyright 2 common_properties dictionary Y 공통 속성 2-1 iupac_name string Y IUPAC name 2-2 organic compound string Y 유기화합물 여부 2-3 ghs_classification dictionary Y GHS 정보 2-3-1 hazard_statements list Y Hazard Statements 2-3-2 precautionary_statements list Y Precautionary Statements 2-3-3 signal_word string Y Signal Word 2-3-4 hazard_pictograms list Y Hazard Pictograms 2-4 ghs_category dictionary Y GHS 카테고리 2-4-1 ghs_Explosives list Y 폭발성 물질 및 혼합물 2-4-2 ghs_Flammable_gases list Y 가연성 가스 2-4-3 ghs_Flammable_liquids list Y 인화성 액체 2-4-4 ghs_Flammable_solids list Y 인화성 고체 2-5 cid string Y PubChem CID 2-6 cas_number string Y CAS Number 2-7 smiles string Y SMILES code 2-8 inchi string Y InChI code 2-9 2D_str_img string Y 2D 구조식 2-10 molecular_formula string Y 분자식 2-11 mw float Y 분자량 (g/mol) 2-12 h_donor integer Y H bond donor 개수 2-13 h_acceptor integer Y H bond acceptor 개수 2-14 density float Y Denstiy 2-15 logp float Y logP 2-16 tpsa float Y Topological Polar Surface Area 2-17 aromatic_ring integer Y aromatic ring 개수 2-18 bp float N 끓는 점 2-19 mp float N 녹는 점 2-20 refractive_index float N 굴절율 2-21 water_solubility float N 물 용해도 2-22 dieletric_constant float N 유전상수 2-23 No_alcohol_groups integer Y Alcohol 개수 2-24 No_amide_groups integer Y Amide 개수 2-25 No_amine_groups integer Y Amine 개수 2-26 No_ester_groups integer Y Ester 개수 2-27 No_ether_groups integer Y Ehter 개수 2-28 No_halogen_atoms integer Y Halogen 원자 개수 2-29 No_imide_groups integer Y Imide 개수 2-30 No_ketene_groups integer Y Ketene 개수 2-31 No_ketone_groups integer Y Ketone 개수 2-32 No_phenol_groups integer Y Phenol 개수 2-33 No_sulfoxide_groups integer Y Sulfoxide 개수 2-34 No_sulfone_groups integer Y Sulfone 개수 2-35 No_sulfonamide_groups integer Y Sulfonamide 개수 2-36 No_sulfate_groups integer Y Sulfate 개수 2-37 No_phosphate_groups integer Y Phosphate 개수 2-38 No_cyano_groups integer Y Cyano 개수 2-39 No_azide_groups integer Y Azide 개수 2-40 No_azo_groups integer Y Azo 개수 3 vapor_pressure_properties dictionary Y 증기압 속성 3-1 vapor_pressure list Y 증기압 (Pa) 3-1-1 vp flaot Y 증기압 (Pa) 3-1-2 temp_kelvin float Y 온도 (절대온도) 3-1-3 temp_celsius float Y 온도 (섭씨온도) 3-1-4 datasource string Y 레퍼런스 3-2 Antoine_eqn list N 앙투안 방정식 3-2-1 A string N A값 3-2-2 B string N B값 3-2-3 C string N C값 3-2-4 used_data list N 활용 데이터 3-2-4-1 vp flaot N 증기압 (Pa) 3-2-4-2 temp_kelvin float N 온도 (절대온도) 3-2-4-3 temp_celsius float N 온도 (섭씨온도) 3-2-4-4 datasource string N 레퍼런스 4 heat_of_combustion_properties dictionary Y 연소열 속성 4-1 heat_combstion list Y 연소열 4-1-1 heat_comb float Y 연소열 4-1-2 temp_celsius float Y 온도(섭씨온도) 4-1-3 datasource string Y 레퍼런스 5 flash_point_properties dictionary Y 인화점 속성 5-1 flash_point list Y 인화점 5-1-1 fp float Y 인화점 5-1-2 datasource string Y 레퍼런스 ▣ 실제 예시
실제 예시-json 예시 json 예시 {
"INFO": {
"DATASET_NAME": "화학물질 위험성 예측 데이터",
"VERSION": "1.0",
"CREATE_DATE_TIME": "2024-10-05 02:43:27",
"COPYRIGHT": "유클리드소프트"
},
"common_properties": {
"iupac_name": "1,3-dihydro-2-benzofuran",
"organic_compound": "True",
"ghs_classification": {
"hazard_statements": [
"H227",
"H315",
"H319",
"H335"
],
"precautionary_statements": [
"P210",
"P261",
"P264",
"P264+P265",
"P271",
"P280",
"P302+P352",
"P304+P340",
"P305+P351+P338",
"P319",
"P321",
"P332+P317",
"P337+P317",
"P362+P364",
"P370+P378",
"P403",
"P403+P233",
"P405",
"P501"
],
"signal_word": "Warning",
"hazard_pictograms": [
"Irritant"
]
},
"ghs_category": {
"ghs_Explosives": [
"Not applicable"
],
"ghs_Flammable_gases": [
"Not applicable"
],
"ghs_Flammable_liquids": [
"H227"
],
"ghs_Flammable_solids": [
"Not applicable"
]
},
"cid": "10327",
"cas_number": "496-14-0",
"smiles": "C1C2=CC=CC=C2CO1",
"inchi": "InChI=1S/C8H8O/c1-2-4-8-6-9-5-7(8)3-1/h1-4H,5-6H2",
"2D_str_img": "data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAASwAAAEsCAIAA.....",
"molecular_formula": "C8H8O",
"mw": 120.15,
"h_donor": 0,
"h_acceptor": 1,
"density": 9.217866e-07,
"logp": 1.7168,
"tpsa": 9.2,
"aromatic_ring": 1,
"bp": 192.0,
"mp": null,
"refractive_index": 1.547,
"water_solubility": null,
"dieletric_constant": null,
"No_alcohol_groups": 0,
"No_amide_groups": 0,
"No_amine_groups": 0,
"No_ester_groups": 0,
"No_ether_groups": 1,
"No_halogen_atoms": 0,
"No_imide_groups": 0,
"No_ketene_groups": 0,
"No_ketone_groups": 0,
"No_phenol_groups": 0,
"No_sulfoxide_groups": 0,
"No_sulfone_groups": 0,
"No_sulfonamide_groups": 0,
"No_sulfate_groups": 0,
"No_phosphate_groups": 0,
"No_cyano_groups": 0,
"No_azide_groups": 0,
"No_azo_groups": 0
},
"vapor_pressure_properties": {
"vapor_pressure": [
{
"vp": 0.74,
"temp_kelvin": 298.15,
"temp_celsius": 25.0,
"datasource": "Haz-Map, Information on Hazardous Chemicals and Occupational Diseases"
}
],
"Antoine_eqn": {
"A": null,
"B": null,
"C": null,
"used_data": [
{
"vp": null,
"temp_kelvin": null,
"temp_celsius": null,
"datasource": null
}
]
}
},
"heat_of_combustion_properties": {
"heat_combustion": [
{
"heat_comb": -4207.57,
"temp_celsius": 25.0,
"datasource": "http://webbook.nist.gov/cgi/cbook.cgi?ID=C496140&Units=SI"
}
]
},
"flash_point_properties": {
"flash_point": [
{
"fp": null,
"datasource": null
}
]
}
} -
데이터셋 구축 담당자
수행기관(주관) : ㈜유클리드소프트
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 박주한 042-488-6589 jhpark@euclidsoft.co.kr 설계 및 데이터 수집, 정제, 가공, 검수, 품질관리 수행기관(참여)
수행기관(참여) 기관명 담당업무 삼육대학교 산학협력단 모델설계, AI모델링 한국마이크로의료로봇연구원 데이터 수집, 검수 한국인공지능융합산업협회 AI모델링, 응용서비스 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 황준원 070-5151-5583 jwhwang@euclidsoft.co.kr 조하랑 070-5151-1750 hrcho@euclidsoft.co.kr AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 류한철 02-3399-1801 hcryu@syu.ac.kr 여운하 02-3399-1801 canal@syuin.ac.kr 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 황준원 070-5151-5583 jwhwang@euclidsoft.co.kr 조하랑 070-5151-1750 hrcho@euclidsoft.co.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.
국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.