-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2024-10-30 데이터 최종 개방 1.0 2024-06-28 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-06-28 산출물 공개 Beta Version 소개
- 물질별 국제 화학 식별자(International Chemical Identifier, InChI) 표기법 등의 기본정보를 비롯하여, 유전독성 속성별 실험에 관한 가공 데이터와 과학적 근거 및 기타 메타데이터를 포함하는 데이터
구축목적
- 화학물질 독성 산출 및 예측을 위해 국제화학식별자 표기법을 준수하는 화학물질(유전독성) 유해성 예측 데이터
-
메타데이터 구조표 데이터 영역 재난안전환경 데이터 유형 텍스트 , 이미지 데이터 형식 JSON, PNG 데이터 출처 PubChem, eChemportal, Tox21외 공개데이터 크롤링 및 제공 데이터셋 라벨링 유형 Text analysis(의미 라벨링) 라벨링 형식 JSON 데이터 활용 서비스 화학물질 유해성 예측 통합 서비스 데이터 구축년도/
데이터 구축량2023년/원천데이터: 200,017개(JSON) / 10,319개(PNG) / 라벨링데이터: 200,017개(JSON) -
- 데이터 구축 규모
데이터 구축 규모 구축 데이터 데이터 형식 수량 (건) 화학물질 속성 데이터 JSON (Text) 200,017 화학물질별 2D 구조 이미지 PNG (Image) 10,319 합계 210,336 - 데이터 분포
전체 파일 규모데이터 분포 - 전체 파일 규모 생물학적수준 수량 (건) Animal 5,880 Animal cell line 10,267 Bacteria 57,526 Germ cell(In-vitro/In-vivo) 816 Protein 125,528 합계 200,017 다양성(통계)
- 화학물질 분자량 단위별 분포다양성(통계) - 화학물질 분자량 단위별 분포 구분 (분자량) 수량 (건) 비율 (%) 100 미만 16,145 8.07% 100 이상 200 미만 82,619 41.31% 200 이상 300 미만 52,176 26.09% 300 이상 400 미만 27,786 13.89% 400 이상 500 미만 10,320 5.16% 500 이상 1000 미만 9,223 4.61% 1000 이상 1,748 0.87% 합계 200,017 100.00% - 화학물질 logP단위별 분포
다양성(통계) - 화학물질 logP단위별 분포 구분 (logP) 수량 (건) 비율 (%) 1 미만 58,160 29.08% 1 이상 4 미만 101,715 50.85% 4 이상 8 미만 36,968 18.48% 8 이상 3,174 1.59% 합계 200,017 100.00% - 단백질수준
다양성(통계) - 단백질수준 Endpoint 수량 (건) 비율 DNA손상 64,388 51.29% 염색체이상 61,140 48.71% 합계 125,528 100.00% - 박테리아수준
다양성(통계) - 박테리아수준 Endpoint 수량 (건) 비율 DNA손상 223 0.39% 염색체이상 40 0.07% 유전자변이 57,263 99.54% 합계 57,526 100.00% - 동물세포수준
다양성(통계) - 동물세포수준 Endpoint 수량 (건) 비율 DNA손상 1,785 17.39% 염색체이상 5,188 50.53% 유전자변이 3,294 32.08% 합계 10,267 100.00% - 시험동물수준
다양성(통계) - 시험동물수준 Endpoint 수량 (건) 비율 DNA손상 1,155 19.64% 염색체이상 3,413 58.04% 유전자변이 1,312 22.31% 합계 5,880 100.00% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- HGP-SL
<그림> HGP-SL 훈련모델
- https://github.com/cszhangzhen/HGP-SL
- 그래프 내에서 노드와 엣지로부터 정보를 취합하는 GCN(Graph Convolutional Networks) + MLP(multi-layer perceptron) layer에 구조 정보를 추출하는 HGP-SL layer를 추가한 신경망 네트워크로 화학물질의 구조적 특성을 입력 가능한 모델
- Graph Classification on PROTEINS 영역에서 SOTA 모델
- 데이터 입력 형식은 Pytorch geometric을 이용하여 지식 그래프로 표현, 딥러닝의 입력 형식으로 사용
- 인공지능 모델은 기존의 방법보다 빠르고 정확하게 untested 혹은 신규물질을 포함하는 화학물질의 유해성 예측이 가능할 것으로 기대를 모으고 있으며, 막대한 시험 비용과 시간을 절약함은 물론, 다양한 제품의 개발, 화학물질 등록/허가 그리고 발암성 예측 등 유해성 관련 연구 등에 활용될 수 있어 향후 효율적인 화학물질 평가를 위한 중요한 도구가 될 것으로 기대함 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 데이터 구성
• 화학물질 속성 데이터(JSON)
• 화학물질별 2D 구조 데이터(PNG)
- 어노테이션 구성
어노테이션 구성 구분 속성명 타입 필수여부 설명 범위 비고 1
물질
고유특성
정보1-1 filename string 필수 라벨링데이터 파일명 1-2 format string 필수 파일포맷 1-3 PubChemCID string 선택 PubChem 지정 고유번호 CID를 이용해 파일이름을 만드는데 선택정보 1-4 CAS no. string 선택 화학물질 분류번호 [0-9]+-[0-9]+-[0-9]+ 1-5 분자식 string 필수 화합물의 화학적 조성을 나타내며 분자에 존재하는 각 원소의 원자 유형과 수 1-6 SMILES string 필수 분자 구조의 문자열 표기법 1-7 분자량 float 필수 분자의 상대 질량을 나타내는 물리량 1-8 분자량단위 string 필수 분자량 단위 1-9 InChI string 필수 분자의 구조 및 연결 정보를 인코딩하는 기계 판독 가능 및 인간 판독 가능 문자열을 제공 1-10 InChI Key string 필수 분자의 구조 및 연결 정보를 인코딩하는 기계 판독 가능 및 인간 판독 가능 문자열을 제공 1-11 IUPACName string 필수 IUPAC에서 제정한 규칙 및 협약에 따라 화합물에 할당된 체계적이고 표준화된 명명법 1-12 XLogP float 필수 옥탄올 물 분배계수 1-13 ImageFile Path string 필수 물질구조 이미지파일 경로 1-14 증거력 string 필수 증거력 상/중/하/최하 1-15 최종판정 string 필수 최종판정 독성있음/독성없음/판단보류 2
물질
시험법
관련정보2-1 참고문헌(발행년도/시험기관/저자) string 선택 출처의 참고문헌정보 2-2 원출처 string 선택 원출처의 라이센스 라이센스정보 2-3 출처정보 string 선택 출처 링크 2-4 출처 string 선택 출처 예) tox21, pubchem 2-5 출처기준 Access date string 선택 출처기준 Access date 2-6 생물학적수준 string 선택 실험대상을 단백질, 박테리아, 포유류세포, 동물, 동물의 생식세포로 분류 Animal/Animal cell line/Bacteria/"Germ cell(In-vitro/In-vivo)"/Protein 2-7 S9mix여부 string 선택 박테리아의 영향, 포유류 세포 영향에서 인체 내 대사 모사를 위한 S9mix 적용 유무(+/-) S9+ / S9- / 알수없음 / S9+|S9- / S9+|알수없음 / S9-|알수없음 / S9+|S9-|알수없음 2-8 Endpoint string 필수 독성발현 형태를 유전자 변이, DNA 손상, 염색체 이상으로 구분 유전자변이 / 염색체이상 / DNA손상 2-9 GLP여부 string 선택 비임상 안전성 연구를 수행하고 보고하기 위한 표준화된 프로토콜을 제공하는 일련의 지침 및 규정
GLP에 따라 수행된 연구는 데이터의 품질, 무결성 및 신뢰성 보장2-10 신뢰도 string 필수 적절한 연구 설계, 표준 프로토콜, 적절한 통제, 적절한 표본 크기, 적절한 통계 분석 및 품질 보증 절차 준수에 따른 신뢰도등급 1/2/3/4/5 2-11 시험종or균주 string 선택 일반적인 테스트 종에는 쥐, 생쥐, 토끼 및 인간이 아닌 영장류와 같은 실험실 동물 2-12 노출방법 string 선택 노출 방법은 유기체 또는 세포가 물질에 노출되는 방식 2-13 노출농도 string 선택 노출농도 2-14 Test Type string 선택 test type 2-15 Read-across string 선택 read-across 2-16 SCI/Agency보고서 여부 string 선택 SCI/Agency보고서여부 2-17 공인시험(관련TG) string 선택 공인시험(관련TG여부) 2-18 대표자료 여부 string 선택 대표자료 여부 2-19 원천데이터 파일경로 string 필수 원천데이터 파일경로 2-20 증거력 string 필수 증거력 상/중/하/최하 2-21 판단 string 필수 정제수준의 시험속성 판단 독성있음/독성없음/판단보류 3
물질
시험법
리스트
[*]3-1 참고문헌(발행년도/시험기관/저자) string 선택 출처의 참고문헌정보 3-2 원출처 string 선택 원출처의 라이센스 라이센스정보 3-3 출처정보 string 선택 출처 링크 3-4 출처 string 선택 출처 예) tox21, pubchem 3-5 출처기준 Access date string 선택 출처기준 Access date 3-6 생물학적수준 string 선택 실험대상을 단백질, 박테리아, 포유류세포, 동물, 동물의 생식세포로 분류 Animal/Animal cell line/Bacteria/"Germ cell(In-vitro/In-vivo)"/Protein 3-7 S9mix여부 string 선택 박테리아의 영향, 포유류 세포 영향에서 인체 내 대사 모사를 위한 S9mix 적용 유무(+/-) S9+ / S9- / 알수없음 / S9+|S9- / S9+|알수없음 / S9-|알수없음 / S9+|S9-|알수없음 3-8 Endpoint string 필수 독성발현 형태를 유전자 변이, DNA 손상, 염색체 이상으로 구분 유전자변이 / 염색체이상 / DNA손상 3-9 GLP여부 string 선택 비임상 안전성 연구를 수행하고 보고하기 위한 표준화된 프로토콜을 제공하는 일련의 지침 및 규정
GLP에 따라 수행된 연구는 데이터의 품질, 무결성 및 신뢰성 보장3-10 신뢰도 string 필수 적절한 연구 설계, 표준 프로토콜, 적절한 통제, 적절한 표본 크기, 적절한 통계 분석 및 품질 보증 절차 준수에 따른 신뢰도등급 1/2/3/4/5 3-11 시험종or균주 string 선택 일반적인 테스트 종에는 쥐, 생쥐, 토끼 및 인간이 아닌 영장류와 같은 실험실 동물 3-12 노출방법 string 선택 노출 방법은 유기체 또는 세포가 물질에 노출되는 방식 3-13 노출농도 string 선택 노출농도 3-14 Test Type string 선택 test type 3-15 Read-across string 선택 read-across 3-16 SCI/Agency보고서 여부 string 선택 SCI/Agency보고서여부 3-17 공인시험(관련TG) string 선택 공인시험(관련TG여부) 3-18 대표자료 여부 string 선택 대표자료 여부 3-19 원천데이터 파일경로 string 필수 원천데이터 파일경로 3-20 증거력 string 필수 증거력 상/중/하/최하 3-21 판단 string 필수 정제수준의 시험속성 판단 독성있음/독성없음/판단보류 -
데이터셋 구축 담당자
수행기관(주관) : ㈜가치랩스
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 안기옥 031-460-0029 kiokahn@gazzi.ai 총괄기획 / 데이터 수집,정제,가공 / 학습모델, 품질 수행기관(참여)
수행기관(참여) 기관명 담당업무 덕성여자대학교 수집정제 가이드라인 작성 / 출처 및 가이드라인 절차 확인 /
크라우드 워커 교육 / 의미정확성 외부 검증 (품질검증)㈜켐토피아 크라우드 소싱 업무 / 데이터 정제 / 데이터 가공 ㈜위해관리연구소 유전 독성 데이터 정제, 가공 ㈜아비스 가공 툴 운영 (사)한국식품안전협회 현황자료 조사 /검증물질 수집 (사)대한화장품협회 화장품 업계 의견 수렴 / 검증 성분리스트 조사 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 조영탁 031-460-0029 ytcho@gazzi.ai AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 조영탁 031-460-0029 ytcho@gazzi.ai 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 조영탁 031-460-0029 ytcho@gazzi.ai
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.