콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#화학물질 # 유전독성 # 화학물질안전관리 # 바이오화학 #환경 #안전

NEW 화학물질(유전독성) 유해성 예측 데이터

화학물질(유전독성) 유해성 예측 데이터 이미지 아이콘
  • 분야재난안전환경
  • 유형 텍스트 , 이미지
구축년도 : 2023 갱신년월 : 2024-10 조회수 : 2,313 다운로드 : 76 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2024-10-30 데이터 최종 개방
    1.0 2024-06-28 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-06-28 산출물 공개 Beta Version

    소개

    - 물질별 국제 화학 식별자(International Chemical Identifier, InChI) 표기법 등의 기본정보를 비롯하여, 유전독성 속성별 실험에 관한 가공 데이터와 과학적 근거 및 기타 메타데이터를 포함하는 데이터

    구축목적

    - 화학물질 독성 산출 및 예측을 위해 국제화학식별자 표기법을 준수하는 화학물질(유전독성) 유해성 예측 데이터
  • - 데이터 구축 규모

    데이터 구축 규모
    구축 데이터 데이터 형식 수량 (건)
    화학물질 속성 데이터 JSON (Text) 200,017
    화학물질별 2D 구조 이미지  PNG (Image) 10,319
    합계 210,336

     

    - 데이터 분포
    전체 파일 규모

    데이터 분포 - 전체 파일 규모
    생물학적수준 수량 (건)
    Animal 5,880
    Animal cell line 10,267
    Bacteria 57,526
    Germ cell(In-vitro/In-vivo) 816
    Protein 125,528
    합계 200,017

     

    다양성(통계)
      - 화학물질 분자량 단위별 분포

    다양성(통계) - 화학물질 분자량 단위별 분포
    구분 (분자량) 수량 (건) 비율 (%)
    100 미만 16,145 8.07%
    100 이상 200 미만 82,619 41.31%
    200 이상 300 미만 52,176 26.09%
    300 이상 400 미만 27,786 13.89%
    400 이상 500 미만 10,320 5.16%
    500 이상 1000 미만 9,223 4.61%
    1000 이상 1,748 0.87%
    합계 200,017 100.00%

     

      - 화학물질 logP단위별 분포

    다양성(통계) - 화학물질 logP단위별 분포
    구분 (logP) 수량 (건) 비율 (%)
    1 미만 58,160 29.08%
    1 이상 4 미만 101,715 50.85%
    4 이상 8 미만 36,968 18.48%
    8 이상 3,174 1.59%
    합계 200,017 100.00%

     

      - 단백질수준

    다양성(통계) - 단백질수준
    Endpoint 수량 (건) 비율
    DNA손상 64,388 51.29%
    염색체이상 61,140 48.71%
    합계 125,528 100.00%

     

      - 박테리아수준

    다양성(통계) - 박테리아수준
    Endpoint 수량 (건) 비율
    DNA손상 223 0.39%
    염색체이상 40 0.07%
    유전자변이 57,263 99.54%
    합계 57,526 100.00%

     

      - 동물세포수준

    다양성(통계) - 동물세포수준
    Endpoint 수량 (건) 비율
    DNA손상 1,785 17.39%
    염색체이상 5,188 50.53%
    유전자변이 3,294 32.08%
    합계 10,267 100.00%

     

      - 시험동물수준

    다양성(통계) - 시험동물수준
    Endpoint 수량 (건) 비율
    DNA손상 1,155 19.64%
    염색체이상 3,413 58.04%
    유전자변이 1,312 22.31%
    합계 5,880 100.00%
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    - HGP-SL

    HGP-SL 훈련모델 설명 이미지

    <그림> HGP-SL 훈련모델


      - https://github.com/cszhangzhen/HGP-SL
      - 그래프 내에서 노드와 엣지로부터 정보를 취합하는 GCN(Graph Convolutional Networks) + MLP(multi-layer perceptron) layer에 구조 정보를 추출하는 HGP-SL layer를 추가한 신경망 네트워크로 화학물질의 구조적 특성을 입력 가능한 모델
      - Graph Classification on PROTEINS 영역에서 SOTA 모델
      - 데이터 입력 형식은 Pytorch geometric을 이용하여 지식 그래프로 표현, 딥러닝의 입력 형식으로 사용
      - 인공지능 모델은 기존의 방법보다 빠르고 정확하게 untested 혹은 신규물질을 포함하는 화학물질의 유해성 예측이 가능할 것으로 기대를 모으고 있으며, 막대한 시험 비용과 시간을 절약함은 물론, 다양한 제품의 개발, 화학물질 등록/허가 그리고 발암성 예측 등 유해성 관련 연구 등에 활용될 수 있어 향후 효율적인 화학물질 평가를 위한 중요한 도구가 될 것으로 기대함

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    - 데이터 구성

     

    • 화학물질 속성 데이터(JSON)

    화학물질 속성 데이터 json 이미지 1

    화학물질 속성 데이터 json 이미지 2

     

    • 화학물질별 2D 구조 데이터(PNG)

    화학물질별 2D 구조 데이터 png 이미지

     

    - 어노테이션 구성

    어노테이션 구성
    구분 속성명 타입 필수여부 설명 범위 비고
    1
    물질
    고유특성
    정보
    1-1 filename string 필수 라벨링데이터 파일명    
    1-2 format string 필수 파일포맷    
    1-3 PubChemCID​ string 선택 PubChem 지정 고유번호​   CID를 이용해 파일이름을 만드는데 선택정보
    1-4 CAS no.​ string 선택 화학물질 분류번호​   [0-9]+-[0-9]+-[0-9]+
    1-5 분자식 string 필수 화합물의 화학적 조성을 나타내며 분자에 존재하는 각 원소의 원자 유형과 수    
    1-6 SMILES​ string 필수 분자 구조의 문자열 표기법    
    1-7 분자량​ float 필수 분자의 상대 질량을 나타내는 물리량​    
    1-8 분자량단위 string 필수 분자량 단위    
    1-9 InChI string 필수 분자의 구조 및 연결 정보를 인코딩하는 기계 판독 가능 및 인간 판독 가능 문자열을 제공    
    1-10 InChI Key string 필수 분자의 구조 및 연결 정보를 인코딩하는 기계 판독 가능 및 인간 판독 가능 문자열을 제공    
    1-11 IUPACName string 필수 IUPAC에서 제정한 규칙 및 협약에 따라 화합물에 할당된 체계적이고 표준화된 명명법    
    1-12 XLogP float 필수 옥탄올 물 분배계수​    
    1-13 ImageFile Path string 필수 물질구조 이미지파일 경로    
    1-14 증거력 string 필수 증거력 상/중/하/최하  
    1-15 최종판정 string 필수 최종판정 독성있음/독성없음/판단보류  
    2
    물질
    시험법
    관련정보
    2-1 참고문헌(발행년도​/시험기관/저자) string 선택 출처의 참고문헌정보    
    2-2 원출처 string 선택 원출처의 라이센스    
    라이센스정보
    2-3 출처정보 string 선택 출처 링크    
    2-4 출처 string 선택 출처 예) tox21, pubchem    
    2-5 출처기준 Access date string 선택 출처기준 Access date    
    2-6 생물학적수준 string 선택 실험대상을 단백질, 박테리아​, 포유류세포​, 동물, 동물의 생식세포로 분류 Animal/Animal cell line/Bacteria/"Germ cell(In-vitro/In-vivo)"/Protein  
    2-7 S9mix여부 string 선택 박테리아의 영향​, 포유류 세포 영향에서 인체 내 대사 모사를 위한 S9mix 적용 유무(+/-) S9+ / S9- / 알수없음 / S9+|S9- / S9+|알수없음 / S9-|알수없음 / S9+|S9-|알수없음  
    2-8 Endpoint string 필수 독성발현 형태를 유전자 변이, DNA 손상, 염색체 이상으로 구분 유전자변이 / 염색체이상 / DNA손상  
    2-9 GLP여부 string 선택 비임상 안전성 연구를 수행하고 보고하기 위한 표준화된 프로토콜을 제공하는 일련의 지침 및 규정
    GLP에 따라 수행된 연구는 데이터의 품질, 무결성 및 신뢰성 보장
       
    2-10 신뢰도 string 필수 적절한 연구 설계, 표준 프로토콜, 적절한 통제, 적절한 표본 크기, 적절한 통계 분석 및 품질 보증 절차 준수에 따른 신뢰도등급 1/2/3/4/5  
    2-11 시험종or균주 string 선택 일반적인 테스트 종에는 쥐, 생쥐, 토끼 및 인간이 아닌 영장류와 같은 실험실 동물    
    2-12 노출방법 string 선택 노출 방법은 유기체 또는 세포가 물질에 노출되는 방식    
    2-13 노출농도 string 선택 노출농도    
    2-14 Test Type string 선택 test type    
    2-15 Read-across string 선택 read-across    
    2-16 SCI/Agency보고서 여부 string 선택 SCI/Agency보고서여부    
    2-17 공인시험(관련TG) string 선택 공인시험(관련TG여부)    
    2-18 대표자료 여부 string 선택 대표자료 여부    
    2-19 원천데이터 파일경로 string 필수 원천데이터 파일경로    
    2-20 증거력 string 필수 증거력 상/중/하/최하  
    2-21 판단 string 필수 정제수준의 시험속성 판단 독성있음/독성없음/판단보류  
    3
    물질
    시험법
    리스트
    [*]
    3-1 참고문헌(발행년도​/시험기관/저자) string 선택 출처의 참고문헌정보    
    3-2 원출처 string 선택 원출처의 라이센스    
    라이센스정보
    3-3 출처정보 string 선택 출처 링크    
    3-4 출처 string 선택 출처 예) tox21, pubchem    
    3-5 출처기준 Access date string 선택 출처기준 Access date    
    3-6 생물학적수준 string 선택 실험대상을 단백질, 박테리아​, 포유류세포​, 동물, 동물의 생식세포로 분류 Animal/Animal cell line/Bacteria/"Germ cell(In-vitro/In-vivo)"/Protein  
    3-7 S9mix여부 string 선택 박테리아의 영향​, 포유류 세포 영향에서 인체 내 대사 모사를 위한 S9mix 적용 유무(+/-) S9+ / S9- / 알수없음 / S9+|S9- / S9+|알수없음 / S9-|알수없음 / S9+|S9-|알수없음  
    3-8 Endpoint string 필수 독성발현 형태를 유전자 변이, DNA 손상, 염색체 이상으로 구분 유전자변이 / 염색체이상 / DNA손상  
    3-9 GLP여부 string 선택 비임상 안전성 연구를 수행하고 보고하기 위한 표준화된 프로토콜을 제공하는 일련의 지침 및 규정
    GLP에 따라 수행된 연구는 데이터의 품질, 무결성 및 신뢰성 보장
       
    3-10 신뢰도 string 필수 적절한 연구 설계, 표준 프로토콜, 적절한 통제, 적절한 표본 크기, 적절한 통계 분석 및 품질 보증 절차 준수에 따른 신뢰도등급 1/2/3/4/5  
    3-11 시험종or균주 string 선택 일반적인 테스트 종에는 쥐, 생쥐, 토끼 및 인간이 아닌 영장류와 같은 실험실 동물    
    3-12 노출방법 string 선택 노출 방법은 유기체 또는 세포가 물질에 노출되는 방식    
    3-13 노출농도 string 선택 노출농도    
    3-14 Test Type string 선택 test type    
    3-15 Read-across string 선택 read-across    
    3-16 SCI/Agency보고서 여부 string 선택 SCI/Agency보고서여부    
    3-17 공인시험(관련TG) string 선택 공인시험(관련TG여부)    
    3-18 대표자료 여부 string 선택 대표자료 여부    
    3-19 원천데이터 파일경로 string 필수 원천데이터 파일경로    
    3-20 증거력 string 필수 증거력 상/중/하/최하  
    3-21 판단 string 필수 정제수준의 시험속성 판단 독성있음/독성없음/판단보류  
  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜가치랩스
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    안기옥 031-460-0029 kiokahn@gazzi.ai 총괄기획 / 데이터 수집,정제,가공 / 학습모델, 품질
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    덕성여자대학교 수집정제 가이드라인 작성 / 출처 및 가이드라인 절차 확인 /
    크라우드 워커 교육 / 의미정확성 외부 검증 (품질검증)
    ㈜켐토피아 크라우드 소싱 업무 / 데이터 정제 / 데이터 가공
    ㈜위해관리연구소 유전 독성 데이터 정제, 가공
    ㈜아비스 가공 툴 운영
    (사)한국식품안전협회 현황자료 조사 /검증물질 수집
    (사)대한화장품협회 화장품 업계 의견 수렴 / 검증 성분리스트 조사
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    조영탁 031-460-0029 ytcho@gazzi.ai
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    조영탁 031-460-0029 ytcho@gazzi.ai
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    조영탁 031-460-0029 ytcho@gazzi.ai
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.