콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#환경

BETA 베트남·말레이시아 ESG 데이터

베트남·말레이시아 ESG 데이터 아이콘 이미지
  • 분야지식재산
  • 유형 텍스트
  • 생성 방식LLM
구축년도 : 2025 갱신년월 : 2026-05 조회수 : 34 다운로드 : 3 용량 :
샘플(경량) 데이터 ?

※ 26년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2026-05-19 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2026-05-19 산출물 최종 공개

    소개

    베트남, 말레이시아의 ESG 환경규제 및 위반 사례, 제재 등 AI 학습에 필요한 다양한 데이터셋

    구축목적

    베트남, 말레이시아의 규제, 입법 동향, 판례, 위반 사례, 정부 및 기업, 국제 ESG 자료를 학습하고, LLM 기반으로 문서 추출 및 요약, 질의응답 모델 개발
  • - 데이터 구축 규모
    원천데이터 50,098 건 (5,375,931 문장 / 75,050,102 토큰)
    가공데이터 10,000 건 (질의응답 데이터 9,001 건 / 벤치마크 데이터 999 건)

     

    - 원천데이터 규모 및 분포

    - 원천데이터 규모 및 분포
    구분 수량 (건) 분포 (%)
    베트남 규제 5,992 11.96
    입법 동향 4,499 8.98
    판례 1,674 3.34
    기사 2,982 5.95
    정부 및 기업 ESG 자료 4,955 9.89
    국제 ESG 자료 5,000 9.98
    말레이시아 규제 6,000 11.98
    입법 동향 4,499 8.98
    판례 1,500 2.99
    기사 2,999 5.99
    정부 및 기업 ESG 자료 4,998 9.98
    국제 ESG 자료 5,000 9.98

     

    - 가공 데이터 규모 및 분포

    - 가공 데이터 규모 및 분포
    구분 가공데이터
    QA 데이터 수량 벤치마크 데이터 수량 합계 분포
    베트남 규제 1,359 153 1,512 15.12
    입법 891 97 988 9.88
    판례 225 25 250 2.5
    기사 225 25 250 2.5
    정부 및 기업 EGS 자료 900 100 1000 10
    국제 ESG 자료 900 100 1000 10
    말레이시아 규제 1,350 150 1,500 15
    입법 900 100 1000 10
    판례 224 25 249 2.49
    기사 225 25 250 2.5
    정부 및 기업 EGS 자료 901 110 1011 10.11
    국제 ESG 자료 901 89 990 9.9
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    ○ 임무 정의
      - RAG 기반 ESG 관련 정책, 법령에 대한 질의응답 및 내용 요약


    ○ 임무 선정 사유
      - 텍스트 데이터를 이해하고 해당 데이터를 바탕으로 텍스트를 생성하는 작업
      - LLaMA3 
        • Meta에서 공개한 최신 모델 LLaMA3 모델은 다양한 언어와 도메인에 걸쳐 뛰어난 이해력을 제공하며 효율적인 비용에 강력한 성능을 제공. 
        • LLaMA3-1B, 3B 각각 질의응답 및 텍스트 생성 모델로 활용하여 파라 미터 크기에 따른 임무 적합성을 판단
      - Mistral-7B
        • Mistral 7B는 자연어 처리 작업에 뛰어난 성능을 보여주는 모델로 소형 규모임에도 불구하고, 효율적인 정보 처리와 빠른 처리 속도를 자랑하며 실시간 응답이 요구되는 작업에 적합하고 긴 시퀀스 처리 능력은 대화의 맥락을 장기간 유지하여 연관성 높은 대답을 제공이 가능함
        • 빠른 처리 속도: 실시간 응답이 요구되는 챗봇, 자동 번역 시스템 
      등에 적합


    ○ 학습 모델 개발 환경

    CPU i7-9800x 3.8ghz 8core
    Memory memory 64G
    GPU rtx 2080 x2
    Storage 2TB
    OS ubuntu 24.04
    개발 언어 python 3.12.12
    프레임워크 ollama, vectorDB(chroma), embedding(Gemma)
    학습 조건 chunk = 1000 tokens
    overlap = 200 tokens 

     

    ○ 최종 선정 모델
      - LLaMA 3

        • Meta에서 공개한 최신 모델 LLaMA3 모델은 다양한 언어와 도메인에 걸쳐 뛰어난 이해력을 제공하며 효율적인 비용에 강력한 성능을 제공. 이 모델은 기존 LLaMA1, LLaMA2 대비 크게 향상된 성능을 가지고 텍스트 생성, 번역, 질의응답, 코드 생성 등 다양한 자연어 처리 작업에서 뛰어난 성능을 보임
        • LLaMA3-1B, 3B 각각 질의응답 및 텍스트 생성 모델로 활용하여 파라미터 크기에 따른 임무 적합성을 판단
        • 다양한 분야에 대한 사전학습과 상용가능한 라이선스로 범용 서비스 모델로 적합

    LLaMA architecture 이미지

    [그림] LLaMA architecture

     

    ○ AI 모델 성능

    ○ AI 모델 성능
    데이터 수량 AI Task 성능지표 목표치 평가결과
    training : 7,999
    test : 1,002
    validation :999
    RAG 기반 질의응답 성능 BERTScore 0.85 이상 0.92%
    벤치마크 질의응답 성능 BERTScore 0.85 이상 0.89%
    텍스트 요약 성능 ROUGE-L 0.6 이상 0.81%
  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    - 원천데이터 포맷

    - 원천데이터 포맷
    구분 속성명 타입 필수
    여부
    설명
    1 metadata object 필수 메타데이터 정보
      1.1 id string 필수 식별자
    1.2 category sring 필수 카테고리(문서유형)
    1.3 country string 필수 국가
    1.4 region string 선택 지역
    1.5 title string 필수 문서 제목
    1.6 alias string 선택 문서 번호, 별칭
    1.7 esg string 필수 ESG 분류
    1.8 document_type string 선택 문서 종류
    1.9 publisher string 필수 발행처
    1.1 entity string 선택 적용 대상
    1.11 published_at string 필수 발행일
    1.12 source string 필수 출처
    1.13 industrial_classification string 선택 산업 분류
    1.14 regulation array
    필수 규제 정보
      1.14.1 regulation_name string 선택 법령명
      1.14.2 regulation_reference string 선택 조문 또는 규제 조항
      1.14.3 enactment_date string 선택 법 제정 날짜
      1.14.4 effective_date string 선택 규제 발효 날짜
      1.14.5 last_revision_date string 선택 최종 개정 날짜
    1.15 case_info array
    필수 사건 정보
      1.15.1 detail string 선택 위반 유형 설명
      1.15.2 pollutant_category array 선택 오염 분류
      1.15.3 alias string 선택 별칭
      1.15.4 result object 선택 사건 결과
        1.15.4.1 type string 선택 제재 종류
        1.15.4.2 level string 선택 제재 수준
        1.15.4.3 violation_date string 선택 위반 발생일
        1.15.4.4 sanction_date string 선택 제재 조치 일자
      1.15.5 previous_violations array
    필수 과거 이력
        1.15.5.1 violation_date string 선택 위반일
        1.15.5.2 violation_type string 선택 위반 유형
        1.15.5.3 penalty string 선택 처벌 내용
    2.16 copyright string 필수 저작권
    2.17 copyrighter string 필수 저작권자
    2.18 created_at string 필수 구축일자
    2.19 file_name string 필수 원시데이터 파일 명

     

    - QA데이터 포맷

    - QA데이터 포맷
    구분 속성명 타입 필수
    여부
    설명
    1 id string 필수 유일 식별자
    2 qa object 필수 qa 데이터셋
      2.1 category string 필수 카테고리
    2.2 contury string 필수 국가
    2.3 esg string 필수 ESG 구분
    2.4 source_id array 필수 원천데이터 id
    2.5 qa_turns array
    필수 질문/답변 내용
      2.5.1 role string 필수 질문/답변 주체
      2.5.2 content string 필수 대화 내 질문 또는 응답
    2.6 created_at string 필수 생성일
    2.7 copyright string 필수 저작권

     

    - 벤치마크 데이터 포맷

    - 벤치마크 데이터 포맷
    구분 속성명 타입 필수
    여부
    설명
    1 id string 필수 유일 식별자
    2 qa object 필수 qa 데이터셋
      2.1 category string 필수 카테고리
    2.2 contury string 필수 국가
    2.3 esg string 필수 ESG 구분
    2.4 source_id array 필수 원천데이터 id
    2.5 qa_turns object 필수 질문/답변 내용
      2.5.1 q_role string 필수 질문 주체
      2.5.2 q_content string 필수 질문 내용
      2.5.3 a_role string 필수 답변 주체
      2.5.4 a_option array 필수 답변 선택항목
      2.5.5 a_index number 필수 답변 인덱스
      2.5.6 a_explanation string 필수 답변에 대한 설명
    2.6 created_at string 필수 생성일
    2.7 copyright string 필수 저작권

     

    - 원천 데이터 예시

    원천 데이터 예시 이미지

     

    - QA 데이터 예시

    QA 데이터 예시 이미지
     

    - 벤치마크 데이터 예시

    벤치마크 데이터 예시 이미지

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜파이브세컨즈
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    이태현 02-3463-0395 expimpi@gmail.com 총괄 및 수집, 가공, 번역, 품질 검증
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜메타키움 가공, 데이터 품질 검증
    임팩트재단 데이터 수집, 메타데이터 작성, 번역
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    이태현 02-3463-0395 expimpi@gmail.com
    남석현 02-3463-0395 ceo@fivescgroup.com
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    이태현 02-3463-0395 expimpi@gmail.com
    남석현 02-3463-0395 ceo@fivescgroup.com
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    이태현 02-3463-0395 expimpi@gmail.com
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

오프라인 데이터 이용 안내

본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.

K-ICT 빅데이터센터는 데이터 안심구역으로 지정되어
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.

데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 이용신청 탭 이미지

국방데이터 개방 안내

본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.