콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#자연어

BETA 유럽연합 개인정보 벤치마크 데이터

유럽연합 개인정보 벤치마크 데이터 아이콘 이미지
  • 분야지식재산
  • 유형 텍스트
  • 생성 방식LLM
구축년도 : 2025 갱신년월 : 2026-06 조회수 : 1,516 다운로드 : 8 용량 :
샘플(경량) 데이터 ?

※ 26년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2026-06-15 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2026-06-15 산출물 최종 공개

    소개

    EU 개인정보·AI 규정 이해·준수 역량을 갖춘 AI 모델의 학습·검증용 데이터셋

    구축목적

    EU 개인정보·AI 규정 관련 병렬 코퍼스 제공 및 규정 내용을 학습·검증할 수 있는 데이터셋 구축
  • ○ 클래스별 원천데이터 구축 수량

    ○ 클래스별 원천데이터 구축 수량
    구분 비율(%) 수량(토큰)
    공식 규범 문서 6.26 2,822,124
    적용 및 해석 사례 문서 49.1 22,148,483
    정책, 실무, 교육 문서 44.64 20,137,748
    합계 100 45,108,355

     

    ○ 클래스별 가공데이터 구축 수량

    ○ 클래스별 가공데이터 구축 수량
    구분 비율(%) 수량(건)
    질의응답 83.33 10,000
    벤치마크 16.67 2,000
    합계 100 12,000

     

    ○ 개인정보 핵심 항목별 가공데이터 구축 수량

    ○ 개인정보 핵심 항목별 가공데이터 구축 수량
    구분 비율 수량(턴)
    개인정보 수집·획득 8.65 1,124
    개인정보 이용·처리 32.35 4,206
    개인정보 저장·보안 11.68 1,519
    개인정보 이전·공유 24.03 3,124
    데이터 주체 권리·분쟁 대응 23.28 3,027
    합계 100 13,000

     

    ○ 하위 항목 분포 (질의응답)

    ○ 하위 항목 분포 (질의응답)
    구분 비율(%) 수량(건)
    싱글턴 90 9,000
    멀티턴 10 1,000
    합계 100 10,000
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    ○ 임무 정의
      - EU 개인정보 규정 질의에 대한 응답, 벤치마크 질의에 대한 답변 정확도

     

    ○ 임무 선정 사유
      - QA 데이터를 활용해 EU 개인정보 질의응답 Task에 대한 finetuning을 진행, 모델이 개인정보 핵심항목, 관련 법령 등을 포함해 환각 없이 정확한 답변을 선정하여 사용자에게 제공 가능 여부 확인
      - 벤치마크 데이터를 통해 실제 모델의 성능을 테스트하고, 모델 간 점수 비교를 통해 벤치마크 데이터의 유효성을 검증


    ○ 학습 모델 개발 환경
      - 학습 환경:

        · Linux (Ubuntu 22.04 LTS) 기반 Docker 구동환경에서 학습·검증 수행
        · Python 3.11, PyTorch 2.6 이상, CUDA 12.4 기준으로 실행 환경 표준화
        · 컨테이너 이미지에서 학습/평가를 수행하여 재현성 및 이식성 확보
      - 모델리소스 및 자원 활용:
        · 고성능 GPU 서버를 활용하여 EU 개인정보 규정 QA 파인튜닝 및 벤치마크 검증 수행
        · 실험 로그, 체크포인트, 성능 산출물을 버전별로 관리하여 비교·추적 가능하도록 운영
      - 모델 개발:
        · 1-Cycle 자가 점검 계획(데이터 점검 → 학습 → 검증 → 오류분석/보완)에 따라 반복 개선
        · 근거 누락, 조항 오해, 예외조건 누락, 문맥 불일치 등 주요 오류 유형 중심으로 품질 보완
      - 최종 선정 기준:
        · 질의응답 성능(Rouge-L)과 벤치마크 정답률(Accuracy)을 종합 평가
        · 동일 평가셋에서 비교군 모델 대비 성능 우위를 최종 선정 기준으로 적용

     

    ○ 최종 선정 모델
    (1) BHSN Athena

    BHSN은 법률·컴플라이언스 영역에 특화된 LLM을 자체 고도화(CPT, 도메인 특화 얼라인먼트 등)해 온 기업으로, 법령/규정 텍스트의 구조적 이해와 실무 문맥 기반 응답에 강점을 갖는 비교군으로 적합함. 특히 법률 데이터(법령·판례·정책 등) 기반의 지속적 사전학습과 전문가 피드백 기반 학습을 통해 범용 모델 대비 도메인 정합성과 답변 정확도를 높였다는 점에서, EU 규정 QA/벤치마크 데이터의 목적(규정 이해·준수 판단)과의 적합성이 높음.

     

    (2) GPT-4
    GPT-4는 다양한 전문·학술 벤치마크에서 높은 성능이 검증된 대표적인 범용 상용 모델로, 규제 도메인에서도 “글로벌 기준선(Reference)” 역할을 수행할 수 있어 비교 모델로 선정함. 즉, 국내 특화/경량 모델과의 성능 차이를 해석할 때 기준점을 제공하며, 규정 문맥 이해·추론·응답 품질 측면에서 안정적인 비교가 가능함.

     

    (3) Exaone Deep 7.8B
    EXAONE Deep 시리즈는 EXAONE 3.5을 기반으로 추론 능력을 증폭시킨  국내 LLM으로, 동일 스케일의 해외 모델 포함한 여타 공개 추론 모델보다 수학·과학·코딩·일반상식 벤치마크에서 우수한 성능을 보여  비교군으로 적합함

     

    ○ 학습 데이터 생성
      - 데이터 설명:

        · GDPR 발효 시점(2016년)부터 2025년 최신 문서까지 EU 개인정보 규정 관련 문서를 수집 대상으로 설정
        · EUR-Lex, EDPB, ENISA 등 공식 저장소 중심으로 확보하고 라이선스/저작권 이슈를 사전 확인
      - 데이터 전처리 및 정제:
        · 원문 추출(PDF/HTML) → 중복 제거(CELEX Number/URL 기준) → 번역/문체 정비 → 필수 필드 보완 순으로 수행
        · 비식별화 태그(, , , ,

    , )를 적용하여 개인정보 노출 가능성 최소화
        · 원문-번역문 정합성, 각주 매칭, 누락/오역 여부, 용어 일관성을 기준으로 검수
      - QA 학습데이터 구축:
        · 학습용 QA 10,000건 구축(싱글턴 9,000건, 멀티턴 1,000건)
        · 클래스(개인정보 수집·획득 / 개인정보 이용·처리 / 개인정보 저장·보안 / 개인정보 이전·공유 / 데이터 주체 권리·분쟁 대응)를 필수 부여하고, 답변별 reference를 필수 기입
        · 법률 조항 언급 답변의 경우 law_context를 함께 기입하여 근거 추적성 확보
      - 벤치마크 데이터 구축:
        · 검증용 벤치마크 2,000건을 학습셋과 분리하여 별도 구성
        · 문항별 후보답안 4개(정답 1, 오답 3) 형식으로 객관식 평가셋을 구축하여 모델 간 성능 비교 수행
        · 정답 여부와 함께 근거(reference) 일치 여부를 병행 검토
      - 데이터 품질 관리:
        · 작업자 교차검수 및 검수자 승인/반려 절차 운영
        · 반려 데이터 재작업 및 기준 미달 데이터 제외를 통해 벤치마크 신뢰성 확보

     

     

    ○ AI 모델 성능

    ○ AI 모델 성능
    구분 내용
    질의응답 성능 Rouge-L 0.6
    벤치마크 질의응답 성능 Accuracy 91.45%
    벤치마크 적절성 GPT-4 Accuracy 83.75%
    Exaone Deep –7.8B Accuracy 60.10%
  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    ○ 원천데이터 포맷

    ○ 원천데이터 포맷
    No 속성명 타입 필수
    여부
    속성 설명 예시
    1 document_id string Y 문서의 내부 고유 식별자 EN-0001
    2 source_url string N 문서를 수집한 원본 URL https://gdpr-info.eu/art-7-gdpr/
    3 title string Y 문서명 General Data Protection Regulation
    4 document_type string Y 문서 유형 (카테고리) “공식 규범 문서”, “적용 및 해석 사례 문서”, “정책·실무·교육 문서”
    5 source string Y 문서를 발행한 기관 EU GDPR (Regulation (EU) 2016/679)
    6 publication_date string N 문서가 공식 발행된 날짜 2016-05-25, 2016
    7 language string Y 원문의 언어 “en”, “ko”
    8 validity_status string Y 유효 여부 “valid”, “invalid”
    9 document_structure integer Y 문서 구조  
      9-1 depth integer Y 문서 계층 층위 1, 2, 3 등
      9-2 type string Y 문서 계층 종류 “chapter”, “heading1” 등
      9-3 name string Y 문서 계층 제목 “General provisions”, “Abstract” 등
      9-4 children array N 하위 문서 구조 document_structure와 동일
    10 sentences array Y 문장 배열  
      10-1 sentence_id integer Y 문장 번호 1,2,3 등
      10-2 sentence_original string Y 문장 원문 "General provisions" 등
      10-3 sentence_translation string Y 문장 번역문 “총칙”등 
      10-4 sentence_key_concept string Y 데이터 클래스 분류 “개인정보 수집·획득”, “개인정보 이용·처리”, “개인정보 저장·보안”, “개인정보 이전·공유”, “데이터 주체 권리·분쟁 대응”, “기타”

     

    ○ QA데이터 포맷

    ○ QA데이터 포맷
    No 속성명 타입 필수
    여부
    속성 설명 예시
    1 index string Y 문서번호 EN-0001_QA_001
    2 turn_id number
    (integer)
    Y 턴 수 null, 1, 2
    3 category string Y 지식, 준수여부 “지식”, “준수여부”
    4 instruction string Y 지시문 “너는 EU 개인정보보호 관련 질문에 대해 정확히 답변해야 해. 아래 질문을 보고 핵심항목, 조항, 설명을 포함한 정보 전달 목적의 답변을 해줘.”
    5 case_context string Y 구체적 상황 “의료 AI 스타트업이 병원으로부터 제공받은 환자 데이터를 활용해 진단 보조 모델을 개발하려고 합니다. 데이터를 클라우드 스토리지에 업로드하기 전에 내부 보안 통제를 확정해야 합니다.”
    6 prompt string Y 질문 “외부 데이터 제공업체에서 확보한 잠재 고객 정보를 마케팅에 사용할 계획입니다. 개인정보 처리방침과 안내문에서 이 데이터의 출처를 반드시 명시해야 합니까?”
    7 key_concept string Y 데이터 클래스 “개인정보 수집·획득”
    8 metadata object Y 메타 데이터  
      8-1 article string Y 문서제목 “GDPR in practice Experiences of data protection authorities”
      8-2 chunk_path array Y 청크 경로 [“3. Data protection authorities as advisory authorities”,“3.1. Advising the general public”]
      8-3 law_context array Y 법령 조항 [“‌GDPR 제57조 제1항”]
      8-4 reference array Y answer 의 원문 [“GDPR 제57조 제1항 (c)에 따라, 개인정보보호기관(DPA)는 개인정보 보호와 관련된 입법 조치에 관하여 국가 기관 및 기구에 자문을 제공하여야 한다.”, “마찬가지로, 여러 인터뷰 참가자들은 DPA와의 협의와 관련하여 행정부의 불신 및 오해가 있음을 지적하였으나, 입법자는 GDPR 제57조 제1항 (c)에 규정된 바와 같이 개인정보 보호 원칙의 효과적 이행을 보장하기 위하여 입법 초안에 대한 적절한 의견 제공의 중요성에 대해서는 동의하였다.”]
      8-5 description string Y 요약정보 “이 문항은 개인정보 이용·처리에 대한 것이며, GDPR 제57조 제1항에서 개인정보보호당국이 개인정보 보호와 관련된 입법 조치에 관하여 국가 기관 및 공공 기구에 자문을 제공하고, 입법 초안에 의견을 제시하여 보호 원칙의 효과적 이행을 보장하도록 규정함을 다룹니다.”
    9 answer string Y 정답 “GDPR 제57조 제1항에 따르면, 개인정보보호당국은 개인정보 보호와 관련된 입법 조치에 관하여 국가 기관 및 공공 기구에 자문을 제공하여야 합니다. 또한 개인정보 보호 원칙의 효과적 이행을 보장하기 위하여 입법 초안에 대한 적절한 의견 제공의 중요성이 인정됩니다.”

     

    ○ 벤치마크데이터 포맷

    ○ 벤치마크데이터 포맷
    No 속성명 타입 필수
    여부
    속성 설명 예시
    1 index string Y 문서번호 EN-0001_QA_001
    2 category string Y 지식, 준수 “지식”, “준수여부”
    3 instruction string Y 지시문 “너는 개인정보보호 관련 EU 규정에 관한 사실적 지식을 설명해야 해. 아래 질문에 대해 관련 법령 조항과 개념에 근거하여 올바른 답을 선택해줘.”
    4 case_context string Y 구체적 상황 “한국의 온라인 플랫폼 사업자는 EU 거주자의 계정 데이터를 미국의 DPF 인증 분석 서비스로 이전합니다. 시민단체가 EU 일반법원에 적정성 결정 무효소송을 제기했다는 보도를 접한 플랫폼은 이전을 계속할지 고민하고 있습니다.”
    5 prompt string Y 질문 “적정성 결정에 대한 무효소송이 제기된 상태에서, 한국의 온라인 플랫폼 사업자는 미국의 DPF 인증 조직으로의 이전을 중단해야 합니까?”
    6 key_concept string Y 데이터 클래스 개인정보 이전·공유
    7 candidate_answer object Y 보기  
      7-1 key string Y 보기번호 “A”, “B”, “C”, “D”
      7-2 value string Y 보기 값 “부분적으로 그렇습니다. 국가 감독기관이 우려를 표명했다면 해당 회원국 사용자 데이터의 이전만 일시 중단하면 됩니다.”
    8 label array Y 정답 [0, 0, 0, 1]

     

    ○ json 예시

    {
      "data": [
        {
          "index": "EN-0156_QA_015",
          "turn_id": null,
          "category": "준수여부",
          "instruction": "너는 EU 개인정보보호 관련 질문에 대해서 실제 상황(context)을 고려하여 적절한 답변을 해야 해. 아래 질문과 상황을 보고 상황에 적절한 답변을 핵심항목, 조항, 설명을 포함하여 해줘.",
          "case_context": "한국에 본사를 둔 메신저 앱 운영사가 EU 이용자에게도 서비스를 제공합니다. EU 회원국 법원으로부터 모든 이용자의 메시지와 첨부파일을 무기한 필터링하여 불법 콘텐츠를 탐지하라는 명령을 받았습니다. 회사는 이 명령을 그대로 수용해 전면적 필터링 시스템을 도입해도 되는지 확인이 필요합니다.",
          "prompt": "EU 회원국 법원이 우리 서비스의 모든 이용자 메시지와 파일을 무기한 필터링해 불법 콘텐츠를 탐지하라고 명령했습니다. 이런 '일반적 모니터링' 의무를 수용하는 것이 EU 규칙상 허용됩니까?",
          "key_concept": "개인정보 이용·처리",
          "metadata": {
            "article": "COMMISSION STAFF WORKING DOCUMENT IMPACT ASSESSMENT REPORT Accompanying the document Proposal for a REGULATION OF THE EUROPEAN PARLIAMENT AND OF THE COUNCIL laying down rules to prevent and combat child sexual abuse",
            "chunk_path": [
              "5. What are the available policy options?",
              "5.2 Description of the policy options",
              "1. Introduction: political and legal context"
            ],
            "law_context": null,
            "reference": [
              "일반적인 모니터링 의무 부과 금지의 정확한 의미와 범위는 점진적으로 명확해지고 있다.",
              "개별 사정에 따라 해당 상황에서 금지 규정이 준수되었는지 또는 위반되었는지 판단하여야 한다.",
              "예를 들어, 심급은 지적재산권 침해 방지의 맥락에서, 다음의 조건을 모두 충족하는 의무를 부과하는 것은 허용되지 않는다고 판시하였다{{f(157)Case C-18/18 – Facebook Ireland.}}:",
              "따라서 고려될 수 있는 모든 정책 옵션은 기본권에 대한 개입을 엄격히 필요한 범위로 제한하고, 비례성 및 일반적 감시 의무 금지 준수를 보장하기 위하여 여러 구체적 요건을 충족하여야 한다."
            ],
            "description": "이 문항은 개인정보 이용·처리에 대한 것이며, 온라인 중개 서비스에 대하여 일반적인 모니터링 의무를 부과하는 것을 금지하고, 법원의 명령이나 정책 조치도 비례성과 기본권 균형을 충족해야 함을 핵심 규정으로 전달하고 있습니다."
          },
          "answer": "허용되지 않습니다. 중개 용역 제공자에게 전송·저장 정보를 감시하거나 불법 행위를 시사하는 사실이나 상황을 적극적으로 탐색하도록 하는 일반적인 모니터링 의무를 부과하는 것은 금지되며, 법원 명령으로도 이러한 일반적·예방적·무기한의 광범위 필터링 의무를 부과하는 것은 허용되지 않습니다. 또한 관련 조치는 기본권에 대한 개입을 엄격히 필요한 범위로 제한하고, 비례성과 일반적 감시 의무 금지를 준수하도록 설계되어야 합니다."
        }
      ]
    }

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜셀렉트스타
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    유도영 070-8820-1179 doyoung.yoo@selectstar.ai 총괄책임
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    플리토(주) 데이터 수집 및 정제
    비에이치에스엔(주) 모델 학습
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    선우란 070-8820-1179 ran.sunwoo@selectstar.ai
    김태호 070-8820-1179 taeho.kim@selectstar.ai
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    김동규 02-521-2999 dgkim@bhsn.ai
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    김태호 070-8820-1179 taeho.kim@selectstar.ai
    선우란 070-8820-1179 ran.sunwoo@selectstar.ai
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

오프라인 데이터 이용 안내

본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.

K-ICT 빅데이터센터는 데이터 안심구역으로 지정되어
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.

데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 이용신청 탭 이미지

국방데이터 개방 안내

본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.

방송영상 데이터 개방 안내

방송영상 데이터는 열람서비스를 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 데이터 열람신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의