※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다.
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2025-04-16 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2025-04-16 산출물 전체 공개 소개
다양한 법률 행위에 활용될 수 있는 계약 법률 문서 서식의 원천데이터와 라벨링데이터 - 원시데이터 : 계약 법률 문서 11,000 건 pdf 수집 - 원천데이터 : 계약 법률 문서 10,216 건 json 정제 - 가공데이터 : 문서 서식 전체에 대한 요건, 위치, 항목 등 612,899 건 json 가공
구축목적
계약 법률 문서의 자동 분석 및 생성을 위한 초거대 AI학습용 데이터 구축
-
메타데이터 구조표 데이터 영역 법률 데이터 유형 텍스트 데이터 형식 json 데이터 출처 참여 기업 (법무법인 오킴스) 자체 보유 법률 문서 데이터 (약 60%) 공공기관 공개 법률문서, 타 법무법인 등이 보유한 자체 서식 데이터 (약 40%) 라벨링 유형 문서 카테고리(태깅), 가공항목 형식/내용(태깅) 라벨링 형식 json 데이터 활용 서비스 계약 법률 문서 자동 생성 데이터 구축년도/
데이터 구축량2024년/계약 법률 문서 10,215 건, 라벨링 612,868 건 -
1. 데이터 구축 규모
- 데이터 수량 :
1) 계약 법률 문서 10,215 건
2) 라벨링 612,868 개2. 데이터 분포 및 통계
데이터 분포 및 통계 대분류 중분류 소분류 수량(건) 비율 경제·경영 기업 운영 비밀유지 계약서 519 5.08% 사업양수도 계약서 232 2.27% 제휴/협약 계약서 166 1.62% 투자 국내 투자 계약서 317 3.10% 해외 투자 계약서 14 0.14% 주식/주주 주주 간 계약서 314 3.07% 주식 매매 계약서 106 1.04% 주식 청약서 6 0.06% 인사·고용·노무 고용 계약 근로(고용) 계약서 182 1.78% 아르바이트 계약서 35 0.34% 기타 고용 계약서 425 4.16% 인사 관리 연봉 계약서 18 0.18% 기타 인사노무 486 4.76% 재산권 사용·용역·컨설팅 지적 재산권 특허/상표 계약서 49 0.48% 저작권 계약서 116 1.14% 기술도입 계약서 16 0.16% 용역 개발 계약서 123 1.20% 서비스이용 계약서 1273 12.46% 유지보수 계약서 47 0.46% 운송/물류 계약서 25 0.24% 하청 계약서 23 0.23% 기타 용역 계약서 754 7.38% 컨설팅 컨설팅 계약서 116 1.14% 금전소비대차/채권·채무 금전 거래 금전대차 계약서 320 3.13% 보증/담보 계약서 220 2.15% 상환/변제 계약서 133 1.30% 채권/채무 계약 채권양도 계약서 134 1.31% 채무승계 계약서 106 1.04% 매매·구매·납품·공급 물품 거래 매매 계약서 960 9.40% 사용대차/임대차 계약서 182 1.78% 증여/상속 계약서 63 0.62% 기타 물건거래 405 3.96% 부동산 매매·임대차 부동산 매매 부동산 매매/소유권 이전 계약서 295 2.89% 권리설정 계약서 182 1.78% 기타 부동산거래 66 0.65% 부동산 임대 주거용 부동산 임대 계약서 81 0.79% 상업용 부동산 임대 계약서 352 3.45% 대리점·프랜차이즈 대리점 대리점 계약서 191 1.87% 프랜차이즈 프랜차이즈 계약서 43 0.42% 부동산 개발·공사 건설 계약 건설/건축 계약서 46 0.45% 감리/설계 계약서 53 0.52% 공사 계약 전기 계약서 36 0.35% 인테리어 계약서 42 0.41% 기타 공사 계약서 104 1.02% 하도급 계약 하도급 계약서 70 0.69% 무역 / 수출·입 계약 국제 거래 수입/수출 계약서 94 0.92% 수출입대행 계약서 106 1.04% 약관에 의한 계약 / 기타 계약 표준 약관 표준 약관 501 4.90% 기타 계약 각서/ 계약서 해지 61 0.60% 기타 8 0.08% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1. 계약 법률 문서 주요 내용 추출 모델
● AI모델 설명
- 본 AI모델은 Llama3.1 모델을 기반으로 finetuning하여 계약 법률 문서의 자동화된 내용 추출 및 구조화를 위해 특화된 언어 모델
- 계약서의 전문이 입력되면 LLM 모델을 활용하여 핵심 정보를 식별하고 추출하는 기능을 수행
- 추출된 정보는 사용자가 복잡한 법률 문서의 주요 내용을 한눈에 파악할 수 있도록 구조화되어 제공
<그림. Llama 모델 블록도>2. 계약 법률 문서 서식 자동 생성 모델
● AI모델 설명
- 본 AI모델은 Llama를 기반으로 하여 계약 법률 문서의 중요 내용을 입력받아 자동으로 서식을 생성하는 특화된 언어 모델
- 사용자가 계약 법률 서식 작성에 필요한 핵심 정보를 입력하면, 모델이 이를 분석하고 이해하여 적절한 법률 문서 초안을 작성
<그림. Llama 모델 블록도> -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드○ 법률 분야에서 AI의 활용을 최대화하기 위한 기반으로, 다양한 분야의 법률 문서들에 대한 체계적인 라벨링 및 데이터 구축이 필수적임. 이 과정에서 법률 전문 용어와 복잡한 법적 맥락을 정확히 반영하지 못하는 기존의 문제를 해결하고자 함. 법률 전문가의 직접적인 검수와 라벨링 가이드를 통해 데이터의 법률적 정확성과 신뢰성을 확보하여 법률 문서의 구조, 용어, 그리고 관련 법적 사항의 정확한 반영을 목표로 하였음. 수집된 데이터를 활용하여 법률 문서 분야의 초거대AI 데이터셋을 구축하고 법률 문서 서식 생성 및 분석에 특화된 법률 문서 작성/검토 모델 및 저작도구를 개발함
○ 구축된 초거대AI 데이터셋은 법률 문서에서 주요 내용을 추출하는 모델과 법률 문서의 서식과 내용을 자동으로 생성하는 모델을 개발하는 데 활용 가능. 또한 해당 모델을 통해 이용자가 업로드한 문서에서 수정/추가가 필요한 조항을 추천하는 기능과 법률 상황을 입력받으면 필요한 법률 문서를 생성해주는 기능을 포함하는 서비스를 개발할 수 있으며, 이는 법률 서비스의 자동화와 효율성을 높이고 국민의 법률 서비스 접근성 향상과 비용 절감 효과를 제공할 수 있음
○ 법무법인 오킴스 자체 보유 문서, 공공기관 (법원, 공정위, 법률구조공단 등), 타 법무법인 및 전문가 보유 문서 11,000건을 pdf 형태로 수집하여 10,215건의 원천데이터를 json 형태로 정제, 라벨링 데이터 612,868건 json 형태로 구축함.
근로계약서, 용역계약서, 매매계약서, 협약서, 임대차계약서 등이 포함된 주요 계약 법률 문서를 각 분야별로 10종으로 분류하여 형식요건 및 내용요건으로 라벨링. 이를 AI 학습에 최적화된 형태로 정제 및 라벨링한 고품질의 데이터셋으로 개발하였으며 AI허브에 개방하는 모델은 총 2개로 아래와 같음.
○ 학습 모델
1) Llama3.1 [계약 법률 문서 주요 내용 추출 모델 (Data Extraction)]
2) Llama3.1 [계약 법률 문서 서식 자동 생성 모델 (Text Generation)]○ 어노테이션 포맷
어노테이션 포맷 구분 속성명 타입 필수여부 설명 범위 비고 1 document Object Y 1-1 type String Y 문서 유형 “계약 법률 문서” 1-2 metadata Object Y 메타데이터 1-2-1 file_info Object Y 파일 정보 1-2-1-1 document_name String Y 문서 명칭 1-2-1-2 document_size String Y 문서 크기 1-2-1-3 document_page_count String Y 문서의 총 페이지 수 1-2-1-4 document_total_ids String Y 문서 총 섹션 개수 문서 내 라벨링 개수 1-2-1-5 document_format String Y 문서 포맷 “docx”, “pdf”, “hwp” 1-2-1-6 document_creation_date String Y 문서 생성 날짜 1-2-1-7 document_category Object Y 문서 카테고리 1-2-1-7-1 main_category String Y 대분류 1-2-1-7-2 sub_category String Y 중분류 1-2-1-7-3 detail_category String Y 소분류 1-2-2 additional_info Object Y 추가 정보 1-2-2-1 related_law String Y 관련 법률 1-2-2-2 document_purpose String Y 문서의 용도 1-2-2-3 document_use_case String Y 문서 활용 사례 1-2-2-4 public_domain_sources String N 공공저작물 출처 1-3 sections Array Y 1-3-1 sections.id String Y 섹션 아이디 1-3-2 sections.format Object Y 섹션 포맷 1-3-2-1 position Object Y 위치 1-3-2-1-1 line String Y 라인 1-3-2-2 section_type String Y 섹션 유형 “TEXT”, “TABLE” 1-3-2-3 format_type String Y 형식요건 정보 1-3-2-4 is_article_title Bool Y 조문 여부 true:조문명
false:세부내용1-3-2-5 article Number N 레벨1, 최상위 넘버링 1~99 목차 레벨 : 조 1-3-2-6 paragraph Number N 레벨2, 중간 넘버링 1~99 목차 레벨 : 항 1-3-2-7 subparagraph Number N 레벨3, 하위 넘버링 1~99 목차 레벨 : 호 이하 1-3-3 sections.content Object Y 컨텐츠 정보 1-3-3-1 content_labels Array Y 내용요건 라벨 목록 1-3-3-1-1 $value$ String N 내용요건 라벨 1-3-3-2 description String Y 내용 *프로퍼티 설명(property_name)
프로퍼티 설명(property_name) 구분 속성명 유효값 설명 1-3-2-2 section_type TEXT, TABLE TEXT : 텍스트 데이터
TABLE : 표 데이터1-3-2-4 is_article_title true, false true : 조문명
false : 세부내용○ 원문데이터 포맷 : json
○ 실제 예시
데이터 예시
원시 데이터
원천 데이터{
"document" : {
"doc_type" : null,
"title" : "고 용 계 약 서",
"status" : 1,
"is_hold" : null,
"page_count" : 1,
"created_time" : "2024-07-23T23:10:19.583",
"main_category" : null,
"sub_category" : null,
"detail_category" : null,
"related_law" : null,
"purpose" : null,
"use_case" : null,
"sub_documents" : [
{
"id" : 1,
"type" : "TEXT",
"format_content" : null,
"depth" : 0,
"sort_order" : 1,
"article" : null,
"paragraph" : null,
"subParagraph" : null,
"is_article_title" : null,
"content_labels" : null,
"note" : null,
"name" : null,
"contents" : [
{
"text" : "고 용 계 약 서",
"type" : null,
"rowId" : null,
"cells" : null
}
],
"coordinate" : null
},
{
"id" : 2,
"type" : "TEXT",
"format_content" : null,
"depth" : 0,
"sort_order" : 2,
"article" : null,
"paragraph" : null,
"subParagraph" : null,
"is_article_title" : null,
"content_labels" : null,
"note" : null,
"name" : null,
"contents" : [
{
"text" : "1. 피고용인 인적사항",
"type" : null,
"rowId" : null,
"cells" : null
}
],
"coordinate" : null
},
(이하 생략)
라벨링 데이터{
"document": {
"type": "계약 문서",
"metadata": {
"file_info": {
"document_name": "근로계약서_0010",
"document_size": "68kb",
"document_page_count": "1",
"document_total_ids" : "18",
"document_format": "docx",
"document_creation_date": "2024-07-30",
"document_category": {
"main_category": "인사·고용·노무",
"sub_category": "고용계약",
"detail_category": "근로(고용)계약서"
}
},
"additional_info": {
"related_law": "근로기준법|근로기준법 시행령",
"document_purpose": "근로(고용)계약서",
"public_domain_sources": null
"document_use_case": [
"사용자와 근로자 간의 새로운 근로계약 체결",
"근로자의 계약 갱신 및 연장",
"근로자의 근로 조건 변경에 따른 재계약",
"인턴십 종료 후 정규직 전환을 위한 근로계약 체결",
"재택근무 전환 시 근로 조건을 명시한 계약 체결“
"public_domain_sources": null
]
}
},
"sections": [
{
"id": "1",
"format": {
"position": {
"line": "1"
},
"section_type": "TEXT",
"format_type": "제목",
"is_article_title" : false,
"article" : null,
"paragraph" : null,
"subParagraph" : null
},
"content": {
"content_labels": [],
"description": "고 용 계 약 서"
}
},
{
"id": "2",
"format": {
"position": {
"line": "2"
},
"section_type": "TEXT",
"format_type": "본문",
"is_article_title" : true,
"article" : 1,
"paragraph" : null,
"subParagraph" : null
},
"content": {
"content_labels": ["근로자의 인적사항"],
"description": "1. 피고용인 인적사항"
}
},
{
"id": "3",
"format": {
"position": {
"line": "3"
},
"section_type": "TABLE",
"format_type": "본문",
"is_article_title" : false,
"article" : 1,
"paragraph" : null,
"subParagraph" : null
},
"content": {
"content_labels": ["근로자의 인적사항"],
"description": "성 명 O O O 주민등록번호 - 주 소 OO시 OO구 OO동 OO번지 자격증 전화번호 OOO-OOO-OOOO "
}
(이하 생략) -
데이터셋 구축 담당자
수행기관(주관) : 아일리스프런티어
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 장 준 070-4530-5786 jeijei12@aift.kr 사업 총괄, 데이터 획득/정제/가공/검수, AI모델 개발 수행기관(참여)
수행기관(참여) 기관명 담당업무 법무법인 오킴스 데이터 수집/검수 및 법률 검토 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 아일리스프런티어 장준 070-4530-5786 jeijei12@aift.kr AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 아일리스프런티어 김두현 070-4530-5786 kdh3071@aift.kr 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 아일리스프런티어 송지하 070-4530-5786 jiha.song@aift.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.
국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.