※ 26년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2026-06-15 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2026-06-15 산출물 최종 공개 소개
단순 삭제 위주의 비식별 처리를 넘어 문맥 보존과 의미 추적이 가능한 학습용 데이터셋을 구축하고 가상 판결문 작성 등 실무 활용도가 높은 정제 데이터를 제공하여 리걸테크 산업 활성화를 지원
구축목적
데이터의 인공지능 학습과 활용을 위한 법적·기술적 가이드라인을 반영해 데이터셋을 구축하고, 장기적으로는 법률 AI 및 LegalTech 산업 발전에 기여
-
메타데이터 구조표 데이터 영역 법률 데이터 유형 텍스트 데이터 형식 json 데이터 출처 대법원, 사법정보공개포털 등 라벨링 유형 개체 비식별화(자연어) 라벨링 형식 json 데이터 활용 서비스 가상 재판 판결문 생성을 통한 교육용 서비스, 맥락 유지 개인정보 식별 서비스, 유사 판례 검색 서비스 데이터 구축년도/
데이터 구축량2025년/일반판결: 15,000건, 1심-2심-최종심 판결: 6,000건, 총 21,000건 -
데이터 통계
데이터 통계 구분 수량 일반판결문 15,000건 1심-2심-최종심 6,000건 일반판결문
- 분야별 분포
일반판결문 - 분야별 분포 목표수량 비율 민사 4,250 28.33% 가사 500 3.33% 형사A 1,500 10% 형사B 1,500 10% 행정 4,000 26.67% 기업 500 3.33% 근로자 750 5% 특허/저작권 750 5% 금융조세 750 5% 개인정보/ICT 500 3.33% 합계 15,000 100% - 심판 유형별 분포
일반판결문 - 심판 유형별 분포 목표수량 비율 하급심 2,250 55% 대법원 9,000 40% 심결례 3,750 5% 합계 15,000 100% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드모델 학습
본 사업에서는 법률 문서의 정밀한 비식별화와 맥락 보존을 위해 대규모 언어 모델(LLM)인 GPT-OSS-120B를 채택함. 모델의 거대한 파라미터 사이즈를 효율적으로 학습하기 위해 QLoRA(Quantized Low-Rank Adaptation) 기법을 적용하여 메모리 사용량을 최소화하면서도 고성능의 도메인 특화 모델을 구축함.
모델 학습 구분 학습(Training) 검증(validation) 시험(test) 개요 - GPT-OSS-120B 기반 QLoRA 미세조정
- 양자화(4-bit)를 통한 효율적 GPU 자원 활용- 학습 도중 모델 성과 평가 및 비교
- F1-score, BLEU 및 법률 NER 정확도 측정- 최종 모델 구축 완료후 실 데이터 적용
- 비식별화 적절성 및 법리 일관성 테스트필요 데이터 맥락 보존 라벨링이 완료된 판결문 및 참조 데이터 전체 데이터의 10% 랜덤샘플링 전체 데이터의 10% 랜덤샘플링 서비스 활용 시나리오
- 구축한 모델은 리걸테크 응용 서비스 개발 및 법률 AI 연구 분야에 활용할 수 있음
- 지능형 비식별화 서비스 활용
• 데이터 수요자가 법원이나 법률 서비스 기관일 경우, 수작업에 의존하던 비식별화 공정을 자동화할 수 있음.
• 특히 기존 규칙 기반 모델이 해결하지 못했던 의미 기반 객체 인식(예: 장소와 기업명의 중의적 표현 구분) 기능을 통해 오탐률을 획기적으로 낮추고 작업 효율을 극대화함.
- 가상 판결문 생성 및 판례 분석 활용
• GPT-OSS-120B의 높은 문맥 이해도를 바탕으로 비식별 규칙이 완벽히 적용된 일관성 있는 가상 판결문 초안 생성이 가능함.
• 비식별화된 상태에서도 사건의 흐름과 법리적 관계가 보존된 데이터를 학습함으로써, 유사 사건의 결과 예측 및 법률 전략 수립 보조 도구로 활용 가능함.
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드데이터 구성
데이터 구성 key description Type Child Type info 사건 정보 JsonObject courtType 심급 구분 String judmnAdjuDe 판결 일자 String Reference_info 참조 조문 JsonObject reference_court_case 참조 조문 String reference_rules 참조 판례 String annotation_count 라벨링 데이터 개수 Number dataType 판결문, 심결례 구분 String caseTitle 사건 제목 String jdgmn 판시사항 String caseNo 사건번호 String caseNoID 대표사건번호 String caseNm 사건명 String courtNm 법원명 String caseClass 사건 분류 String keyword_tag 키워드 태그 JsonObject keyword 키워드 배열 JsonArray String [ 키워드 String ] sections 섹션 항목 배열 JsonArray JsonObject [ 섹션 항목 JsonObject section_id 섹션 ID String char_count 섹션내 글자수 Number text 섹션 내용 String title 섹션 제목 String ] annotations 라벨링 데이터 배열 JsonArray JsonObject [ 라벨링 데이터 JsonObject annotation_id 라벨링 아이디 String replacement_text 비식별화 텍스트 String section_id 라벨링된 섹션 ID 배열 JsonArray String [ 섹션 ID method 라벨링 방식 String link_entity_id 동일 개체 연결 엔터티 String original_text 원본 텍스트 String rationale 라벨링 방법 설명 String rules_triggered 적용된 규칙명 String span 텍스트 위치 정보 JsonArray JsonObject [ 텍스트 위치 배열 JsonObject start 텍스트 시작 위치 Number end 텍스트 끝 위치 Number ] ] 어노테이션 포맷
어노테이션 포맷 No 속성명 타입 필수여부 설명 1 info object Y 기초 정보 1-1 info.dataType string Y 문서 종류 1-2 info.caseNm string Y 사건명 1-3 info.caseTitle string Y 사건 제목 1-4 info.courtType string Y 심판 유형 1-5 info.courtNm string Y 법원명 1-6 info.judmnAdjuDe string Y 판결선고일 1-7 info.caseNoID string Y DB관리용정보 1-8 info.caseNo string Y 사건 번호 1-9 info.jdgmn string N 판시사항 1-10 info.keyword_tag object Y 키워드 태그 1-10-1 info.keyword array Y 키워드 항목 1-11 info.Reference_info object Y 참조 정보 1-11-1 info.Reference_info.reference_rules string N 참조 조문 1-11-2 info.Reference_info.reference_court_case string N 참조 판례 2 sections array Y 문서 섹션 2-1 sections[].section_id string Y 섹션 ID 2-2 sections[].title string Y 섹션 제목 2-3 sections[].text string Y 섹션 본문 2-4 sections[].char_count int Y 섹션 글자수 3 annotations array Y 개별 라벨 3-1 annotations[].annotation_id string Y 라벨 ID 3-2 annotations[].section_id string Y 라벨 대상 섹션 ID 3-3 annotations[].span object Y 라벨 대상 문자 위치 3-3-1 annotations[].span[].start int Y 라벨시작위치 3-3-2 annotations[].span[].end int Y 라벨끝위치 3-4 annotations[].original_text string Y 라벨 대상 텍스트 원문 3-5 annotations[].method string Y 비식별화 방식 3-6 annotations[].replacement_text string Y 대체 텍스트 3-7 annotations[].link_entity_id string Y PPRL용 ID 3-8 annotations[].rationale string Y 비식별화 처리 이유 3-9 annotations[].rules_triggered string Y 비식별화 룰 ID 데이터 포맷
데이터 포맷 사건명 이혼 청구 사건 사건 종류 명 가사 선고일자 19661021 법원명 대구고법 사건번호 66르161 원문 국가보안법 위반사건으로 징역형을 선고받아 교도소에서 형집행중이므로 동서생활을 하지 못한 것이면 그 기간중에는 악의의 유기라고 볼 수 없다 할 것이다. 성립에 다툼이 없는 갑 제1호증(호적등본)에 적힌 내용에 의하면 청구인과 피청구인은 1961.12.20.에 혼인하여 현재까지 부부관계가 존속하고 있는 사실을 인정할 수 있는바... (중략) ...피청구인이 1956년에 대전지방법원에서 6·25사변 당시의 국가보안법 위반사건으로 징역 5년의 형을 받고 1961.8.15.에 그 집행을 마칠 때까지 청구인과 동서생활을 하지 못한 사실을 인정할 수 있으나 이는 형의 집행으로 부득이 동서생활을 하지 못한 것임이 그 사실자체에서 명백하므로 이로써 곧 청구인을 악의로 유기한 것이라고는 할 수 없고... 전처리 후 국가보안법 위반사건으로 징역형을 선고받아 교도소에서 형집행중이므로 동서생활을 하지 못한 것이면 그 기간중에는 악의의 유기라고 볼 수 없다 할 것이다. 성립에 다툼이 없는 갑 제1호증(호적등본)에 적힌 내용에 의하면 청구인과 피청구인은 1961. XX. XX.에 혼인하여 현재까지 부부관계가 존속하고 있는 사실을 인정할 수 있는바... (중략) ...피청구인이 1956년에 조직-2에서 6·25사변 당시의 국가보안법 위반사건으로 징역 5년의 형을 받고 1961. XX. XX.에 그 집행을 마칠 때까지 청구인과 동서생활을 하지 못한 사실을 인정할 수 있으나 이는 형의 집행으로 부득이 동서생활을 하지 못한 것임이 그 사실자체에서 명백하므로 이로써 곧 청구인을 악의로 유기한 것이라고는 할 수 없고... 실제 예시
{
"PrecService": {
"판시사항": "징역형의 집행기간에 악의의 유기가 성립될 수 있는지 여부
",
"참조판례": "",
"사건종류명": "가사",
"판결요지": "국가보안법 위반사건으로 징역형을 선고받아 교도소에서 형집행중이므로 동서생활을 하지 못한 것이면 그 기간중에는 악의의 유기라고 볼 수 없다 할 것이다.
",
"참조조문": "민법 제840조
",
"선고일자": "19661021",
"법원명": "대구고법",
"사건명": "이혼청구사건",
"판례내용": "【원고, 항소인】 임○희
【피고, 피항소인】 박○기
【원심판결】제1심 부산지방법원(65드146 심판)
【주 문】
항소를 기각한다.
항소비용은 청구인의 부담으로 한다.
【청구 및 항소취지】 원심심판을 취소한다.
청구인과 피청구인과는 이혼한다.
심판비용은 1, 2심 모두 피청구인의 부담으로 한다.
【이 유】 성립에 다툼이 없는 갑 제1호증(호적등본)에 적힌 내용에 의하면 청구인과 피청구인은 1961.12.20.에 혼인하여 현재까지 부부관계가 존속하고 있는 사실을 인정할 수 있는바 청구인은,
(1) 청구인과 피청구인은 1965.2.12.경에 혼례식을 거행하고 동서생활을 하였는데 피청구인은 그 약 2년후부터 10년간이나 동서생활을 하지 아니하고 청구인을 악의로 유기한 것이다라고 주장하므로 살피건대, 성립에 다툼이 없는 을 제1호증(탐사촉탁보고서)에 적힌 내용과 증인 최도선 및 동 임부금의 각 증언에 당사자변론의 모든 취지를 종합하여 보면 청구인과 피청구인은 1953.3.5.경에 부산에서 혼례식을 거행하고 동서생활을 하여 자식 2명을 낳았는데 피청구인이 1956년에 대전지방법원에서 6·25사변 당시의 국가보안법 위반사건으로 징역 5년의 형을 받고 1961.8.15.에 그 집행을 마칠 때까지 청구인과 동서생활을 하지 못한 사실을 인정할 수 있으나 이는 형의 집행으로 부득이 동서생활을 하지 못한 것임이 그 사실자체에서 명백하므로 이로써 곧 청구인을 악의로 유기한 것이라고는 할 수 없고 또 위의 증거등에 의하면 피청구인은 위의 형의 집행을 마친 다음 그해 12월경에 청구인과 만나서 그달 20일에 혼인신고를 하고(청구인은 혼인신고는 피청구인이 청구인의 도장을 도용하여 임의로 한 것이라고 주장하나 이를 인정할 자료가 없다) 다시 동서생활을 하다가 1963.2.경부터 별거하고 있는 사실을 인정할 수 있으나 이는 피청구인이 수입도 적고 가난하다는 이유로 청구인이 오히려 동서생활을 거부한데 기인한 것임을 역시 위의 증거등에 의하여 인정할 수 있고 이건 모든 증거에 의하여도 이 인정등을 뒤집고 피청구인이 청구인의 주장과 같이 청구인을 악의로 유기하였다고 인정할 수 없고,
(2) 피청구인은 (가) 1964.10.6. 오후 8시경에 부산시 중구 광복동에 있는 청구인의 양재점에서 청구인을 구타함과 동시에 유리창과 마네킹을 파손하고 (나) 1965.5.18. 오후 7시경에 같은구 창선동에 있는 청구인의 상점에서 청구인을 같은 방법으로 폭행을 하고 (다) 1965.4.7. 오후 3시경에 청구인의 친가에서 청구인의 어머니에게 폭행을 하여 2주일의 치료를 요하는 상해를 입히는등 매일같이 욕설과 폭행을 하여 청구인과 청구인의 어머니에게 심히 부당한 대우를 한 것이다라고 주장하나 위의 (가)사실에 들어 맞는 듯한 증인 이정자의 증언부분은 위의 증거등에 비추어서 믿을 수 없고 나머지 이건 모든 증거에 의하여도 이 사실등을 인정 할 수 없으며
(3) 위의 모든 사실등이 설사 이혼원인인 \"악의의 유기\"나 \"배우자 또는 그 직계존속에 대한 부당한 대우\"에 해당하지 않는다고 하더라도 피청구인은 항상 공산주의를 찬양하는 언동을 하고 있는바 이 모든 사실등은 \"혼인을 계속할 수 없는 중대한 사유\"에 해당하는 것이다라고 주장하므로 살피건대, 위의 (2)사실을 인정할 수 없음은 위에서 말한 바와 같고 또 이건 모든 증거에 의하여도 피청구인이 항상 공산주의를 찬양하는 언동을 하고 있는 사실을 인정할 수 없으며 나머지 위의 (1)사실만으로서는(이 사실에 대한 판단에서 인정한 사실에 비추어서) \"혼인을 계속하기 어려운 중대한 사유\"에 해당한다고 할 수 없으므로 청구인의 주장은 어느 것이나 이유가 없어서 받아들일 수 없다.
따라서 청구인의 청구는 부당하여서 기각할 것이므로 이와 결론을 같이 한 원심심판은 정당하니민사소송법 제384조에 의하여 항소를 기각하고,가사심판법 제9조,인사소송법 제13조,민사소송법 제95조,제89조를 적용하여 주문과 같이 판결한다.
판사 유태흥(재판장) 안장호 고정권 ",
"사건번호": "66르161",
"사건종류코드": "400103",
"판례정보일련번호": "72131",
"선고": "선고",
"판결유형": "제3민사부판결 : 확정",
"법원종류코드": "400202"
}
} -
데이터셋 구축 담당자
수행기관(주관) : 주식회사 에이뉴트
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 조민택 02-6225-2095 info@ainewt.ai 데이터 가공, AI 모델링 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜피씨엔 데이터 정제 ㈜한국아이티법학연구소 데이터 획득, 데이터 검수 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 조민택 02-6225-2095 info@ainewt.ai 유준혁 02-6225-2095 info@ainewt.ai AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 조민택 02-6225-2095 info@ainewt.ai 유준혁 02-6225-2095 info@ainewt.ai 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 조민택 02-6225-2095 info@ainewt.ai 유준혁 02-6225-2095 info@ainewt.ai
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의