NEW 행정법 LLM 사전학습 및 Instruction Tuning 데이터
- 분야법률
- 유형 텍스트
- 생성 방식LLM
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2025-06-30 데이터 최종 개방 1.0 2025-05-23 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2025-05-23 산출물 전체 공개 소개
행정법 법령, 판결문, 결정례, 해석례 내용을 활용하여 법률서비스 향상을 위한 질의응답와 텍스트 요약 태스크의 Instruction Tuning 데이터
구축목적
행정법의 인공지능 법률 서비스 품질 개선과 법률 분야 초거대 언어모델의 실제 활용 성능 개발을 위한 Instruction Tuning 데이터 구축
-
메타데이터 구조표 데이터 영역 법률 데이터 유형 텍스트 데이터 형식 csv 데이터 출처 직접 수집(법제처 국가법령정보센터, 대한민국 법원, 국세청) 라벨링 유형 (내용요약(자연어)/질의응답(자연어) 라벨링 형식 json 데이터 활용 서비스 챗봇 서비스 등 데이터 구축년도/
데이터 구축량2024년/행정법 원천데이터(3,050,000문장), 라벨링데이터(100,000건) -
● 데이터 통계
- 원천데이터 통계데이터 통계-원천데이터 통계 문서 종류 수량(문장 수) 결과 구성비 법령 770,872문장 25.28% 판결문 1,695,900문장 55.60% 해석례 457,170문장 14.99% 결정례 126,058문장 4.13% 합계 3,050,000문장 100.00% - 가공데이터 통계(문서 종류별 분포)
데이터 통계-가공데이터 통계(문서 종류별 분포) 문서 종류 수량(건) 결과 구성비 법령 39,815 39.82% 판결문 38,514 38.51% 해석례 9,015 9.02% 결정례 12,656 12.66% 합계 100,000 100.00% - 가공데이터 통계(임무별 분포)
데이터 통계-가공데이터 통계(임무별 분포) 태스크 유형 수량(건) 결과 구성비 질의응답 67,487 67.49% 텍스트 요약 32,513 32.51% 합계 100,000 100.00% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드● 학습모델 임무 정의
- 한국어 NLU, QA 태스크에 활용할 수 있는 LLM(Large Language Model)을 조사하고 공법분야 LLM 사전학습 및 Instruction Tuning 데이터에 적용
- 자연어 이해 (Natural Language Understanding)
- 질의응답 (Question Answering)
- 요약 (Text Summarization)● 선정 학습모델(Llama-3-Open-Ko-8B-Instruct-preview)
- Llama-3-Open-Ko-8B 모델은 Llama-3-8B 기반 사전학습된 언어 모델입니다. 60GB 이상의 중복 제거된 텍스트로, 구성 전체가 공개적으로 사용 가능한 것으로 이뤄진 데이터로 모델을 학습했습니다.
기반이 되는 Llama-3-8B 모델은 80억 개의 파라미터를 이용해 사전학습과 지시어 미세조정을 거쳐 업계 표준 벤치마크에서 대다수의 오픈소스 채팅 모델 대비 뛰어난 성능을 가지고 있습니다.Llama 3 모델이 사용한 Transformer 아키텍처 모식도
- Llama 3는 트랜스포머 아키텍처를 최적화한 자동 회귀 언어 모델로, SFT(Supervised fine-tuning)와 사람의 피드백을 거친 강화학습(RLHF, Reinforced Learning with Human Feedback)을 사용하여 사람에게 안전하고 더욱 도움이 될 수 있는 방향으로 모델을 정렬하였습니다.
- Llama-3 Tokenizer는 한국어 Tokenizer(Llama-2-Ko Tokenizer)보다 많은 177억 개 이상의 토큰으로 사전학습을 진행했습니다. 이 학습은 TPUv5e-256을 통해 진행되었고, Google의 TRC 프로그램의 지원 아래에서 이뤄졌습니다.
- ‘Chat Vector’ 논문의 아이디어를 응용하여 Instruction 모델인 Llama-3-Open-Ko-8B를 릴리즈 할 수 있었습니다.
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드● 데이터 구성(문서 종류별 메타데이터)
- 법령데이터 구성(문서 종류별 메타데이터)-법령 속성명 속성 설명 값(예시) DocuType 문서종류 01(법령), 02(판결문), 03(해석례), 04(결정례) lawId 법령ID 1653 promulgDate 공포일자 20240319 effectDate 시행일자 20240319 promulgNum 공포번호 20377 title 법령명 지방공무원법 ministry 소관부처 행정안전부 - 판결문
데이터 구성(문서 종류별 메타데이터)-판결문 속성명 속성 설명 값(예시) DocuType 문서종류 01(법령), 02(판결문), 03(해석례), 04(결정례) precedId 판결문ID 64513 caseName 사건명 양도소득세부과처분취소 caseNum 사건번호 2006누25119 sentenceDate 선고일자 2007.04.20 courtName 법원명 서울고등법원 courtCode 법원종류코드 대법원: 400201, 하위법원: 400202 caseName 사건종류명 세무 - 해석례
데이터 구성(문서 종류별 메타데이터)-해석례 속성명 속성 설명 값(예시) DocuType 문서종류 01(법령), 02(판결문), 03(해석례), 04(결정례) interpreId 해석례ID 333827 agenda 안건명 여성가족부 – 행정소송법 제3조 2항 관련 agendaNum 안건번호 15-0105 interpreDate 해석일자 20150327 interpreMinCode 해석기관코드 400201 interpreMinName 해석기관명 대법원 questionMinCode 질의기관코드 302819 questionMinName 질의기관명 여성가족부
- 결정례데이터 구성(문서 종류별 메타데이터)-결정례 속성명 속성 설명 값(예시) DocuType 문서종류 01(법령), 02(판결문), 03(해석례), 04(결정례) determintId 결정례ID 58386 finalDate 종국일자 20220301 caseNum 사건번호 2002헌마279 caseName 사건명 행정소송법 제37조 위헌확인 caseCode 사건종류명 헌법심판 courtCode 재판부구분코드 전원재판부: 430201, 지정재판부: 430202
◯ 데이터 포맷
● 어노테이션 명세 – Q/A 태스크(task 1)
- 법령 Q/A 어노테이션데이터 포맷-어노테이션 명세–Q/A 태스크(task 1)-법령 Q/A 어노테이션 No. 항목명 타입 설명 비고 1 Info Object 기초 정보 기본정보 오브젝트(메타정보 등) 1-1 lawClass Striing 법분야 01(행정법), 02(형사법) 1-2 DocuType String 문서종류 01(법령), 02(판결문), 03(해석례), 04(결정례) 1-3 lawId String 법령ID 1653 1-4 promulgDate String 공포일자 20240319 1-5 effectDate String 시행일자 20240319 1-6 promulgNum String 공포번호 20377 1-7 title String 법령명 지방공무원법 1-8 ministry String 소관부처 행정안전부 1-9 fullText String 전문여부 Y , N 1-10 smClass String 세분류 조 1-11 sentenceType String 문장형태 서술형, 나열형 2 label Object 요약 태스크 오브젝트(instruction 등) 2-1 instruction String 지시문 응답 생성을 위한 지시문 2-2 input String 질의 응답 생성을 위한 질의 2-3 output String 응답 지시문과 질의에 대응하는 응답 2-4 originwordCnt String 원천데이터 어절수 대상 원천데이터의 문장수 2-5 labelwordCnt String 라벨데이터 어절수 응답(라벨링데이터) 어절수 - 판결문 Q/A 어노테이션
데이터 포맷-어노테이션 명세–Q/A 태스크(task 1)- 판결문 Q/A 어노테이션 No. 항목명 타입 설명 비고 1 Info Object 기초 정보 기본정보 오브젝트(메타정보 등) 1-1 lawClass Striing 법분야 01(행정법), 02(형사법) 1-2 DocuType String 문서종류 01(법령), 02(판결문), 03(해석례), 04(결정례) 1-3 precedId String 판결문ID 64513 1-4 caseName String 사건명 양도소득세부과처분취소 1-5 caseNum String 사건번호 2006누25119 1-6 sentenceDate String 선고일자 2007.04.20 1-7 courtName String 법원명 서울고등법원 1-8 courtCode String 법원종류코드 대법원: 400201, 하위법원: 400202 1-9 caseTypeName String 사건종류명 세무 1-10 fullText String 전문여부 Y , N 1-11 smClass String 세분류 조 1-12 sentenceType String 문장형태 서술형, 나열형 2 label Object 요약 태스크 오브젝트(instruction 등) 2-1 instruction String 지시문 응답 생성을 위한 지시문 2-2 input String 질의 응답 생성을 위한 질의 2-3 output String 응답 지시문과 질의에 대응하는 응답 2-4 originwordCnt String 원천데이터 어절수 대상 원천데이터의 문장수 2-5 labelwordCnt String 라벨데이터 어절수 응답(라벨링데이터) 어절수 - 결정례 Q/A 어노테이션
데이터 포맷-어노테이션 명세–Q/A 태스크(task 1)- 결정례 Q/A 어노테이션 No. 항목명 타입 설명 비고 1 Info Object 기초 정보 기본정보 오브젝트(메타정보 등) 1-1 lawClass Striing 법분야 01(행정법), 02(형사법) 1-2 DocuType String 문서종류 01(법령), 02(판결문), 03(해석례), 04(결정례) 1-3 determintId String 결정례ID 58386 1-4 finalDate String 종국일자 20220301 1-5 caseNum String 사건번호 2002헌마279 1-6 caseName String 사건명 행정소송법 제37조 위헌확인 1-7 caseCode String 사건종류명 헌법심판 1-8 courtCode String 재판부구분코드 전원재판부: 430201, 지정재판부: 430202 1-9 fullText String 전문여부 Y , N 1-10 smClass String 세분류 조 1-11 sentenceType String 문장형태 서술형, 나열형 2 label Object 요약 태스크 오브젝트(instruction 등) 2-1 instruction String 지시문 응답 생성을 위한 지시문 2-2 input String 질의 응답 생성을 위한 질의 2-3 output String 응답 지시문과 질의에 대응하는 응답 2-4 originwordCnt String 원천데이터 어절수 대상 원천데이터의 문장수 2-5 labelwordCnt String 라벨데이터 어절수 응답(라벨링데이터) 어절수 - 해석례 Q/A 어노테이션
데이터 포맷-어노테이션 명세–Q/A 태스크(task 1)- 해석례 Q/A 어노테이션 No. 항목명 타입 설명 비고 1 Info Object 기초 정보 기본정보 오브젝트(메타정보 등) 1-1 lawClass Striing 법분야 01(행정법), 02(형사법) 1-2 DocuType String 문서종류 01(법령), 02(판결문), 03(해석례), 04(결정례) 1-3 interpreId String 해석례ID 333827 1-4 agenda String 안건명 여성가족부 – 행정소송법 제3조 2항 관련 1-5 agendaNum String 안건번호 15-0105 1-6 interpreDate String 해석일자 20150327 1-7 interpreMinCode String 해석기관코드 400201 1-8 interpreMinName String 해석기관명 대법원 1-9 questionMinCode String 질의기관코드 302819 1-10 questionMinName String 질의기관명 여성가족부 1-11 fullText String 전문여부 Y , N 1-12 smClass String 세분류 조 1-13 sentenceType String 문장형태 서술형, 나열형 2 label Object 요약 태스크 오브젝트(instruction 등) 2-1 instruction String 지시문 응답 생성을 위한 지시문 2-2 input String 질의 응답 생성을 위한 질의 2-3 output String 응답 지시문과 질의에 대응하는 응답 2-4 originwordCnt String 원천데이터 어절수 대상 원천데이터의 문장수 2-5 labelwordCnt String 라벨데이터 어절수 응답(라벨링데이터) 어절수 ● 어노테이션 명세 – 요약 태스크(task 2)
- 판결문 요약 어노테이션어노테이션 명세–요약 태스크(task 2)-판결문 요약 어노테이션 No. 항목명 타입 설명 비고 1 Info Object 기초 정보 기본정보 오브젝트(메타정보 등) 1-1 lawClass Striing 법분야 01(행정법), 02(형사법) 1-2 DocuType String 문서종류 01(법령), 02(판결문), 03(해석례), 04(결정례) 1-3 precedId String 판결문ID 64513 1-4 caseName String 사건명 양도소득세부과처분취소 1-5 caseNum String 사건번호 2006누25119 1-6 sentenceDate String 선고일자 2007.04.20 1-7 courtName String 법원명 서울고등법원 1-8 courtCode String 법원종류코드 대법원: 400201, 하위법원: 400202 1-9 caseTypeName String 사건종류명 세무 1-10 fullText String 전문여부 Y , N 1-11 smClass String 세분류 조 1-12 sentenceType String 문장형태 서술형, 나열형 2 label Object 요약 태스크 오브젝트(instruction 등) 2-1 instruction String 지시문 요약을 위한 지시문 2-2 output String 요약문 지시문에 대응하는 요약 2-3 originwordCnt String 원천데이터 어절수 대상 원천데이터의 문장수 2-4 labelwordCnt String 라벨데이터 어절수 요약문(라벨링데이터) 어절수 - 결정례 요약 어노테이션
어노테이션 명세–요약 태스크(task 2)-결정례 요약 어노테이션 No. 항목명 타입 설명 비고 1 Info Object 기초 정보 기본정보 오브젝트(메타정보 등) 1-1 lawClass Striing 법분야 01(행정법), 02(형사법) 1-2 DocuType String 문서종류 01(법령), 02(판결문), 03(해석례), 04(결정례) 1-3 determintId String 결정례ID 58386 1-4 finalDate String 종국일자 20220301 1-5 caseNum String 사건번호 2002헌마279 1-6 caseName String 사건명 행정소송법 제37조 위헌확인 1-7 caseCode String 사건종류명 헌법심판 1-8 courtCode String 재판부구분코드 전원재판부: 430201, 지정재판부: 430202 1-9 fullText String 전문여부 Y , N 1-10 smClass String 세분류 조 1-11 sentenceType String 문장형태 서술형, 나열형 2 label Object 요약 태스크 오브젝트(instruction 등) 2-1 instruction String 지시문 요약을 위한 지시문 2-2 output String 요약문 지시문에 대응하는 요약 2-3 originwordCnt String 원천데이터 어절수 대상 원천데이터의 문장수 2-4 labelwordCnt String 라벨데이터 어절수 요약문(라벨링데이터) 어절수 - 해석례 요약 어노테이션
어노테이션 명세–요약 태스크(task 2)-해석례 요약 어노테이션 No. 항목명 타입 설명 비고 1 Info Object 기초 정보 기본정보 오브젝트(메타정보 등) 1-1 lawClass Striing 법분야 01(행정법), 02(형사법) 1-2 DocuType String 문서종류 01(법령), 02(판결문), 03(해석례), 04(결정례) 1-3 interpreId String 해석례ID 333827 1-4 agenda String 안건명 여성가족부 – 행정소송법 제3조 2항 관련 1-5 agendaNum String 안건번호 15-0105 1-6 interpreDate String 해석일자 20150327 1-7 interpreMinCode String 해석기관코드 400201 1-8 interpreMinName String 해석기관명 대법원 1-9 questionMinCode String 질의기관코드 302819 1-10 questionMinName String 질의기관명 여성가족부 1-11 fullText String 전문여부 Y , N 1-12 smClass String 세분류 조 1-13 sentenceType String 문장형태 서술형, 나열형 2 label Object 요약 태스크 오브젝트(instruction 등) 2-1 instruction String 지시문 요약을 위한 지시문 2-2 output String 요약문 지시문에 대응하는 요약 2-3 originwordCnt String 원천데이터 어절수 대상 원천데이터의 문장수 2-4 labelwordCnt String 라벨데이터 어절수 요약문(라벨링데이터) 어절수 ● 원천데이터 및 가공데이터
원천데이터 및 가공데이터 원천
데이터【전문】
사건 2013헌바108 형법 제123조 위헌소원
청구인정○균
당해 사건 대법원 2013모221 재정신청 기각결정에 대한 재항고
[주문]
이 사건 심판청구를 각하한다.
[이유]
1. 사건의 개요
가. 청구인은 김○호를 직권남용혐의로 고소하였으나, 광주지방검찰청 검사로부터‘각하’의 불기소처분을 받았다(광주지방검찰청 2012년 형제47200호).
나. 청구인은 이에 불복하여 재정신청을 하였다가 기각되자(광주고등법원2012초재449) 이에 대한 재항고를 하고(대법원2013모221), 위 재항고사건을 당해 사건으로 하여 형법 제123조에 대하여 위헌법률심판 제청신청을 하였는데(대법원 2013초기77) 2013.3.5. 위헌법률심판 제청신청이 각하되자, 2013.4.15. 이 사건 헌법소원심판을 청구하였다.
2. 판단
청구인은 이사건 심판청구서에 위헌이라고 해석되는 법률조항으로 형법 제123조를 기재하였으나, 이 법률조항 자체의 위헌성에 대하여 아무런 주장을 하지 않고, 단지 김○호의 직권남용 혐의가 인정되는데도 불기소처분을 한 것이 부당하다고 주장하고 있을 뿐이다. 이와 같이 청구인이 심판대상조항의 위헌성을 직접 다투는 것이라고 볼 수 없고, 심판청구서에서 ‘위헌이라고 해석되는 이유’도 전혀 기재하지 않고 있는 경우는 결국 법률의 위헌 여부를 다투는 것이 아니므로 헌법재판소법 제68조 제2항의 청구로서 부적법하다(헌재2001.3.21.99헌바107, 판례집13-1,626,632-633;헌재2013.5.14.2013헌바125등참조).
3. 결론
그렇다면 이 사건 심판청구는 부적법하므로 헌법재판소법 제72조 제3항 제4호에 따라 이를 각하하기로 하여 관여 재판관 전원의 일치된 의견으로 주문과 같이 결정한다.
2013.5.21.Instruction
(지시문)판단의 법적 근거를 포함하여 30어절 이상으로 요약하시오. Output
(요약)청구인은 직권남용 혐의로 고소한 사건에서 불기소처분을 받았다. 이에 대해 청구인은 재정신청을 하였으나 기각당했다. 이후, 청구인은 형법 제123조의 위헌 여부를 기준으로 헌법재판소에 헌법소원을 신청했다. 그러나 청구인은 심판청구서에서 직접적으로 제기한 법률조항의 위헌성을 논하지 않았다. 법률조항을 다투는 방식이 아니었기 때문에 헌법재판소는 헌재 2001. 3. 21. 99헌바107, 판례집 13-1, 626, 632-633; 헌재 2013. 5. 14. 2013헌바125 등의 판례를 참조하여 부적법하다고 판단했다. 따라서 헌법재판소는 헌법재판소법 제68조 제2항의 청구가 부적법하다고 보고, 헌법재판소법 제72조 제3항 제4호에 따라 각하를 결정했다. ● json 예시
{
"info": {
"lawClass": "01",
"DocuType": "01",
"lawId": "000028",
"promulgDate": "20210720",
"effectDate": "20220721",
"promulgNum": "18298",
"title": "지능정보화 기본법",
"ministry": "과학기술정보통신부",
"fullText": "N",
"smClass": "제10조",
"sentenceType": "서술형"
},
"label": {
"instruction": "질의에 대한 응답은 5어절 이상의 서술형으로 생성하시오.",
"input": "중앙행정기관의 장이나 지방자치단체의 장은 지능정보화 정책이나 사업 추진에 지장을 줄 우려가 있을 때 어떻게 해야 하나요?",
"output": "지능정보화 기본법 제10조 제1항에 따르면, 중앙행정기관의 장이나 지방자치단체의 장은 다른 기관의 지능정보화 정책이나 사업 추진이 해당 기관의 정책이나 사업 추진에 지장을 줄 우려가 있다고 인정되면 과학기술정보통신부장관에게 조정을 요청할 수 있습니다.",
"originwordCnt": "83",
"labelwordCnt": "30"
}
} -
데이터셋 구축 담당자
수행기관(주관) : ㈜에프아이솔루션
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 오재만 070-7872-7748 jaeman1003@fisolution.co.kr 주관업무, 데이터 가공(라벨링) 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜가덕씨엔에스 가공 가이드라인, 가공단계 품질검사(의미) ㈜무하유 원시데이터 수집, 원천데이터 정제, AI모델 학습, 저작도구 ㈜애나 구축단계 품질검사 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 이승욱 070-7872-7748 voice2sky@fisolution.co.kr 최순배 070-7872-7748 sbchoi@fisolution.co.kr AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 이은진 02-6233-8400 rnd@muhayu.com 임헌영 02-6233-8400 rnd@muhayu.com 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 이은진 02-6233-8400 rnd@muhayu.com 김준경 02-6233-8400 kimjk@muhayu.com
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.
국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.