-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-10-30 데이터 최종 개방 1.0 2023-06-28 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-11-03 산출물 전체 공개 소개
금융과 물류 산업에서 많이 활용되는 서식 기반의 문서들을 인공지능이 자동으로 판독하는 모델 개발에 필요한 다양한 금융권 손필기 데이터와 선적 서류 인쇄물 OCR 데이터. 페이지 단위의 문서 이미지와 해당 이미지내 단어 또는 어절 영역을 4-포인트 폴리곤 박스로 그리고 해당 영역 내 라벨링 정보로 구성된 JSON 파일을 쌍으로 구성하여 금융권 데이터 5만 장 그리고 물류 데이터 10만 장 이상 규모로 구축
구축목적
금융 컴퓨터와 모바일 기기가 일상 제품이 되면서 필기의 필요성은 감소하였으나, 금융권 업무 등과 같이 신청인의 정보를 주고받는 과정에서 일부 내용에 대한 필기 데이터를 받게 되며, 이런 데이터를 금융 업무의 특성상 정확도가 높은 데이터 처리가 요구되기에 사람에 의해 발생할 수 있는 오류를 줄이고 기계적으로 정확하게 판독해서 처리할 수 있는 솔루션 개발을 위한 학습 데이터 제공 물류 물류 운송 서류의 이미지를 읽어 서류의 형식과 함께 서류에 표기된 문자를 인식하는 인공지능 모델의 개발에 필요한 학습데이터를 구축. 기간계 시스템과 연계하여 문서에서 텍스트 데이터를 추출하고 인식된 객체의 텍스트 DB 저장 및 이후 공정에 맞는 프로세스로 제공하며 업무의 효율 향상 또는 물류 운송 서류의 전산 입력 처리를 자동화하기 위한 로봇 프로세스 자동화 (RPA :Robotic Process Automation) 기술의 고도화와 서류 인식 처리 애플리케이션의 개발을 위한 학습 데이터 제공
-
메타데이터 구조표 데이터 영역 금융 데이터 유형 텍스트 , 이미지 데이터 형식 PNG/JPG 데이터 출처 자체 수집 라벨링 유형 4-포인트 폴리곤 (이미지) 라벨링 형식 JSON 데이터 활용 서비스 이미지 기반 금융문서/물류 선하증권 (Bill of Lading) 문서 글자 인식 서비스 데이터 구축년도/
데이터 구축량2022년/금융 50,000 장 물류 107,919 장 -
데이터 구축 규모
금융
데이터 구축 규모 1차 경로 2차 경로 파일 포맷 제출수량 이미지 파일 수 어절 수 (측정기준) 1.은행 1-1.신고서 PNG 1,998 38,237 1-2.신청서 PNG 10,005 234,614 1-3.확인서 PNG 1,999 47,562 1-4.위임장 PNG 4,003 78,893 소계 18,005 399,306 2.보험 2-1.신청서 PNG 4,001 63,280 2-2.확인서 PNG 2,002 49,222 2-3.위임장 PNG 2,002 38,600 2-4.동의서 PNG 1,981 15,124 2-5.청구서 PNG 4,002 98,663 2-6.합의서 PNG 2,002 55,491 소계 15,990 320,380 3.증권 3-1.신고서 PNG 2,000 61,123 3-2.신청서 PNG 10,003 198,516 3-3.확인서 PNG 2,000 48,991 3-4.위임장 PNG 2,002 44,057 소계 16,005 352,687 합계 50,000 1,072,373 물류
물류 구분 파일 포맷 제출수량 이미지 파일 수 어절 수 (측정기준) 1.상업송장 PNG/JPG 26,044 2,241,142 2.포장명세서 PNG/JPG 27,388 2,747,652 3.선하증권 PNG/JPG 26,541 3,115,732 4.원산지증명서 PNG/JPG 11,137 724,855 5.기타 PNG/JPG 16,808 1,236,538 합계 107,918 10,065,919 데이터 분포
- 금융 문서 언어 분포
금융 문서 언어 분포 언어 분포 (단어/어절) 언어 개수 분포 한글 482,115 45% 외국어 35,326 3% 숫자 263,142 25% 기타 291,750 27% - 금융 문서 필기자 성별 분포
융 문서 필기자 성별 손필기자 성별 구축 분포 남 50% 여 50% - 금융 문서 필기자 연령 구축 분포
금융 문서 필기자 연령 구축 분포 손필기자 연령 구축 분포 10대 이하 5% 20대 15% 30대 15% 40대 17% 50대 20% 60대 이상 28% - 금융 문서 산업군 분포
금융 문서 산업군 분포 구축량 구성비 은행 36% 보험 32% 증권 32% - 금융 문서 유형 분포
금융 문서 유형 분포 구축량 구성비 신고서 8% 신청서 48% 확인서 12% 위임장 16% 동의서 4% 청구서 8% 합의서 4% - 물류 문서 유형 분포
물류 문서 유형 분포 구축량 구성비 상업송장 24.10% 포장명세서 25.40% 선하증권 24.60% 원산지증명서 10.30% 기타 15.60% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드모델학습
• 구축된 금융 및 물류 OCR 데이터는 학습용(Training), 검증용(Validation), 테스트용(Test) 으로 80% : 10% : 10% 비율로 분리하여 제공하고 학습용 80% 데이터로 학습을 진행, 검증용 10%로 학습 도중 모델 성과 평가 등을 진행한다.
• 학습용 데이터 10%는 학습이 완료될 때까지 개봉되어서는 안됨.모델학습 학습 (Training) 검증 (Validation) 테스트 (Test) 학습용 학습 도중 모델
성과 평가 및 비교모델 학습 완료 후,
모델 테스트80% 10% 10% 서비스 활용 시나리오
• 구축한 금융권 모델은 종이 없는 창구 서비스 등이 확대되고 필요시 태블릿 등과 같은 전자 기기 위에서의 필기로 대체되고 있음. 자동으로 필기 내용을 전산화하는 서비스로 활용 가능
• 물류 서류는 선적과 통관 등의 용도로 많이 사용되는 선적 서류가 주로 이루어져 있고 서식 형태의 문서 이미지가 유통되는 과정에서 수기 입력을 통한 잦은 오류 발생 부분을 글자 자동 OCR 인식 등의 방식으로 자동 전산화 또는 오류 부분을 찾아내는 용도로 활용할 수 있다. -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 문자 인식 성능 (금융) Optical Character Recognition ResNet50 + ViTSTR F1-Score@IoU 0.8 0.7 점 0.7134 점 2 문자 인식 성능 (물류) Optical Character Recognition ResNet50 + ViTSTR F1-Score@IoU 0.8 0.8 점 0.9714 점
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드데이터 포맷
• 원천 데이터 특성
원천 데이터 특성 종류 내용 자료형태 디지털 이미지 파일포맷 PNG/JPG 이미지색상 흑백, 컬러 규모 금융 50,000 장 물류 107,919 장 법률문제 가상의 정보를 데이터 불량화하여 구축 개인정보나 민감정보 등은 모두 비식별화 처리로 제거하여 제공하지 않음 예시이미지 • JSON 형식
금융{ "Annotation" : {
"object_recognition" : 1,
"text_language" : 0
},
"Dataset" : {
"category" : 0,
"identifier" : "IMG_OCR_6_F",
"label_path" : "금융_데이터/1_Training/2_라벨링데이터",
"name" : "대규모 OCR 데이터셋 (금융)",
"src_path" : "금융_데이터/1_Training/1_원천데이터",
"type" : 1
},
"Images" : {
"data_captured" : "2022.11.07",
"device_model" : 0,
"device_type" : 1,
"form_industry" : 0,
"form_type" : "제신고서",
"height" : 3508,
"identifier" : "IMG_OCR_6_F_0000002",
"type" : "PNG",
"width" : 2480,
"writer_age" : 3,
"writer_body" : 1,
"writer_experienced" : 1,
"writer_sex" : 0
},
"bbox" : [
{
"data" : "474387-05-714500",
"data_type" : 3,
"id" : 1,
"x" : [ 715, 715, 1155, 1155 ],
"y" : [ 1813, 1868, 1813, 1868 ]
},
{
"data" : "탕시우",
"data_type" : 0,
"id" : 2,
"x" : [ 1979, 1979, 2117, 2117 ],
"y" : [ 1809, 1870, 1809, 1870 ]
},
{
"data" : "부산광역시",
"data_type" : 0,
"id" : 3,
"x" : [ 629, 629, 853, 853 ],
"y" : [ 2219, 2281, 2219, 2281 ]
},
(하략)
}물류
{ "Annotation": {
"object_recognition": 1,
"text_language": 2
},
"DataSet": {
"category": 0,
"identifier": "IMG_OCR_6_T",
"label_path": "OCR/물류/02.라벨링데이터/",
"name": "대규모 OCR 데이터셋 (물류)",
"src_path": "OCR/물류/01.원천데이터/",
"type": 1
},
"Images": {
"data_captured": "2022.11.22",
"form_type": "선하증권",
"height": 2340,
"identifier": "IMG_OCR_6_T_BL_000000",
"type": "png",
"width": 1654
},
"bbox": [
{
"data": "UNE",
"id": "7be8a852-6ad0-11ed-b8f7-257ccc8e23eb",
"x": [
120,
120,
168,
168
],
"y": [
179,
204,
179,
204
]
},
(하략)
}데이터 구성
금융
데이터 구성 구분 No 속성명 속성 및 내용 필수 1 Images.identifier 이미지 식별자(파일명) 필수 2 Images.type 이미지 파일 확장자 필수 3 Images.width 이미지 가로 크기(픽셀) 필수 4 Images.height 이미지 세로 크기(픽셀) 필수 5 Images.device_type 기기 유형 필수 6 Images.writer_experienced 디바이스 손필기 경험 필수 7 Images.writer_age 작성자 연령대 필수 8 Images.writer_body 손필기 작성 신체 필수 9 Images.writer_sex 작성자 성별 필수 10 Images.form_industry 금융 산업군 필수 11 Images.form_type 금융 문서 종류 필수 12 Images.data_captured 이미지 생성 일자 물류
물류 구분 No 속성명 속성 및 내용 필수 1 Images.identifier 이미지 식별자(파일명) 필수 2 Images.type 이미지 파일 확장자 필수 3 Images.width 이미지 가로 크기(픽셀) 필수 4 Images.height 이미지 세로 크기(픽셀) 필수 5 Images.form_type 물류 서류 유형 필수 6 Images.data_captured 이미지 생성 일자 어노테이션 포맷
금융
금융 No. 항목 타입 필수여부 비고 속성명 설명 1 Dataset 데이터셋 정보 1 Dataset.identifier 데이터셋 식별자 String ○ “IMG_OCR_6_F” (유형_목적_과제번호_영역) 2 Dataset.name 데이터셋 이름 String ○ “대규모 OCR 데이터셋 (금융)” 3 Dataset.src_path 데이터셋 폴더 위치 String ○ “HW_OCR/Financial/1.Images/” 4 Dataset.label_path 데이터셋 레이블폴더 위치 String ○ “HW_OCR/Financial/2.json/” 5 Dataset.category 데이터셋 카테고리 Integer ○ 0: OCR 6 Dataset.type 데이터셋 타입 Integer ○ 1: 이미지 2 Images 이미지 1 Images.identifier 이미지 식별자(파일명) String ○ “IMG_OCR_6_F_00000” (데이터셋식별자_순번) 2 Images.type 이미지 파일 확장자 String ○ “PNG” 3 Images.width 이미지 가로 크기(픽셀) Integer ○ 예시: 1920 4 Images.height 이미지 세로 크기(픽셀) Integer ○ 예시: 1080 5 Images.device_type 기기 유형 Integer ○ 0: 안드로이드 스마트폰 1: 안드로이드 태블릿 2: 아이폰; 3: 아이패드 4: Windows PC 5: 기타; 6: 모름 6 Images.writer_experienced 디바이스 손필기 경험 Integer ○ 0: 없음, 1:있음 7 Images.writer_age 작성자 연령대 Integer ○ 0: 모름 1: 10대이하 2: 20대 3: 30대 4: 40대 5: 50대 6: 60대 이상 8 Images.writer_body 손필기 작성 신체 Integer ○ 0: 왼손 1: 오른손 2: 불명 9 Images.writer_sex 작성자 성별 Integer ○ 0: 여성 1: 남성 2: 불명 9 Images.writer_sex 작성자 성별 Integer ○ 0: 여성 1: 남성 2: 불명 10 Images.form_industry 금융 산업군 Integer ○ 0: 은행 1: 보험 2: 증권 3: 기타 11 Images.form_type 금융 문서 종류 String ○ “신고서”, “신청서”, “확인서”, “위임장”, 동의서“, ”청구서“, ”합의서“ 12 Images.data_captured 이미지 생성 일자 String ○ 예시: “2022.08.19” 3 Annotation 어노테이션 정보 1 Annotation.object_recognition 라벨링 방법 Integer ○ 0: 바운딩박스 1: 4-point polygon 2 Annotation.text_language 대표 텍스트 언어 Integer ○ 0: 한글 1: 기타 4 bbox 라벨링 정보 4 bbox[].id 바운딩박스 식별자 Integer ○ 예시: 13 5 bbox[].data 바운딩박스 내 텍스트 String ○ 예시: “대한민국” 6 bbox[].data_type 바운딩박스 내 텍스트의 언어 형태 Integer ○ 0: 한국어만 1: 외국어만 (영어, 한자 등) 2: 숫자만 3: 기타 (숫자, 기호 및 혼합 글자등) 7 bbox[].x[] 바운딩박스 x 좌표 리스트 Integer ○ 예시: [100, 100, 200, 200] - 4개 8 bbox[].y[] 바운딩박스 y 좌표 리스트 Integer ○ 예시: [50, 100, 50, 100] - 4개 물류
물류 No. 항목 타입 필수여부 비고 속성명 설명 1 DataSet 데이터셋 정보 1 DataSet.identifier 데이터셋 식별자 String ○ “IMG_OCR_6_T” (유형_목적_과제번호_영역) 2 DataSet.name 데이터셋 이름 String ○ “대규모 OCR 데이터셋 (물류)” 3 DataSet.src_path 데이터셋 폴더 위치 String ○ “OCR/Trade/1.Images/” 4 DataSet.label_path 데이터셋 레이블폴더 위치 String ○ “OCR/Trade/2.json/” 5 DataSet.category 데이터셋 카테고리 Integer ○ 0: OCR 6 DataSet.type 데이터셋 타입 Integer ○ 1: 이미지 2 Images 이미지 1 Images.identifier 이미지 식별자(파일명) String ○ “IMG_OCR_6_T_00000” (데이터셋식별자_순번) 2 Images.type 이미지 파일 확장자 String ○ “PNG” 3 Images.width 이미지 가로 크기(픽셀) Integer ○ 예시: 1920 4 Images.height 이미지 세로 크기(픽셀) Integer ○ 예시: 1080 5 Images.form_type 물류 서류 유형 String ○ “상업송장”, “포장명세서”, “선하증권”, “원산지증명서”, “기타” 6 Images.data_captured 이미지 생성 일자 String 예시: “2022.08.19” 3 Annotation 어노테이션 정보 1 Annotation.object_recognition 객체 인식 Integer ○ 0: 바운딩박스 1: 4-point polygon 2 Annotation.text_language 라벨링 텍스트 대표 언어 Integer ○ 0: 한글 1: 한자 2: 영어 3: 기타 2 bbox 라벨링 정보 4 bbox[].id 바운딩박스 식별자 String ○ 예시: “7be8a852-6ad0-11ed-b8f7-257ccc8e23eb” 5 bbox[].data 바운딩박스 내 텍스트 String ○ 예시: “대한민국” 6 bbox[].x[] 바운딩박스 x 좌표 리스트 Integer ○ 예시: [100, 100, 200, 200] - 4개 7 bbox[].y[] 바운딩박스 y 좌표 리스트 Integer ○ 예시: [50, 100, 50, 100] - 4개 실제 예시
금융
{ "Annotation" : {
"object_recognition" : 1,
"text_language" : 0
},
"Dataset" : {
"category" : 0,
"identifier" : "IMG_OCR_6_F",
"label_path" : "금융_데이터/1_Training/2_라벨링데이터",
"name" : "대규모 OCR 데이터셋 (금융)",
"src_path" : "금융_데이터/1_Training/1_원천데이터",
"type" : 1
},
"Images" : {
"data_captured" : "2022.11.07",
"device_model" : 0,
"device_type" : 1,
"form_industry" : 0,
"form_type" : "제신고서",
"height" : 3508,
"identifier" : "IMG_OCR_6_F_0000002",
"type" : "PNG",
"width" : 2480,
"writer_age" : 3,
"writer_body" : 1,
"writer_experienced" : 1,
"writer_sex" : 0
},
"bbox" : [
{
"data" : "474387-05-714500",
"data_type" : 3,
"id" : 1,
"x" : [ 715, 715, 1155, 1155 ],
"y" : [ 1813, 1868, 1813, 1868 ]
},
{
"data" : "탕시우",
"data_type" : 0,
"id" : 2,
"x" : [ 1979, 1979, 2117, 2117 ],
"y" : [ 1809, 1870, 1809, 1870 ]
},
{
"data" : "부산광역시",
"data_type" : 0,
"id" : 3,
"x" : [ 629, 629, 853, 853 ],
"y" : [ 2219, 2281, 2219, 2281 ]
},
(하략)
}물류
{ "Annotation" : {
"object_recognition" : 1,
"text_language" : 0
},
"Dataset" : {
"category" : 0,
"identifier" : "IMG_OCR_6_F",
"label_path" : "금융_데이터/1_Training/2_라벨링데이터",
"name" : "대규모 OCR 데이터셋 (금융)",
"src_path" : "금융_데이터/1_Training/1_원천데이터",
"type" : 1
},
"Images" : {
"data_captured" : "2022.11.07",
"device_model" : 0,
"device_type" : 1,
"form_industry" : 0,
"form_type" : "제신고서",
"height" : 3508,
"identifier" : "IMG_OCR_6_F_0000002",
"type" : "PNG",
"width" : 2480,
"writer_age" : 3,
"writer_body" : 1,
"writer_experienced" : 1,
"writer_sex" : 0
},
"bbox" : [
{
"data" : "474387-05-714500",
"data_type" : 3,
"id" : 1,
"x" : [ 715, 715, 1155, 1155 ],
"y" : [ 1813, 1868, 1813, 1868 ]
},
{
"data" : "탕시우",
"data_type" : 0,
"id" : 2,
"x" : [ 1979, 1979, 2117, 2117 ],
"y" : [ 1809, 1870, 1809, 1870 ]
},
{
"data" : "부산광역시",
"data_type" : 0,
"id" : 3,
"x" : [ 629, 629, 853, 853 ],
"y" : [ 2219, 2281, 2219, 2281 ]
},
(하략)
} -
데이터셋 구축 담당자
수행기관(주관) : ㈜엔에이치엔다이퀘스트
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김경선 02-3470-4306 kksun@diquest.com 과제 총괄관리 수행기관(참여)
수행기관(참여) 기관명 담당업무 유니닥스주식회사 데이터셋 구축 총괄 관리, 원시데이터 수집/분석, 데이터 정제 및 가공데이터 1차 검수/교정, 데이터 2차 검수/교정, 데이터 최종 품질 검수 ㈜비타소프트 데이터 수집/가공/검수 ㈜소울북스 데이터 수집 ㈜코그넷9 학습모델 구현, 유효성 자가점검 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김경선 02-3470-4306 kksun@diquest.com
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.