콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#한국어 지식기반 관계 데이터 # 인공지능 # AI 데이터셋 # 말뭉치 # 데이터 생태계

BETA 한국어 지식기반 관계 데이터

한국어 지식기반 관계 데이터 아이콘 이미지
  • 분야한국어
  • 유형 텍스트
구축년도 : 2022 갱신년월 : 2023-07 조회수 : 11,529 다운로드 : 863 용량 :

※ 23년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2023-07-31 데이터 개방(Beta Version)

    소개

    문장 내 등장하는 개체(Named Entity) 사이의 관계(Relation) 및 그 속성을 라벨링하여, 문맥 속에서 개체 간 관계 등 다양한 분야의 의미 기반 관계 분석이 가능한 인공지능 학습용 데이터셋을 구축함

    구축목적

    관계 추출에서 엔티티 간의 관계를 올바르게 이해하는지 평가할 수 있는 BERT-Ko-RE, KLUE-RE와 같은 유사한 데이터를 구축하며, 더 넓은 범위의 데이터를 구축하고자 함
  • ■ 데이터 통계 
     ○ 관계 용어별 통계 

    relation COUNT 비율
    against  330 0.02%
    hasAttribute 224,803 14.99%
    inFavorOf 27,991 1.87%
    isA 225,577 15.04%
    isAgainst 3,345 0.22%
    isCausedBy 133,874 8.92%
    isChildOf 6,532 0.44%
    isColleagueOf 28,126 1.88%
    isMemberOf 115,581 7.71%
    isOpponentOf 13,277 0.89%
    isParentOf 6,782 0.45%
    isPartOf 225,500 15.03%
    isPlaceOf 49,253 3.28%
    isRelativeOf 4,018 0.27%
    isSiblingOf 5,059 0.34%
    isSpouseOf 8,125 0.54%
    isTimeOf 60,324 4.02%
    isToBe 98,292 6.55%
    isUsedFor 113,211 7.55%
    no-Relation 150,000 10.00%
    1,500,000 100.00%

     

    관계 용어별 통계 그래프 이미지

     

     ○ 분야별 통계 

    일반   뉴스 위키
    IT_과학 29,417 105,151
    경제 21,582 60,741
    국제 26,505 48,922
    문화 11,964 169,891
    스포츠 16,207 40,964
    연예 29,881 92,041
    정치 44,358 65,662
    지역_사회 28,826 180,469
    일반 소계 208,740 763,841
    일반 총계 972581
    전문   논문 특허
    기계공학 5,102 52,263
    사회과학 16,310 - 
    의약학 20,556 203,834
    인문학 17,126  -
    전기전자 7,985 204,243
    전문 소계 67,079 460,340
    전문 총계 527419
  • ■ 활용 모델
     ○ 학습 모델

    모델명 방식 관련 링크
    RoBERTa 학습 및 테스트 https://klue-benchmark.com/

     

     ○ 학습 조건

    분류 비율
    학습 데이터 80%
    검증 데이터 10%
    테스트 데이터 10%

     

     ○ 학습 환경

      분류 모델명 갯수
    하드웨어 CPU Intel Xeon Processor (Skylake, IBRS) 1
    GPU Tesla V100 1
    RAM 32GB 6
     
      분 류 버 전
    소프트웨어 운영체제 Ubuntu 16.04.6 LTS
    CUDA 10.1

     

     ○ 학습모델 검증 및 평가 방법

    모델 방식 성능지표 설명
    RoBERTa 학습 및 테스트  Micro-F1-Score 학습 데이터, 검증 데이터, 테스트 데이터를 8:1:1로 랜덤 샘플링하여 데이터를 나누고, 학습시 검증 데이터를 활용하여 제일 좋은 모델을 선별한 다음 최종적으로 테스트 데이터로 Micro-F1-Score를 산출한다.
  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 관계 추출 정확성 Estimation klue/roberta-large F1-Score 0.65 점 0.8 점

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • ■ 데이터 설명
     ○ 원천데이터
       - 위키와 뉴스 데이터의 일반분야와, 논문, 특허의 전문분야로 구분하여 일반분야 100만건, 전문분야 50만건 구축. 
       - 원천데이터를 수집한 후 작업자가 작업이 가능한 형태로 문장을 분리하고, 특수문자 등 불필요한 요소들을 제거하여 Triple Set 구성이 가능한 형태로 원천데이터 작성. 
     
     ○ 데이터 구축
       - 작업자는 제시된 원천데이터로부터 Triple Set 구성이 가능한 문장을 선택
       - 해당 문장에서 subj_word, obj_word, 및 각 엔티티의 속성(subj_prop, obj_prop)를 선택
       - 각 엔티티의 속성에 맞는 관계(relation)을 라벨링

     

    ■ 데이터 구성

    항목 설정
    타입 유효값 null 설명
    id integer   n 트리플 고유번호
    doc_type string "위키", "논문",  n 원천데이터 문서 유형[wiki, patent, article, news]
    "특허", "뉴스" 
    doc_id string   n 원천데이터 문서 관리번호
    title string   n 문서 제목
    date string   n 문서 공개일[특허: 출원일, 논문: 출판일, wiki: 등록일, news: 공개일]
    publisher string   n 특허: 특허청, Wiki: wiki, 논문: 학회명, 뉴스: 언론사명
    reg_no string   y 특허: 등록번호, Wiki: wiki문서 ID
    (특허청 작성 기준에 따름)
    ipc string   y 국제특허분류(특허청 작성 기준에 따름)
    field string "IT_과학", "경제", "국제", "문화", "스포츠", "연예", "정치", "지역_사회", "인문학", "사회과학", "기계공학", "의약학", "전기전자" n 문서의 분야
    subfield string   y 문서 분야 중분류(필수아님, 특허, 논문의 경우 중분류 가능)
    sentence string   n 작업 대상인 1문장
    subj_start integer   n Subject 개체의 시작점
    subj_end integer   n Subject 개체의 종료점
    obj_start integer   n Object 개체의 시작점
    obj_end integer   n Object 개체의 종료점
    subj_word string   n Subject 개체
    subj_prop string "PS", "OG", "AF", "CV", "EV", "LC", "AM", "PT", "DT", "MT", "TM" n Subject 개체 속성
    obj_word string   n Object 개체
    obj_prop string "PS", "OG", "AF", "CV", "EV", "LC", "AM", "PT", "DT", "MT", "TM" n Object 개체 속성
    relation string "isA", "isPartOf", "isMemberOf", "isCausedBy", "hasAttribute", n Subject, Object 관계
     
    "isParentOf", "isChildOf",
    "isSiblingOf", "isSpouseOf",
    "isRelativeOf", "isColleagueOf", "isOpponentOf",
    "noRelation",
    "isUsedFor", "inFavorOf",
    "against", "isPlaceOf",
    "isTimeOf", "isToBe",

     

    ■ 어노테이션 포멧

    구분 속성명 타입 필수 설명
    1 id integer y 트리플 고유번호
    2 doc_type string y 원천데이터 문서 유형[위키, 특허, 논문, 뉴스]
    3 doc_id string y 원천데이터 문서 번호
    4 title string y 문서 제목
    5 date string y 문서 공개일[특허: 출원일, 논문: 출판일, wiki: 등록일, news: 공개일]
    6 publisher string y 특허: 특허청, Wiki: wiki, 논문: 학회명, 뉴스: 언론사명
    7 reg_no string y 특허: 등록번호, Wiki: wiki문서 ID
    8 ipc string y 국제특허분류
    9 field string y 문서의 분야
    10 subfield string y 문서 분야 중분류(필수아님)
    11 sentence string y 작업 대상인 1문장
    12 subj_start integer y Subject 개체의 시작점
    13 subj_end integer y Subject 개체의 종료점
    14 obj_start integer y Object 개체의 시작점
    15 obj_end integer y Object 개체의 종료점
    16 subj_word string y Subject 개체
    17 subj_prop string y Subject 개체 속성
    18 obj_word string y Object 개체
    19 obj_prop string y Object 개체 속성
    20 relation string y Subject, Object 관계

     

    ■ 실제 예시

    실제 예시 이미지

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜비네아
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    윤철웅 042-716-0095 yuncw@vinea.co.kr 사업관리, 라벨링 데이터 구축
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    이지메타(주) 원시데이터 수집 및 정제, 라벨링 데이터 구축
    ㈜무하유 유효성 검증
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    윤철웅 042-716-0095 yuncw@vinea.co.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.