KETI 지능정보 플래그십 R&D

인공지능 윤리 연구를 위한 비정형 텍스트 데이터셋

외부 데이터는 해당 기관의 이용정책과 다운로드 절차를 따라야 하며 AI 허브와 관련이 없음을 알려 드립니다. [저작권 및 이용정책 상세보기]

구축량
  • 1차년도: 뉴스기사 댓글 7,000만 건, 트위터 3,000만 건
  • 2차년도: 온라인 커뮤니티 (네이버, 다음 뉴스 기사) 댓글 4,500만 건
  • 3차년도: 온라인 커뮤니티 (네이버, 다음 뉴스 기사) 댓글 2,000만 건
대표 도면
image

 

필요성
  • 윤리 연구를 위하여 한국어로 이루어진 윤리/비윤리 데이터 말뭉치 구축 필요
  • 변형된 비윤리 표현과 문장을 연구하기 위해 사람들의 소통이 많은 사이트에서 데이터 수집 필요
  • 비속/비윤리 표현이 많은 특정 온라인 커뮤니티를 위주로 수집
  • 비윤리 상황으로는 욕설이 포함된 경우와 포함되지 않은 경우가 존재함
  • 문맥 탐지에 특화된 딥러닝 모델에 사용하기 위해서는 욕설을 포함하지 않은 문맥적 비윤리 데이터가 필요
  • 딥러닝 모델을 학습시키기 위해서는 다양한 패턴의 텍스트 데이터 확보가 중요
구축 내용
  • Text 파일 형식
  • 네이버 뉴스 기사에 등록된 댓글들과 한국어 트위터 사용자의 트윗들을 수집
  • 비속/비윤리적 표현의 빈도수가 많은 특정 온라인 커뮤니티의 댓글들을 수집하여 구축
  • 1차년도: 뉴스기사 댓글 7000만 건, 트위터 3000만 건
  • 2차년도: 온라인 커뮤니티 (네이버, 다음 뉴스 기사) 댓글 4,500만 건
  • 3차년도: 온라인 커뮤니티 (네이버, 다음 뉴스 기사) 댓글 2,000만 건
데이터 구조
  • 수집된 댓글 내용을 라인별로 저장함 
    - 예시) 
      : 이게 만민은 법 앞에서 평등하다는건가?
      : 이러니 북한이 남한을 만만하게 보는거다.. 뿌리가썩어가니 곧 쓰러진다는걸 알고...
      : 판사시키들 딸이 강간당하면?
      : 아마도 무기겠지..
활용 예시
  • 욕설이 포함되지 않은 비윤리 데이터는 문맥추출을 위한 딥러닝 모델 개발에 주요 데이터로 사용됨
  • long dependency problem은 딥러닝 모델의 큰 문제로 대두됨. 수집 데이터를 문장 길이에 따라 분류하여 길이에 특화된 딥러닝 모델을 개발할 수 있음

데이터 구축 담당자 표 (담당기관, 책임자명, 전화번호, 대표이메일)
담당기관 책임자명 전화번호 대표이메일
연세대학교 교수 한요섭 · emmous@yonsei.ac.kr
다운로드 폴더 구성정보

데이터 다운로드는 PC에서만 가능합니다.