KETI 지능정보 플래그십 R&D

구축량
  • MS COCO 캡셔닝 데이터(이미지 약 12만장) 1차 한국어 기계번역 완료, 기계번역 오류 수정
대표 도면
image

 

필요성
  • 해외 주요국가에서는 시각지능 분야에서 인공지능(AI) 기술개발을 위한 기계학습 데이터 구축 등 관련 인프라를 확보하여 개방
  • 미국 ImageNet은 22,000개의 범주로 분류된 약 1,500만장의 이미지를 무료로 개방하여 시각 지능 기술 발전의 기초를 제공
  • 국내 인공지능 기술의 활성화를 위해서는 무엇보다 기계학습에 활용할 다양한 패턴의 고품질 이미지 데이터 확보가 중요
  • 기존 공개된 이미지 데이터베이스(ImageNet 등)에서 다루지 않은 국내 특화 서비스 및 데이터 개방을 위한 고유의 특성을 가진 이미지 데이터의 구축 필요
구축 내용
image

 

특허 데이터 구축내용 표 (구축년도,데이터종류,포함내용,제공방식)
1 빨간 헬멧을 쓴 남자가 작은 오토바이를 타고 비포장 도로에 있다
2 시골의 비포장 도로에서 오토바이를 타는 남자
3 오토바이 뒤에 탄 남자
4 오토바이 위에 젊은이가 탄 비포장 도로는 다리가 있는 초록빛 지역의 전경과 구름 낀 산의 배경이 있다
5 빨간 셔츠와 빨간 모자를 쓴 남자가 언덕 쪽 오토바이 위에 있다
  • MS COCO의 영어 캡션을 한국어 문장으로 번역
  • 추후 국내 환경에 적합한 고품질 이미지 데이터 구축 필요 
데이터 구조
  • JSON 구조의 메타정보로 이미지 연관 정보 전달 (UTF-8)

{ 
    "file_path": "val2014/COCO_val2014_000000391895.jpg",

    "id": 391895,

    "captions": [
        "A man with a red helmet on a small moped on a dirt road. ", 
        "Man riding a motor bike on a dirt road on the countryside.", 
        "A man riding on the back of a motorcycle.", 
        "A dirt path with a young person on a motor bike rests to the foreground of a verdant area with a bridge and a background of cloud-wreathed mountains. ", 
        "A man in a red shirt and a red hat is on a motorcycle on a hill side."
    ],

    "caption_ko": [
        "빨간 헬멧을 쓴 남자가 작은 오토바이를 타고 비포장 도로에 있.", 
        "시골의 비포장 도로에서 오토바이를 타는 남자", 
        "오토바이 뒤에 탄 남자", 
        "오토바이 위에 젊은이가 탄 비포장 도로는 다리가 있는 초록빛 지역의 전경과 구름 낀 산의 배경이 있다.", 
        "빨간 셔츠와 빨간 모자를 쓴 남자가 언덕 쪽 오토바이 위에 있다."
    ]
}

활용 예시
  • 비전 정보기반 상황 설명
    (1-1) 시각 장애인용 스마트 글래스
    (1-2) 자동차 주행 중 측/후면 상황 설명
    (1-3) 가정용/보안용 CCTV영상-음성 변환
    (1-4) 영상 컨텐츠 자막 자동 생성
    (1-5) 영상 컨텐츠 줄거리 요약
  • 이미지 태깅
    (2-1) 대량의 이미지 데이터셋 자동 생성 ex. 뉴럴 네트워크용 데이터셋
    (2-2) 검색 엔진 등에서의 이미지 문장 검색 서비스
    (2-3) 데일리 로그 자동 생성 (얼굴 인식,메타데이터(gps,촬영 시간 등) 정보를 함께 이용하여 촬영 영상의 설명을 자동 저장)
데이터 구축 담당자 표 (담당기관, 책임자명, 전화번호, 대표이메일)
담당기관 책임자명 전화번호 대표이메일
전자부품연구원 김보은 · kbe36@keti.re.kr
구축량
  • 1차년도: 인물 14명 시내코스 30-45분 주행  데이터
필요성
  • 해외 주요국가에서는 시각지능 분야에서 인공지능(AI) 기술개발을 위한 기계학습 데이터 구축 등 관련 인프라를 확보하여 개방
  • 국내 인공지능 기술의 활성화를 위해서는 무엇보다 기계학습에 활용할 다양한 패턴의 고품질 이미지 데이터 확보가 중요
  • 공개된 얼굴 인식 데이터베이스들에서는 주로 백인 얼굴 데이터에 치중된 분포를 지니고 있기 때문에 한국인에게 맞는 기술을 개발하기 위해서는 한국인에게서 취득한 얼굴 데이터의 구축 필요
구축내용
자동차 환경 인물 인식용 데이터셋자동차 환경 인물 인식용 데이터셋자동차 환경 인물 인식용 데이터셋자동차 환경 인물 인식용 데이터셋

 

  • 주행 상황에서 운전자의 상태를 확인하기 위해 한국인 얼굴 인식 기능 개발을 위해 필요한 이미지 데이터의 제작, 수집하고 관련 정보를 레이블링
  • 얼굴 데이터의 실효성 제고를 위해 다양한 각도, 조도, 가림, 표정등을 반영한 12명의 얼굴(인당 약 1천장)의 이미지 데이터 제작
  • 국내 인공지능 기술의 활성화를 위해서는 무엇보다 기계학습에 활용할 다양한 패턴의 고품질 이미지 데이터 확보가 중요
  • 얼굴 인식 및 얼굴의 위치까지 확인하기 위하여 바운딩 박스를 이용하여 얼굴의 위치까지 태깅
데이터 구조
  • 각 이미지 파일마다 해당 파일과 동일한 이름의 텍스트 파일로 얼굴의 위치를 표시
  • 형식은 레이블, 바운딩 박스 중심의 가로 세로 위치와 바운딩 박스의 가로 세로 크기를 순서대로 표시
  • 숫자는 해당 좌표를 이미지 전체 크기로 나눈 값
    예시) 파일명 “1_1.txt”, 내용 “0 0.317592 0.480555 0.237037 0.237037”
데이터 구축 담당자 표 (담당기관, 책임자명, 전화번호, 대표이메일)
담당기관 책임자명 전화번호 대표이메일
연세대학교 백경준 · bkjbkj12@yonsei.ac.kr
구축량
  • 연기 지망생/연기 전문가  100명, 7가지 감정에 대해 약 100번씩 발화 및 연기, 총 10,351개 영상
필요성
  • 이미지 감정인식 관련 기존 공개 데이터중 FER2013의 경우 감정별로 데이터 개수가 큰 차이를 보이며 저화질 데이터로 얼굴 감정 인식에 적합하지 않음. 한편 SFEW와 같은 고화질 데이터셋의 경우 2,000건 정도의 규모에 그침
  • 멀티모달 데이터의 측면에서 바라보면, 발화 단위의 감정 데이터까지 포함하고 있는 데이터셋은 CMU-MOSI (Zadeh et al., 2016b) 정도이나 발화 도메인이 영화 리뷰로 한정되어 있기 때문에 감정 분류도 긍정/부정 레벨에 머물러 있음
구축 내용

 

  • 감정 유추가 가능한 대화 데이터를 사람이 연기하여 결과를 저장하고, 동시에 해당 데이터의 감정 상태와 감정 주체 부여
  • 연기 지망생/연기 전문가 100명 대상, 7가지 감정에 대해 1인당 약 100번씩 발화 및 연기 수행, 총 10,351개 영상 구축
데이터 구조
  •  참가자별 나이/성별 정보는 participant_info.xlsx 파일에서 확인
  •  영상 포맷 : FHD, 30fps, m2ts format
  •  음성 포맷 : 16 bit, 48 KHz으로 영상에 포함
  •  텍스트 : 총 350개의 상황 준비 (script.hwp 참조)
  •  영상 파일명은 참가자번호-문장번호 로 되어있으며 문장번호별 감정은 하기와 같음 
    1~50 : Happiness
    51~100 : Surprise
    101~150 : Neutral
    151~200 : Fear
    201~250 : Disgust
    251~300 : Anger
    301~350 : Sadness
데이터 구축 담당자 표 (담당기관, 책임자명, 전화번호, 대표이메일)
담당기관 책임자명 전화번호 대표이메일
㈜ 아크릴 이세화 · green@iacryl.com

데이터셋 신청 심사가 완료되었습니다.