AI Starthon 2019

소개
목적
  • 우리가 품고 있는 잠재적 능력을 얼마나 보여 줄 수 있을까요? 어쩌면 그 가능성을 보여 줄 수 있는 기회가 없던 것은 아닐까요?
  • 인공지능을 통해 다양하고 창의적인 방법으로 문제를 해결해 보세요. AI를 활용한 아이디어와 경험을 현실로 만들 수 있도록 과학기술정보통신부에서 지원합니다.
  • 여러분의 반짝이는 아이디어를 발굴하여 비즈니스적 가치를 높이고 기술의 완성도를 높일 수 있도록 과학기술정보통신부에서 AI Starthon을 진행하였습니다.

 

 

ai starthon 2019

미션
  • 7개의 주제와 20개의 문제로 진행하였습니다.
    • 1.에너지 및 대기환경 관련 시계열 예측 문제
    • 2.공정데이터 시계열 데이터 예측 문제
    • 3.사물 분류 / 조회 / 영역 추출 문제
    • 4.경량화 영역 추출 문제
    • 5.사람 얼굴 관련 분류 / 복원 / 생성 문제
    • 6.자연어 이해 및 QA 문제
    • 7.사람 음성 이해 문제

 

진행사항 및 심사기준
  • 운영방식
    • 1. 그룹 1: 예비창업기업 또는 창업 내 3년 미만 기업
    • 2. 그룹 2: 창업 후 3년 이상 된 기업
      • ❖  그룹 1과 그룹2는 별개의 리그로 운영 합니다.

 

  • 경진대회
    • 약 20개 주제 중 한 팀당 최대 3개 주제 지원 가능
    • 주제별 문제에 대한 누적점수로 최종 순위 반영
    • 상위 30팀 선발 ( 그룹 1: 상위 22 팀 / 그룹 2: 상위 8팀 )
미세먼지 예측
  • 문제정의: 지역과 날짜 그리고 이전시간대의 미세&초미세 먼지로 부터 다음 시간의 미세&초미세 예측
    • Input: 지역, 날짜, t-5 ~ t-1 시간대의 미세 및 초미세 먼지량
    • Output: t시간대의 미세 및 초미세먼지
    • Metric: Weighted MSE (0.3*미세먼지차이 + 0.7*초미세먼지 차이)
  • 데이터 소스: K-weather & 네이버 자체 보관
  • 데이터 스펙
    • 훈련 및 평가 : TBD
    • 훈련 데이터내에서 자체 분할 통한 검증 셋 활용
정상적인 센서로부터 크레인 동작 정상/비정상 예측 A사
  • 문제정의: 크레인 센서 데이터로 부터 동작의 정상/비정상 여부
    • Input: 센서의 FFT데이터이며 시간은 유동적 F=500
    • Output: 정상/비정상 구분
    • Metric: ROC
  • 데이터소스: 엠아이큐브
  • 데이터스펙
    • 각 데이터는 0.5초 주기로 2048개씩 샘플링한 진동 데이터를 FFT한 데이터
    • 훈련 데이터: 훈련 50개 모두 정상 / 10개는 정상/비정상 섞임
정상적인 센서로부터 크레인 동작 정상/비정상 예측 B사
  • 문제정의: 크레인 센서 데이터로 부터 동작의 정상/비정상 여부
    • Input: 센서의 FFT데이터이며 시간은 유동적 F=6150
    • Output: 각 step마다 [정상/비정상A/비정상B/비정상C/비정상D/비정상E/비정상F]의 7 class의 예측 확률
    • Metric: 7클래스 평균 acc
  • 데이터소스: 엠아이큐브
  • 데이터스펙
    • 훈련 데이터: 48개의 정상 11개의 비정상 (각 파일의 step은 유동적)
    • 평가: 1127 step이 정상과 비정상이 섞여 있음
음식 사진으로 음식 종류 분류
  • 문제정의: 주어진 음식 이미지로 부터 해당 메인 음식이 무엇인지 분류
    • Input: 음식 사진
    • Output: 음식 카테고리
    • Metric: 음식 카테고리 전체에 대한 평균 F1
  • 데이터소스: AI-Hub
  • 데이터 스펙
    • 150개 종류, 종류별 100장 약 150만장 중 샘플링, 추가 구축한 데이터 평가에 활용
    • 훈련/평가 : TBD
    • 훈련 데이터내에서 자체 분할 통한 검증 셋 활용
사람 이미지로부터 얼굴인식 분류하기
  • 문제정의: 사람 사진이 주어질 때 (노이즈 추가) 사람이 누구인지 분류
    • Input: 사람 사진
    • Output: 갤러리에 포함된 사람 중 1인 분류
    • Metric: 인물별 평균 F1
  • 데이터소스: AI-Hub
  • 데이터스펙
    • 인물: 200명중 일부를 샘플링하여 훈련과 평가로 분할 예정
    • 훈련/평가: TBD
    • 훈련 데이터내에서 자체 분할 통한 검증 셋 활용
주어진 음식메뉴사진과 동일한 메뉴 사진조회
  • 문제정의: 주어진 음식 이미지로 부터 해당 메인 음식과 동일한 메뉴 사진 조회
    • Input: 음식 사진
    • Output: 입력과 동일한 메뉴 사진
    • Metric: 평균 1-NN accuracy (R@1)
  • 데이터소스: AI-Hub
  • 데이터 스펙
    • 150개 종류, 종류별 100장 약 150만장 중 샘플링, 추가 구축한 데이터 평가에 활용
    • 훈련/평가: 150개 종류 (10여만장) / 113종류(약 1800장)
    • 훈련 데이터내에서 자체 분할 통한 검증 셋 활용
주어진 차량 모델 사진과 동일한 차량 조회
  • 문제정의: 주어진 차량 이미지로 부터 해당 차량과 동일한 차량 사진 조회
    • Input: 차량 사진
    • Output: 입력과 동일한 차량 사진
    • Metric: 평균 1-NN accuracy ( R@1)
  • 데이터소스: AI-Hub
  • 데이터스펙
    • 100종류, 차량당 500장 = 50,000 + 자체구축 데이터
    • 훈련/평가: 84종류 (5.3만장) / 78종류(약 1만장)
    • 훈련 데이터내에서 자체 분할 통한 검증 셋 활용
사진 내의 음식 영역 추출하기
  • 문제정의: 주어진 음식 이미지로 부터 해당 메인 음식의 영역 추출(Detection)
    • Input: 음식 사진
    • Output: 메인 음식의 좌측상단 x, y 좌표, 가로, 세로
    • Metric: 평균 loU
  • 데이터소스: AI-Hub
  • 데이터 스펙
    • 150개 종류, 종류별 100장 약 150만장 중 샘플링, 추가 구축한 데이터 평가에 활용
    • 훈련/평가: TBD
    • 훈련 데이터내에서 자체 분할 통한 검증 셋 활용
5M이내 사진 내의 음식 영역 추출하기
  • 문제정의: 파라미터 수 5M이내 주어진 음식 이미지로 부터 해당 메인 음식의 영역 추출(Detection)
    • Input: 음식 사진
    • Output: 메인 음식의 좌측상단 x, y 좌표, 가로, 세로
    • Metric: 평균 loU
  • 데이터소스: AI-Hub
  • 데이터스펙
    • 150개 종류, 종류별 100장 약 150만장 중 샘플링 추가, 구축한 데이터 평가에 활용
    • 훈련/평가: TBD
    • 훈련 데이터내에서 자체 분할 통한 검증 셋 활용
주어진 차량 사진에서 차량영역 추출
  • 문제정의: 주어진 차량 이미지로 부터 차량의 영역 추출
    • Input: 차량 사진
    • Output: 차량의 좌측상단 x, y 좌표, 가로, 세로
    • Metric: 평균 loU
  • 데이터소스: AI-Hub
  • 데이터스펙
    • 100종류, 차량당 500장 = 50,000 + 자체구축 데이터
    • 훈련/평가: TBD
    • 훈련 데이터내에서 자체 분할 통한 검증 셋 활용
5M이내 주어진 차량 사진에서 차량영역 추출
  • 문제정의: 5M이내로 주어진 차량 이미지로 부터 차량의 영역 추출
    • Input: 차량 사진
    • Output: 차량의 좌측상단 x, y 좌표, 가로, 세로
    • Metric: 평균 loU
  • 데이터소스: AI-Hub
  • 데이터스펙
    • 100종류, 차량당 500장 = 50,000 + 자체구축 데이터
    • 훈련/평가: TBD
    • 훈련 데이터내에서 자체 분할 통한 검증 셋 활용
5M이내 얼굴 사진 가려진 부분 복원하기
  • 문제정의: 가려진 사람 사진이 주어질 때 사진의 원본을 복원
    • Input: 가려진 인물 사진
    • Output: 복원된 인물 사진
    • Metric: 복원부분 평균 L1
  • 데이터소스: AI-Hub
  • 데이터스펙
    • 인물: 200명중 일부를 샘플링하여 훈련과 평가로 분할 예정
    • 훈련/평가: TBD
    • 훈련 데이터내에서 자체 분할 통한 검증 셋 활용
주어진 얼굴 이미지의 얼굴해상도 증가
  • 문제정의: 가려진 사람 사진이 주어질 때 인물 사진의 원본을 복원
    • Input: 저해상도 인물 사진
    • Output: 4배 고해상도 인물 사진
    • Metric: PSNR
  • 데이터소스: AI-Hub
  • 데이터스펙
    • 인물: 200명중 일부를 샘플링하여 훈련과 평가로 분할 예정
    • 훈련/평가: 48000 / 10000
    • 훈련 데이터내에서 자체 분할 통한 검증 셋 활용
동영상 등장 인물의 감정상태 예측
  • 문제정의: 동영상이 주어질 때 동영상에 등장하는 인물의 감정상태를 분류
    • Input: 연속된 n장의 이미지 프레임
    • Output: 8개 감정상태 중 1개 분류
    • Metric: 감정 평균 F1
  • 데이터소스: AI-Hub
  • 데이터스펙
    • 이미지: 180*320 RGB
    • 훈련/평가: 25000 / 3000
    • 훈련 데이터내에서 자체 분할 통한 검증 셋 활용 
동영상 등장 인물의 나이 예측
  • 문제정의: 동영상이 주어질 때 동영상에 등장하는 인물의 나이대를 분류
    • Input: 연속된 n장의 이미지 프레임
    • Output: 6개 나이대 중 1개 분류
    • Metric: 나이대 평균 F1
  • 데이터소스: AI-Hub
  • 데이터스펙
    • 이미지: 180*320 RGB
    • 훈련/평가: 25000 / 3000
    • 훈련 데이터내에서 자체 분할 통한 검증 셋 활용
네이버 영화 리뷰에 대한 평점 예측
  • 문제정의: 네이버 영화 리뷰글로 부터 평점을 예측
    • Input: 네이버 영화 리뷰 문장
    • Output: 평점(0~10점 분류)
    • Metric: 평점별 평균 F1
  • 데이터소스: 네이버 자체 구축 데이터
  • 데이터스펙
    • 영화 54,183편에 대한 사용자 리뷰 및 평점 데이터
    • 훈련 데이터: 10,590,715, 평가 데이터: 1,397,122
    • 훈련 데이터내에서 자체 분할 통한 검증 셋 활용
일상 대화 텍스트로부터 의도 분류하기
  • 문제정의: 일상 대화 발화 텍스트가 주어졌을 때 화자의 의도 분류
    • Input: 일상대화 발화 텍스트 문장
    • Output: 화자의 의도 (의도 클래스 약 2000개)
    • Metric: 의도별 평균 F1
  • 데이터소스: AI-Hub
  • 데이터스펙
    • AI-Hub 일상 대화 텍스트 + 자체 구축
    • 훈련 데이터: 약 40000개 / 평가 데이터: 약 4000개
    • 훈련 데이터와 분리된 검증 데이터 4000개 제공
사용자 질의로부터 동일한 질문 여부 분류하기
  • 문제정의: 두 개의 사용자 질의가 동일한 질의인지를 판단
    • Input: 사용자 질의 쌍
    • Output: 동일여부
    • Metric: F1
  • 데이터소스: 네이버 질의 데이터
  • 데이터스펙
    • 훈련 데이터: 11만쌍, 평가 데이터: 2만쌍
    • 훈련 데이터 외에 분할된 검증 데이터 2만쌍 제공
한국어 뉴스 MRC 데이터로부터 질의에 대한 응답
  • 문제정의: 뉴스 본문에 대한 질의가 주어질 때 정확한 답을 제공
    • Input: 사용자 질의 쌍
    • Output: 동일여부
    • Metric: 음절단위 F1
  • 데이터소스: 네이버 질의 데이터
  • 데이터스펙
    • AI-Hub MRC데이터 + 뉴스기반 자체 구축 발화 데이터
    • 훈련 데이터: 240000, 평가 데이터: 12000
    • 훈련 데이터로부터 분할된 검증 데이터 15000개 제공
한국어 음성데이터로부터 음성인식 결과 예측
  • 문제정의: 조용한 환경에서 자유 발화 음성을 텍스트로 전사
    • Input: 16KHz/16bits WAV
    • Output: 전사된 발화 Text
    • Metric: CER
  • 데이터소스: AI-Hub
  • 데이터스펙
    • 전처리: 마침표, 물음표만 사용(느낌->마침), 쉼표제거, 공백은 성능측정 제외
    • 훈련 데이터: 150시간, 평가 데이터: 10시간
    • 훈련 데이터에서 자체 검증 셋 활용

사업화 지원금 응모 자격 부여 받은 팀 순위(리그1: 22등 까지, 리그2: 8등 까지)