K-AI Leaderboard 시범운영 안내(25.12.31)
'K-AI 리더보드'에서 LLM 모델을 업로드하고 공정한 환경에서 성능을 평가 받아보세요.
- LLM 모델 성능을 5가지 지표로 평가합니다. 성능지표 및 주요내용
1) KoMMLU-Pro / 한국어 기반 다분야 지식 및 상식
2) CliCK / 한국어문화 및 언어적 특성 이해도
3) HLE(Ko) / 고난도 논리 및 추론 능력
4) MuSR(Ko) / 복합 문맥 이해 및 다단계 추론
5) Com2-main(Ko) / 상황 맥락 및 대화 의도 파악
- 참여방법
1) 허깅페이스 제출 / 2) 도커 이미지 제출 중 1개 방식 선택
K-AI Leaderboard 바로가기
* 평가를 위한 데이터셋은 비공개 처리되어 있으며, 평가에 대한 더 자세한 내용은 리더보드 소개에서 확인해보실 수 있습니다.