#Évaluation LLM

1 messages · Page 1 of 1 (latest)

patent relic Aug 12, 2025, 12:12 PM

Bonjour, j’ai besoin de votre aide sur une question à laquelle j’ai du mal à répondre. Comme tout le monde, je m’amuse à faire tourner des LLM en local sur mon ordi (Ollama) ou mon tel (plein d’apps). Mais le choix de ces LLM en termes de fournisseurs (Gemma, Qwen, Mistral, Phi, …), de taille (tant que ça rentre dans ma RAM) et de quantization (Q2, Q4, FP16, …) est tellement vaste que je n’arrive pas à me décider.

J’arrive à évaluer leur vitesse d’inférence convenablement, mais beaucoup moins leur pertinence/performance dans le contenu des réponses.

1/ J’ai cherché des benchs (Hugging Face Leaderboard par ex), mais je trouve rarement les combinaisons de LLM qui m’intéressent. Et c’est un peu la jungle! Existe-t-il un protocole me permettant de bencher moi-même les modèles que je fais tourner?
2/ J’ai tenté via un “grand” LLM (Copilot par ex) d’établir une liste de questions, une grille d’évaluation et de faire noter les réponses de chacun de mes modèles, mais les résultats sont surprenants (Copilot se note lui-même moins bien qu’un Mistral-small 24b par ex 😅).

Toute suggestion m’intéresse, merci 🙏

Proposition de @fallow sorrel :

AI Benchmark Alpha is an open source python library for evaluating AI performance of various hardware platforms, including CPUs, GPUs and TPUs :
https://github.com/cloudmercato/ai-benchmark?

GitHub

GitHub - cloudmercato/ai-benchmark

Contribute to cloudmercato/ai-benchmark development by creating an account on GitHub.

Intéressant, mais permet de bencher le hardware. Je cherche plutôt à évaluer le contenu des réponses de plusieurs LLM.

fallow sorrel Aug 12, 2025, 12:51 PM

patent relic Intéressant, mais permet de bencher le hardware. Je cherche plutôt à évaluer le ...

A framework for few-shot evaluation of language models : https://github.com/EleutherAI/lm-evaluation-harness ?

GitHub

GitHub - EleutherAI/lm-evaluation-harness: A framework for few-shot...

A framework for few-shot evaluation of language models. - EleutherAI/lm-evaluation-harness

Test your prompts, agents, and RAGs. AI Red teaming, pentesting, and vulnerability scanning for LLMs. Compare performance of GPT, Claude, Gemini, Llama, and more. Simple declarative configs with command line and CI/CD integration : https://github.com/promptfoo/promptfoo

GitHub

GitHub - promptfoo/promptfoo: Test your prompts, agents, and RAGs. ...

patent relic Aug 12, 2025, 10:26 PM

fallow sorrel A framework for few-shot evaluation of language models : https://github.com/Eleu...

Celui-là, c’est justement le projet qui permet d’alimenter le leaderboard de Hugging Face 😍 Plutôt intimidant pour mon niveau.

foggy spindle Aug 20, 2025, 8:27 AM

🌐 Sites et Benchmarks LLM

📊 Leaderboards généraux

🧠 Benchmarks spécialisés

📚 Benchmarks fondamentaux

LLM Leaderboard 2025

This AI leaderboard shows comparison of capabilities, price and context window for leading commercial and open-source LLMs, based on the benchmark data provided in technical reports in 2025.

LLM Leaderboard - Comparison of over 100 AI models from OpenAI, Goo...

Comparison and ranking the performance of over 100 AI models (LLMs) across key metrics including intelligence, price, performance and speed (output speed - tokens per second & latency - TTFT), context window & others.

LLM Stats

LLM Leaderboard 2025 - Compare LLMs

Comprehensive AI (LLM) leaderboard with benchmarks, pricing, and capabilities. Compare leading LLMs with interactive visualizations, rankings and comparisons.

The Big Benchmarks Collection - a open-llm-leaderboard Collection

LMArena

LMArena (anciennement Chatbot Arena) est une plateforme web publique qui évalue les grands modèles linguistiques (LLM) en proposant des duels. Les utilisateurs saisissent des questions auxquelles deux modèles anonymes proposent une réponse. Les utilisateurs votent pour le modèle ayant donné la meilleure réponse. L'identité des deux modè...