#Évaluation LLM

1 messages · Page 1 of 1 (latest)

patent relic
#

Bonjour, j’ai besoin de votre aide sur une question à laquelle j’ai du mal à répondre. Comme tout le monde, je m’amuse à faire tourner des LLM en local sur mon ordi (Ollama) ou mon tel (plein d’apps). Mais le choix de ces LLM en termes de fournisseurs (Gemma, Qwen, Mistral, Phi, …), de taille (tant que ça rentre dans ma RAM) et de quantization (Q2, Q4, FP16, …) est tellement vaste que je n’arrive pas à me décider.

J’arrive à évaluer leur vitesse d’inférence convenablement, mais beaucoup moins leur pertinence/performance dans le contenu des réponses.

1/ J’ai cherché des benchs (Hugging Face Leaderboard par ex), mais je trouve rarement les combinaisons de LLM qui m’intéressent. Et c’est un peu la jungle! Existe-t-il un protocole me permettant de bencher moi-même les modèles que je fais tourner?
2/ J’ai tenté via un “grand” LLM (Copilot par ex) d’établir une liste de questions, une grille d’évaluation et de faire noter les réponses de chacun de mes modèles, mais les résultats sont surprenants (Copilot se note lui-même moins bien qu’un Mistral-small 24b par ex 😅).

Toute suggestion m’intéresse, merci 🙏

#

Intéressant, mais permet de bencher le hardware. Je cherche plutôt à évaluer le contenu des réponses de plusieurs LLM.

fallow sorrel
#

Test your prompts, agents, and RAGs. AI Red teaming, pentesting, and vulnerability scanning for LLMs. Compare performance of GPT, Claude, Gemini, Llama, and more. Simple declarative configs with command line and CI/CD integration : https://github.com/promptfoo/promptfoo

GitHub

Test your prompts, agents, and RAGs. AI Red teaming, pentesting, and vulnerability scanning for LLMs. Compare performance of GPT, Claude, Gemini, Llama, and more. Simple declarative configs with co...

patent relic
foggy spindle
#

This AI leaderboard shows comparison of capabilities, price and context window for leading commercial and open-source LLMs, based on the benchmark data provided in technical reports in 2025.

Comparison and ranking the performance of over 100 AI models (LLMs) across key metrics including intelligence, price, performance and speed (output speed - tokens per second & latency - TTFT), context window & others.

LLM Stats

Comprehensive AI (LLM) leaderboard with benchmarks, pricing, and capabilities. Compare leading LLMs with interactive visualizations, rankings and comparisons.

LMArena (anciennement Chatbot Arena) est une plateforme web publique qui évalue les grands modèles linguistiques (LLM) en proposant des duels. Les utilisateurs saisissent des questions auxquelles deux modèles anonymes proposent une réponse. Les utilisateurs votent pour le modèle ayant donné la meilleure réponse. L'identité des deux modè...