Bonjour, j’ai besoin de votre aide sur une question à laquelle j’ai du mal à répondre. Comme tout le monde, je m’amuse à faire tourner des LLM en local sur mon ordi (Ollama) ou mon tel (plein d’apps). Mais le choix de ces LLM en termes de fournisseurs (Gemma, Qwen, Mistral, Phi, …), de taille (tant que ça rentre dans ma RAM) et de quantization (Q2, Q4, FP16, …) est tellement vaste que je n’arrive pas à me décider.
J’arrive à évaluer leur vitesse d’inférence convenablement, mais beaucoup moins leur pertinence/performance dans le contenu des réponses.
1/ J’ai cherché des benchs (Hugging Face Leaderboard par ex), mais je trouve rarement les combinaisons de LLM qui m’intéressent. Et c’est un peu la jungle! Existe-t-il un protocole me permettant de bencher moi-même les modèles que je fais tourner?
2/ J’ai tenté via un “grand” LLM (Copilot par ex) d’établir une liste de questions, une grille d’évaluation et de faire noter les réponses de chacun de mes modèles, mais les résultats sont surprenants (Copilot se note lui-même moins bien qu’un Mistral-small 24b par ex 😅).
Toute suggestion m’intéresse, merci 🙏