Modèles de niveau S : GLM et... | Teknium (e/λ) OKX Feed

Il y a 3 mois, j'ai réalisé que j'étais désespérément dépendant de sociétés qui ne se soucient que du pouvoir, de l'argent et du contrôle. À ce stade, Cursor, Claude, OpenAI, avaient tous durci leurs plans illimités. Je voulais un Mac M3 Ultra avec 512 Go de RAM. Ahmad et Pewdiepie m'ont convaincu du contraire. Voici ce que j'ai appris en construisant mon propre Rig AI ----------------------------- La Construction (3000 $ - 10000 $) C'est la meilleure performance que vous pouvez obtenir en dessous de 10k USD • 4x RTX 3090 avec 2x NVLink • CPU Epyc avec 128 lignes PCIe • 256-512 Go de RAM DDR4 • Carte mère Romed8-2T • Rack personnalisé + refroidissement par ventilateur • Alimentation AX1600i + risers de qualité Coût : 5000 $ aux États-Unis, 8000 $ en Europe (merci la TVA) Vérification de la Réalité de la Performance Plus de 3090 = modèles plus grands, mais les rendements décroissants s'installent rapidement. Prochaine étape : 8-12 GPU pour AWQ 4 bits ou BF16 Mix GLM 4.5-4.6 Mais à ce stade, vous avez atteint les limites du matériel grand public. ---------------------------------------- Modèles qui fonctionnent : Modèles S-Tier (Le Standard d'Or) • GLM-4.5-Air : Équivaut à Sonnet 4.0, code sans faille, atteint jusqu'à 50 tps et 4k/s préremplissage avec vLLM • Hermes-70B : Vous dit tout sans jailbreak Boulots A-Tier • Ligne Qwen • Ligne Mistral • GPT-OSS Options B-Tier • Ligne Gemma • Ligne Llama ------------------------------------ La Pile Logicielle Qui Fonctionne Réellement Pour le codage/agents : • Claude Code + Routeur (GLM-4.5-Air fonctionne parfaitement) • Orchestrateur Roocode : Définir les modes (codage, sécurité, réviseur, chercheur) L'orchestrateur gère la portée, lance des LLM locaux avec un contexte fragmenté, puis synthétise les résultats. Vous pouvez utiliser GPT-5 ou Opus/GLM-4.6 comme orchestrateur, et des modèles locaux pour tout le reste ! Options de Scaffolding (Classées) 1. vLLM : Performance de pointe + convivialité, extrêmement rapide si le modèle s'adapte 2. exllamav3 : Beaucoup plus rapide, toutes tailles de quantification, mais mauvais scaffolding 3. llama.cpp : Début facile, bonnes vitesses initiales, se dégrade avec le contexte Recommandations UI • lmstudio : Verrouillé sur llama.cpp mais excellente UX • 3 Sparks : Application Apple pour LLM locaux • JanAI : Bien mais limité en fonctionnalités ------------------------------- Conclusion Le Mac Ultra M3 vous offre 60-80 % de performance avec accès MLX. Mais si vous voulez le meilleur absolu, vous avez besoin de Nvidia. Ce voyage m'a appris : la véritable indépendance vient de la compréhension et de la construction de vos propres outils. Si vous êtes intéressé par des benchmarks, j'en ai posté beaucoup sur mon profil.

7,07 k

Le contenu de cette page est fourni par des tiers. Sauf indication contraire, OKX n’est pas l’auteur du ou des articles cités et ne revendique aucun droit d’auteur sur le contenu. Le contenu est fourni à titre d’information uniquement et ne représente pas les opinions d’OKX. Il ne s’agit pas d’une approbation de quelque nature que ce soit et ne doit pas être considéré comme un conseil en investissement ou une sollicitation d’achat ou de vente d’actifs numériques. Dans la mesure où l’IA générative est utilisée pour fournir des résumés ou d’autres informations, ce contenu généré par IA peut être inexact ou incohérent. Veuillez lire l’article associé pour obtenir davantage de détails et d’informations. OKX n’est pas responsable du contenu hébergé sur des sites tiers. La détention d’actifs numériques, y compris les stablecoins et les NFT, implique un niveau de risque élevé et leur valeur peut considérablement fluctuer. Examinez soigneusement votre situation financière pour déterminer si le trading ou la détention d’actifs numériques vous convient.