S Tier Modellen: GLM en Hermes 👀👀🔥🥰
3 maanden geleden realiseerde ik me dat ik hopeloos afhankelijk was van bedrijven die alleen om macht, geld en controle geven.
Op dit punt hadden Cursor, Claude, OpenAI, allemaal hun onbeperkte plannen stopgezet.
Ik wilde een Mac M3 Ultra met 512GB RAM. Ahmad en Pewdiepie overtuigden me anders.
Dit is wat ik leerde bij het bouwen van mijn eigen AI Rig
-----------------------------
De Build ($3K-$10K)
Dit is de top prestatie die je kunt krijgen onder de 10k USD
• 4x RTX 3090's met 2x NVLink
• Epyc CPU met 128 PCIe lanes
• 256-512GB DDR4 RAM
• Romed8-2T moederbord
• Aangepaste rack + ventilator koeling
• AX1600i PSU + kwaliteits risers
Kosten: $5K in de VS, $8K in de EU (dankzij BTW)
Prestatie Realiteitscheck
Meer 3090's = grotere modellen, maar de afnemende rendementen treden snel in.
Volgende stap: 8-12 GPU's voor AWQ 4-bit of BF16 Mix GLM 4.5-4.6
Maar op dit punt heb je de limieten van consumentenhardware bereikt.
----------------------------------------
Modellen die werken:
S-Tier Modellen (De Gouden Standaard)
• GLM-4.5-Air: Evenaart Sonnet 4.0, codeert perfect en haalt dit tot een constante 50 tps en 4k/s prefill met vLLM
• Hermes-70B: Vertelt je alles zonder jailbreak
A-Tier Werkpaarden
• Qwen lijn
• Mistral lijn
• GPT-OSS
B-Tier Opties
• Gemma lijn
• Llama lijn
------------------------------------
De Software Stack Die Echt Werkt
Voor coderen/agents:
• Claude Code + Router (GLM-4.5-Air draait perfect)
• Roocode Orchestrator: Definieer modi (coderen, beveiliging, reviewer, onderzoeker)
De orchestrator beheert de scope, start lokale LLM's op met gefragmenteerde context, en synthetiseert vervolgens de resultaten. Je kunt GPT-5 of Opus/GLM-4.6 als orchestrator gebruiken, en lokale modellen voor alles!
Scaffolding Opties (Gerangschikt)
1. vLLM: Piekniveau prestatie + bruikbaarheid, razendsnel als model past
2. exllamav3: Veel sneller, alle quant-groottes, maar slechte scaffolding
3. llama.cpp: Gemakkelijke start, goede initiële snelheden, degradeert over context
UI Aanbevelingen
• lmstudio: Gelocked op llama.cpp maar geweldige UX
• 3 Sparks: Apple-app voor lokale LLM's
• JanAI: Prima maar functie-beperkt
-------------------------------
Conclusie
Mac Ultra M3 geeft je 60-80% prestatie met MLX-toegang. Maar als je het allerbeste wilt, heb je Nvidia nodig.
Deze reis leerde me: echte onafhankelijkheid komt van het begrijpen en bouwen van je eigen tools.
Als je geïnteresseerd bent in benchmarks, heb ik veel gepost op mijn profiel.


7,06K
55
De inhoud op deze pagina wordt geleverd door derden. Tenzij anders vermeld, is OKX niet de auteur van het (de) geciteerde artikel(en) en claimt geen auteursrecht op de materialen. De inhoud is alleen bedoeld voor informatieve doeleinden en vertegenwoordigt niet de standpunten van OKX. Het is niet bedoeld als een goedkeuring van welke aard dan ook en mag niet worden beschouwd als beleggingsadvies of een uitnodiging tot het kopen of verkopen van digitale bezittingen. Voor zover generatieve AI wordt gebruikt om samenvattingen of andere informatie te verstrekken, kan deze door AI gegenereerde inhoud onnauwkeurig of inconsistent zijn. Lees het gelinkte artikel voor meer details en informatie. OKX is niet verantwoordelijk voor inhoud gehost op sites van een derde partij. Het bezitten van digitale activa, waaronder stablecoins en NFT's, brengt een hoge mate van risico met zich mee en de waarde van deze activa kan sterk fluctueren. Overweeg zorgvuldig of de handel in of het bezit van digitale activa geschikt voor je is in het licht van je financiële situatie.