Modeller på S-nivå: GLM och... | Teknium (e/λ) OKX Feed

För 3 månader sedan insåg jag att jag var hopplöst beroende av företag som bara bryr sig om makt, pengar och kontroll. Vid det här laget hade Cursor, Claude, OpenAI, alla sina obegränsade planer tuffa. Jag ville ha en Mac M3 Ultra med 512 GB RAM. Ahmad och Pewdiepie övertygade mig om motsatsen. Här är vad jag lärde mig när jag byggde min egen AI-rigg ----------------------------- Byggnaden ($3K-$10K) Detta är den bästa prestandan du kan få under 10k USD • 4x RTX 3090s med 2x NVLink • Epyc CPU med 128 PCIe-banor • 256-512 GB DDR4 RAM • Romed8-2T moderkort • Anpassat rack + fläktkylning • AX1600i nätaggregat + stigare av hög kvalitet Kostnad: $5K i USA, $8K i EU (tack moms) Verklighetskontroll av prestanda Fler 3090 = större modeller, men minskande avkastning slår in snabbt. Nästa steg: 8-12 GPU:er för AWQ 4-bit eller BF16 Mix GLM 4.5-4.6 Men vid det här laget har du nått gränserna för konsumentmaskinvara. ---------------------------------------- Modeller som fungerar: S-Tier-modeller (den gyllene standarden) • GLM-4.5-Air: Matchar Sonnet 4.0, koder felfritt fick upp detta till en stadig 50 tps och 4k/s förfyllning med vLLM • Hermes-70B: Berättar vad som helst utan att jailbreaking Arbetshästar på A-nivå • Qwen-linjen • Mistral linje • GPT-OSS Alternativ på B-nivå • Gemma linje • Lama linje ------------------------------------ Mjukvarustacken som faktiskt fungerar För kodning/agenter: • Claude Code + Router (GLM-4.5-Air fungerar perfekt) • Roocode Orchestrator: Definiera lägen (kodning, säkerhet, granskare, forskare) Orkestreraren hanterar omfånget, snurrar upp lokala LLM:er med fragmenterad kontext och syntetiserar sedan resultaten. Du kan använda GPT-5 eller Opus/GLM-4.6 som orkestrerare och lokala modeller som allt annat! Ställningsalternativ (rankade) 1. vLLM: Topprestanda + användbarhet, blixtrande snabb om modellen passar 2. exllamav3: Mycket snabbare, alla kvantstorlekar, men dålig ställning 3. llama.cpp: Enkel start, bra initiala hastigheter, försämras över sammanhanget Rekommendationer för användargränssnittet • lmstudio: Låst till llama.cpp men bra UX • 3 Sparks: Apple-app för lokala LLM:er • JanAI: Bra men funktionsbegränsad ------------------------------- Slutsats Mac Ultra M3 ger dig 60-80% prestanda med MLX-åtkomst. Men om du vill ha det absolut bästa behöver du Nvidia. Den här resan lärde mig: verkligt oberoende kommer från att förstå och bygga dina egna verktyg. Om du är intresserad av benchmarks har jag lagt upp en hel del på min profil

7,06 tn

Innehållet på den här sidan tillhandahålls av tredje part. Om inte annat anges är OKX inte författare till den eller de artiklar som citeras och hämtar inte någon upphovsrätt till materialet. Innehållet tillhandahålls endast i informationssyfte och representerar inte OKX:s åsikter. Det är inte avsett att vara ett godkännande av något slag och bör inte betraktas som investeringsrådgivning eller en uppmaning att köpa eller sälja digitala tillgångar. I den mån generativ AI används för att tillhandahålla sammanfattningar eller annan information kan sådant AI-genererat innehåll vara felaktigt eller inkonsekvent. Läs den länkade artikeln för mer detaljer och information. OKX ansvarar inte för innehåll som finns på tredje parts webbplatser. Innehav av digitala tillgångar, inklusive stabila kryptovalutor och NFT:er, innebär en hög grad av risk och kan fluktuera kraftigt. Du bör noga överväga om handel med eller innehav av digitala tillgångar är lämpligt för dig mot bakgrund av din ekonomiska situation.