S-nivå-modeller: GLM og Hermes 👀👀🔥🥰
For 3 måneder siden innså jeg at jeg var håpløst avhengig av selskaper som bare bryr seg om makt, penger og kontroll.
På dette tidspunktet hadde Cursor, Claude, OpenAI alle robuste sine ubegrensede planer.
Jeg ville ha en Mac M3 Ultra med 512 GB RAM. Ahmad og Pewdiepie overbeviste meg om noe annet.
Her er hva jeg lærte ved å bygge min egen AI-rigg
-----------------------------
Bygget ($3K-$10K)
Dette er den beste ytelsen du kan få under 10k USD
• 4x RTX 3090s med 2x NVLink
• Epyc CPU med 128 PCIe-baner
• 256-512 GB DDR4 RAM
• Romed8-2T hovedkort
• Tilpasset rack + viftekjøling
• AX1600i PSU + kvalitetsstigerør
Kostnad: $5K i USA, $8K i EU (takk mva)
Virkelighetssjekk av ytelse
Flere 3090-er = større modeller, men avtagende avkastning slår raskt inn.
Neste trinn: 8-12 GPUer for AWQ 4-bit eller BF16 Mix GLM 4.5-4.6
Men på dette tidspunktet har du nådd grensene for forbrukermaskinvare.
----------------------------------------
Modeller som fungerer:
S-Tier-modeller (den gylne standarden)
• GLM-4.5-Air: Matcher Sonnet 4.0, koder fikk feilfritt dette opp til en jevn 50 tps og 4k/s forhåndsutfylling med vLLM
• Hermes-70B: Forteller deg hva som helst uten jailbreaking
A-Tier arbeidshester
• Qwen-linjen
• Mistral-linje
• GPT-OSS
B-Tier Alternativer
• Gemma-linjen
• Lama-linje
------------------------------------
Programvarestabelen som faktisk fungerer
For koding/agenter:
• Claude Code + Router (GLM-4.5-Air kjører perfekt)
• Roocode Orchestrator: Definer moduser (koding, sikkerhet, korrekturleser, forsker)
Orkestratoren styrer omfanget, spinner opp lokale LLM-er med fragmentert kontekst, og syntetiserer deretter resultater. Du kan bruke GPT-5 eller Opus/GLM-4.6 som orkestrator, og lokale modeller som alt annet!
Stillasalternativer (rangert)
1. vLLM: Topp ytelse + brukervennlighet, lynrask hvis modellen passer
2. exllamav3: Mye raskere, alle kvantestørrelser, men dårlig stillas
3. llama.cpp: Enkel start, gode starthastigheter, forringes over kontekst
Anbefalinger for brukergrensesnitt
• lmstudio: Låst til llama.cpp, men flott UX
• 3 Sparks: Apple-app for lokale LLM-er
• JanAI: Fint, men begrenset med funksjoner
-------------------------------
Bunnlinjen
Mac Ultra M3 gir deg 60–80 % ytelse med MLX-tilgang. Men hvis du vil ha det absolutt beste, trenger du Nvidia.
Denne reisen lærte meg: ekte uavhengighet kommer fra å forstå og bygge dine egne verktøy.
Hvis du er interessert i benchmarks, har jeg lagt ut mye på profilen min


7,91k
70
Innholdet på denne siden er levert av tredjeparter. Med mindre annet er oppgitt, er ikke OKX forfatteren av de siterte artikkelen(e) og krever ingen opphavsrett til materialet. Innholdet er kun gitt for informasjonsformål og representerer ikke synspunktene til OKX. Det er ikke ment å være en anbefaling av noe slag og bør ikke betraktes som investeringsråd eller en oppfordring om å kjøpe eller selge digitale aktiva. I den grad generativ AI brukes til å gi sammendrag eller annen informasjon, kan slikt AI-generert innhold være unøyaktig eller inkonsekvent. Vennligst les den koblede artikkelen for mer detaljer og informasjon. OKX er ikke ansvarlig for innhold som er vert på tredjeparts nettsteder. Beholdning av digitale aktiva, inkludert stablecoins og NFT-er, innebærer en høy grad av risiko og kan svinge mye. Du bør nøye vurdere om handel eller innehav av digitale aktiva passer for deg i lys av din økonomiske tilstand.