Modelli di livello S: GLM e Hermes 👀👀🔥🥰
3 mesi fa, mi sono reso conto di essere disperatamente dipendente da aziende che si preoccupano solo di potere, denaro e controllo.
A questo punto Cursor, Claude, OpenAI, avevano tutti annullato i loro piani illimitati.
Volevo un Mac M3 Ultra con 512GB di RAM. Ahmad e Pewdiepie mi hanno convinto del contrario.
Ecco cosa ho imparato costruendo il mio AI Rig
-----------------------------
La Costruzione ($3K-$10K)
Questa è la massima prestazione che puoi ottenere sotto i 10k USD
• 4x RTX 3090 con 2x NVLink
• CPU Epyc con 128 linee PCIe
• 256-512GB di RAM DDR4
• Scheda madre Romed8-2T
• Rack personalizzato + raffreddamento a ventola
• PSU AX1600i + riser di qualità
Costo: $5K negli Stati Uniti, $8K in UE (grazie all'IVA)
Controllo della Realtà delle Prestazioni
Più 3090 = modelli più grandi, ma i rendimenti decrescenti si fanno sentire rapidamente.
Prossimo passo: 8-12 GPU per AWQ 4-bit o BF16 Mix GLM 4.5-4.6
Ma a questo punto, hai raggiunto i limiti dell'hardware consumer.
----------------------------------------
Modelli che funzionano:
Modelli di Classe S (Il Golden Standard)
• GLM-4.5-Air: Eguaglia Sonnet 4.0, codifica senza errori, raggiunto fino a 50 tps e 4k/s prefill con vLLM
• Hermes-70B: Ti dice qualsiasi cosa senza jailbreak
Cavalli da Lavoro di Classe A
• Linea Qwen
• Linea Mistral
• GPT-OSS
Opzioni di Classe B
• Linea Gemma
• Linea Llama
------------------------------------
Il Software Stack che Funziona Davvero
Per codifica/agenti:
• Claude Code + Router (GLM-4.5-Air funziona perfettamente)
• Roocode Orchestrator: Definisci modalità (codifica, sicurezza, revisore, ricercatore)
L'orchestratore gestisce l'ambito, avvia LLM locali con contesto frammentato, poi sintetizza i risultati. Puoi usare GPT-5 o Opus/GLM-4.6 come orchestratore, e modelli locali come tutto il resto!
Opzioni di Scaffolding (Classificate)
1. vLLM: Massime prestazioni + usabilità, velocissimo se il modello si adatta
2. exllamav3: Molto più veloce, tutte le dimensioni di quantizzazione, ma scaffolding scarso
3. llama.cpp: Facile da iniziare, buone velocità iniziali, degrada con il contesto
Raccomandazioni UI
• lmstudio: Bloccato su llama.cpp ma ottima UX
• 3 Sparks: App Apple per LLM locali
• JanAI: Buona ma limitata nelle funzionalità
-------------------------------
Conclusione
Mac Ultra M3 ti offre il 60-80% delle prestazioni con accesso a MLX. Ma se vuoi il massimo, hai bisogno di Nvidia.
Questo viaggio mi ha insegnato: la vera indipendenza deriva dalla comprensione e dalla costruzione dei propri strumenti.
Se sei interessato ai benchmark, ho pubblicato molto sul mio profilo.


7.826
70
Il contenuto di questa pagina è fornito da terze parti. Salvo diversa indicazione, OKX non è l'autore degli articoli citati e non rivendica alcun copyright sui materiali. Il contenuto è fornito solo a scopo informativo e non rappresenta le opinioni di OKX. Non intende essere un'approvazione di alcun tipo e non deve essere considerato un consiglio di investimento o una sollecitazione all'acquisto o alla vendita di asset digitali. Nella misura in cui l'IA generativa viene utilizzata per fornire riepiloghi o altre informazioni, tale contenuto generato dall'IA potrebbe essere impreciso o incoerente. Leggi l'articolo collegato per ulteriori dettagli e informazioni. OKX non è responsabile per i contenuti ospitati su siti di terze parti. Gli holding di asset digitali, tra cui stablecoin e NFT, comportano un elevato grado di rischio e possono fluttuare notevolmente. Dovresti valutare attentamente se effettuare il trading o detenere asset digitali è adatto a te alla luce della tua situazione finanziaria.