Modele de nivel S: GLM și Hermes 👀👀🔥🥰
Acum 3 luni, mi-am dat seama că sunt iremediabil dependent de corporații cărora le pasă doar de putere, bani și control. În acest moment, Cursor, Claude, OpenAI, toți își aveau planurile nelimitate. Am vrut un Mac M3 Ultra cu 512 GB RAM. Ahmad și Pewdiepie m-au convins de contrariu. Iată ce am învățat construind propriul meu AI Rig ----------------------------- Construcția (3 mii de dolari-10 mii de dolari) Aceasta este performanța de top pe care o puteți obține sub 10k USD • 4x RTX 3090s cu 2x NVLink • CPU Epyc cu 128 de benzi PCIe • 256-512 GB RAM DDR4 • Placă de bază Romed8-2T • Răcire personalizată a rackului + ventilatorului • AX1600i PSU + ascensoare de calitate Cost: 5 mii de dolari în SUA, 8 mii de dolari în UE (mulțumesc TVA) Verificarea realității performanței Mai multe 3090 = modele mai mari, dar randamentele în scădere se activează rapid. Pasul următor: 8-12 GPU-uri pentru AWQ pe 4 biți sau BF16 Mix GLM 4.5-4.6 Dar în acest moment, ați atins limitele hardware ale consumatorilor. ---------------------------------------- Modele care funcționează: Modele de nivel S (standardul de aur) • GLM-4.5-Air: Se potrivește cu Sonnet 4.0, codurile au ajuns impecabil la 50 tps și preumplere 4k/s cu vLLM • Hermes-70B: Îți spune orice fără jailbreak Cai de povară de nivel A • Linia Qwen • Linia Mistral • GPT-OSS Opțiuni de nivel B • Linia Gemma • Linie de lamă ------------------------------------ Stiva de software care funcționează cu adevărat Pentru codare/agenți: • Claude Code + Router (GLM-4.5-Air funcționează perfect) • Roocode Orchestrator: Definiți moduri (codare, securitate, recenzent, cercetător) Orchestratorul gestionează domeniul de aplicare, rotește LLM-urile locale cu context fragmentat, apoi sintetizează rezultatele. Puteți utiliza GPT-5 sau Opus/GLM-4.6 ca orchestrator și modele locale ca orice altceva! Opțiuni de schele (clasate) 1. vLLM: Performanță de vârf + utilizare, extrem de rapid dacă modelul se potrivește 2. exllamav3: Mult mai rapid, toate dimensiunile cantitative, dar schele slabe 3. llama.cpp: pornire ușoară, viteze inițiale bune, degradează contextul Recomandări UI • lmstudio: Blocat la llama.cpp, dar UX excelent • 3 Sparks: aplicația Apple pentru LLM-uri locale • JanAI: Bun, dar limitat ------------------------------- Linia de jos Mac Ultra M3 îți oferă o performanță de 60-80% cu acces MLX. Dar dacă vrei tot ce este mai bun, ai nevoie de Nvidia. Această călătorie m-a învățat: independența reală vine din înțelegerea și construirea propriilor instrumente. Dacă sunteți interesați de benchmark-uri, am postat multe pe profilul meu
Afișare original
7,06 K
55
Conținutul de pe această pagină este furnizat de terți. Dacă nu se menționează altfel, OKX nu este autorul articolului citat și nu revendică niciun drept intelectual pentru materiale. Conținutul este furnizat doar pentru informare și nu reprezintă opinia OKX. Nu este furnizat pentru a fi o susținere de nicio natură și nu trebuie să fie considerat un sfat de investiție sau o solicitare de a cumpăra sau vinde active digitale. În măsura în care AI-ul de generare este utilizat pentru a furniza rezumate sau alte informații, astfel de conținut generat de AI poate să fie inexact sau neconsecvent. Citiți articolul asociat pentru mai multe detalii și informații. OKX nu răspunde pentru conținutul găzduit pe pagini terțe. Deținerile de active digitale, inclusiv criptomonedele stabile și NFT-urile, prezintă un grad ridicat de risc și pot fluctua semnificativ. Trebuie să analizați cu atenție dacă tranzacționarea sau deținerea de active digitale este adecvată pentru dumneavoastră prin prisma situației dumneavoastră financiare.