S-tason mallit: GLM ja Hermes 👀👀🔥🥰
Kolme kuukautta sitten tajusin olevani toivottoman riippuvainen yrityksistä, jotka välittävät vain vallasta, rahasta ja kontrollista.
Tässä vaiheessa Cursorilla, Claudella ja OpenAI:lla oli kaikki karu rajattomat suunnitelmansa.
Halusin Mac M3 Ultran, jossa on 512 Gt RAM-muistia. Ahmad ja Pewdiepie vakuuttivat minut toisin.
Tässä on mitä opin rakentaessani omaa tekoälylaitettani
-----------------------------
Rakenne (3K-10K$)
Tämä on huippusuoritus, jonka voit saada alle 10k USD
• 4x RTX 3090s 2x NVLinkillä
• Epyc-suoritin, jossa on 128 PCIe-kaistaa
• 256-512 Gt DDR4 RAM -muistia
• Romed8-2T-emolevy
• Mukautettu teline + tuulettimen jäähdytys
• AX1600i-virtalähde + laadukkaat nousuputket
Hinta: 5 000 dollaria Yhdysvalloissa, 8 000 dollaria EU:ssa (kiitos ALV)
Suorituskyvyn todellisuustarkistus
Lisää 3090:tä = suurempia malleja, mutta vähenevät tuotot alkavat nopeasti.
Seuraava vaihe: 8-12 GPU:ta AWQ 4-bittiselle tai BF16 Mix GLM 4.5-4.6:lle
Mutta tässä vaiheessa olet saavuttanut kuluttajien laitteistorajat.
----------------------------------------
Toimivat mallit:
S-tason mallit (kultainen standardi)
• GLM-4.5-Air: Vastaa Sonnet 4.0:aa, koodit saivat tämän virheettömästi tasaiseen 50 tps:ään ja 4k/s esitäyttöön vLLM:llä
• Hermes-70B: Kertoo mitä tahansa ilman jailbreakia
A-tason työhevoset
• Qwen-linja
• Mistral-siima
• GPT-OSS
B-tason vaihtoehdot
• Gemma-linja
• Laama-linja
------------------------------------
Ohjelmistopino, joka todella toimii
Koodaus/agentit:
• Claude-koodi + reititin (GLM-4.5-Air toimii täydellisesti)
• Roocode Orchestrator: Määritä tilat (koodaus, suojaus, arvioija, tutkija)
Orkestraattori hallitsee vaikutusaluetta, käynnistää paikallisia LLM:iä pirstoutuneella kontekstilla ja syntetisoi sitten tulokset. Voit käyttää GPT-5:tä tai Opus/GLM-4.6:ta orkestraattorina ja paikallisia malleja kaikessa muussa!
Rakennustelineiden vaihtoehdot (paremmuusjärjestykseen)
1. vLLM: Huippusuorituskyky + käytettävyys, salamannopea, jos malli sopii
2. exllamav3: Paljon nopeampi, kaikki kvanttikoot, mutta huonot telineet
3. llama.cpp: Helppo käynnistys, hyvät alkunopeudet, heikkenee kontekstin myötä
Käyttöliittymän suositukset
• lmstudio: Lukittu llama.cpp mutta loistavaan käyttökokemukseen
• 3 Sparks: Apple-sovellus paikallisille LLM:ille
• JanAI: Hieno, mutta rajoitettu ominaisuus
-------------------------------
Ratkaiseva tekijä
Mac Ultra M3:n suorituskyky on 60–80 % MLX-yhteydellä. Mutta jos haluat ehdottomasti parasta, tarvitset Nvidian.
Tämä matka opetti minulle: todellinen itsenäisyys syntyy omien työkalujen ymmärtämisestä ja rakentamisesta.
Jos olet kiinnostunut vertailuarvoista, olen julkaissut paljon profiilissani


7,06 t.
55
Tällä sivulla näytettävä sisältö on kolmansien osapuolten tarjoamaa. Ellei toisin mainita, OKX ei ole lainatun artikkelin / lainattujen artikkelien kirjoittaja, eikä OKX väitä olevansa materiaalin tekijänoikeuksien haltija. Sisältö on tarkoitettu vain tiedoksi, eikä se edusta OKX:n näkemyksiä. Sitä ei ole tarkoitettu minkäänlaiseksi suositukseksi, eikä sitä tule pitää sijoitusneuvontana tai kehotuksena ostaa tai myydä digitaalisia varoja. Siltä osin kuin yhteenvetojen tai muiden tietojen tuottamiseen käytetään generatiivista tekoälyä, tällainen tekoälyn tuottama sisältö voi olla epätarkkaa tai epäjohdonmukaista. Lue aiheesta lisätietoa linkitetystä artikkelista. OKX ei ole vastuussa kolmansien osapuolten sivustojen sisällöstä. Digitaalisten varojen, kuten vakaakolikoiden ja NFT:iden, omistukseen liittyy suuri riski, ja niiden arvo voi vaihdella merkittävästi. Sinun tulee huolellisesti harkita, sopiiko digitaalisten varojen treidaus tai omistus sinulle taloudellisessa tilanteessasi.