S Tier Modelle: GLM und Hermes 👀👀🔥🥰
Vor 3 Monaten wurde mir klar, dass ich hoffnungslos von Unternehmen abhängig war, die sich nur für Macht, Geld und Kontrolle interessieren. Zu diesem Zeitpunkt hatten Cursor, Claude und OpenAI alle ihre unbegrenzten Pläne eingestellt. Ich wollte einen Mac M3 Ultra mit 512 GB RAM. Ahmad und Pewdiepie haben mich vom Gegenteil überzeugt. Hier ist, was ich beim Bau meines eigenen KI-Rigs gelernt habe. ----------------------------- Der Aufbau (3.000 $ - 10.000 $) Das ist die beste Leistung, die Sie unter 10.000 USD bekommen können. • 4x RTX 3090s mit 2x NVLink • Epyc-CPU mit 128 PCIe-Lanes • 256-512 GB DDR4 RAM • Romed8-2T-Motherboard • Benutzerdefinierter Rack + Lüfterkühlung • AX1600i PSU + hochwertige Risers Kosten: 5.000 $ in den USA, 8.000 $ in der EU (danke Mehrwertsteuer) Leistungsrealitätscheck Mehr 3090s = größere Modelle, aber die abnehmenden Erträge setzen schnell ein. Nächster Schritt: 8-12 GPUs für AWQ 4-Bit oder BF16 Mix GLM 4.5-4.6 Aber an diesem Punkt haben Sie die Grenzen der Verbraucherhardware erreicht. ---------------------------------------- Modelle, die funktionieren: S-Tier-Modelle (Der Goldstandard) • GLM-4.5-Air: Entspricht Sonnet 4.0, codiert fehlerfrei, erreichte bis zu 50 tps und 4k/s Pre-Fill mit vLLM • Hermes-70B: Sagt Ihnen alles, ohne Jailbreaking A-Tier-Arbeitstiere • Qwen-Reihe • Mistral-Reihe • GPT-OSS B-Tier-Optionen • Gemma-Reihe • Llama-Reihe ------------------------------------ Der Software-Stack, der tatsächlich funktioniert Für Codierung/Agenten: • Claude Code + Router (GLM-4.5-Air läuft perfekt) • Roocode Orchestrator: Definieren Sie Modi (Codierung, Sicherheit, Prüfer, Forscher) Der Orchestrator verwaltet den Umfang, startet lokale LLMs mit fragmentiertem Kontext und synthetisiert dann die Ergebnisse. Sie können GPT-5 oder Opus/GLM-4.6 als Orchestrator verwenden und lokale Modelle für alles andere! Scaffolding-Optionen (Rangliste) 1. vLLM: Höchstleistung + Benutzerfreundlichkeit, blitzschnell, wenn das Modell passt 2. exllamav3: Viel schneller, alle Quant-Größen, aber schlechtes Scaffolding 3. llama.cpp: Einfacher Einstieg, gute Anfangsgeschwindigkeiten, verschlechtert sich über den Kontext UI-Empfehlungen • lmstudio: An llama.cpp gebunden, aber großartige UX • 3 Sparks: Apple-App für lokale LLMs • JanAI: Gut, aber funktionslimitiert ------------------------------- Fazit Mac Ultra M3 bietet Ihnen 60-80 % Leistung mit MLX-Zugang. Aber wenn Sie das absolut Beste wollen, brauchen Sie Nvidia. Diese Reise hat mir beigebracht: Echte Unabhängigkeit kommt von dem Verständnis und dem Bau Ihrer eigenen Werkzeuge. Wenn Sie an Benchmarks interessiert sind, habe ich viele auf meinem Profil gepostet.
Original anzeigen
7.067
55
Der Inhalt dieser Seite wird von Drittparteien bereitgestellt. Sofern nicht anders angegeben, ist OKX nicht der Autor der zitierten Artikel und erhebt keinen Anspruch auf das Urheberrecht an den Materialien. Die Inhalte dienen ausschließlich zu Informationszwecken und spiegeln nicht die Ansichten von OKX wider. Sie stellen keine Form der Empfehlung dar und sind weder als Anlageberatung noch als Aufforderung zum Kauf oder Verkauf digitaler Assets zu verstehen. Soweit generative KI zur Bereitstellung von Zusammenfassungen oder anderen Informationen eingesetzt wird, kann der dadurch erzeugte Inhalt ungenau oder widersprüchlich sein. Mehr Infos findest du im verlinkten Artikel. OKX haftet nicht für Inhalte, die auf Drittpartei-Websites gehostet werden. Digitale Assets, einschließlich Stablecoins und NFT, bergen ein hohes Risiko und können stark schwanken. Du solltest sorgfältig überlegen, ob der Handel mit oder das Halten von digitalen Assets angesichts deiner finanziellen Situation für dich geeignet ist.