S級模型:GLM 和 Hermes 👀👀🔥🥰
三個月前,我意識到自己對那些只關心權力、金錢和控制的公司無法自拔。
此時,Cursor、Claude、OpenAI 都已經取消了他們的無限計劃。
我想要一台配備 512GB RAM 的 Mac M3 Ultra。Ahmad 和 Pewdiepie 說服我放棄了這個想法。
以下是我在建立自己的 AI Rig 時學到的東西
-----------------------------
建造($3K-$10K)
這是你在 10K 美元以下能獲得的最佳性能
• 4x RTX 3090s 配 2x NVLink
• Epyc CPU 配 128 PCIe 通道
• 256-512GB DDR4 RAM
• Romed8-2T 主板
• 自訂機架 + 風扇冷卻
• AX1600i PSU + 高品質擴展卡
成本:美國 $5K,歐盟 $8K(感謝增值稅)
性能現實檢查
更多的 3090s = 更大的模型,但收益遞減很快就會出現。
下一步:8-12 個 GPU 用於 AWQ 4-bit 或 BF16 Mix GLM 4.5-4.6
但在這個時候,你已經達到了消費者硬體的極限。
----------------------------------------
可用的模型:
S 級模型(黃金標準)
• GLM-4.5-Air:與 Sonnet 4.0 相匹配,代碼無瑕疵,穩定達到 50 tps 和 4k/s 的預填充,使用 vLLM
• Hermes-70B:告訴你任何事情而無需越獄
A 級工作馬
• Qwen 系列
• Mistral 系列
• GPT-OSS
B 級選擇
• Gemma 系列
• Llama 系列
------------------------------------
實際可用的軟體堆疊
對於編碼/代理:
• Claude Code + Router(GLM-4.5-Air 運行完美)
• Roocode Orchestrator:定義模式(編碼、安全、審核、研究者)
該協調器管理範圍,啟動具有片段上下文的本地 LLM,然後綜合結果。你可以使用 GPT-5 或 Opus/GLM-4.6 作為協調器,其他一切都使用本地模型!
支撐選項(排名)
1. vLLM:峰值性能 + 可用性,如果模型適合則速度驚人
2. exllamav3:速度更快,所有量化大小,但支撐較差
3. llama.cpp:易於入門,初始速度良好,但隨著上下文的增加而退化
UI 推薦
• lmstudio:鎖定於 llama.cpp,但用戶體驗極佳
• 3 Sparks:本地 LLM 的 Apple 應用
• JanAI:不錯,但功能有限
-------------------------------
底線
Mac Ultra M3 讓你獲得 60-80% 的性能,並可訪問 MLX。但如果你想要絕對的最佳性能,你需要 Nvidia。
這段旅程教會我:真正的獨立來自於理解和建立自己的工具。
如果你對基準測試感興趣,我在我的個人資料上發佈了很多。


7,831
70
本頁面內容由第三方提供。除非另有說明,OKX 不是所引用文章的作者,也不對此類材料主張任何版權。該內容僅供參考,並不代表 OKX 觀點,不作為任何形式的認可,也不應被視為投資建議或購買或出售數字資產的招攬。在使用生成式人工智能提供摘要或其他信息的情況下,此類人工智能生成的內容可能不準確或不一致。請閱讀鏈接文章,瞭解更多詳情和信息。OKX 不對第三方網站上的內容負責。包含穩定幣、NFTs 等在內的數字資產涉及較高程度的風險,其價值可能會產生較大波動。請根據自身財務狀況,仔細考慮交易或持有數字資產是否適合您。