S级模型:GLM 和 Hermes 👀👀🔥🥰
3个月前,我意识到自己无可救药地依赖那些只关心权力、金钱和控制的公司。
此时,Cursor、Claude、OpenAI都取消了他们的无限计划。
我想要一台配备512GB RAM的Mac M3 Ultra。Ahmad和Pewdiepie让我改变了主意。
这是我在构建自己的AI Rig时学到的东西
-----------------------------
构建($3K-$10K)
这是你在1万美元以下能获得的最佳性能
• 4个RTX 3090显卡,配有2个NVLink
• Epyc CPU,128个PCIe通道
• 256-512GB DDR4 RAM
• Romed8-2T主板
• 自定义机架 + 风扇冷却
• AX1600i电源 + 高质量升压器
成本:美国$5K,欧盟$8K(感谢增值税)
性能现实检查
更多的3090显卡 = 更大的模型,但收益递减很快就会出现。
下一步:8-12个GPU用于AWQ 4位或BF16混合GLM 4.5-4.6
但此时,你已经达到了消费级硬件的极限。
----------------------------------------
可用的模型:
S级模型(黄金标准)
• GLM-4.5-Air:与Sonnet 4.0相匹配,代码完美,达到了稳定的50 tps和4k/s的预填充,使用vLLM
• Hermes-70B:无需越狱即可告诉你任何事情
A级工作马
• Qwen系列
• Mistral系列
• GPT-OSS
B级选项
• Gemma系列
• Llama系列
------------------------------------
实际有效的软件堆栈
用于编码/代理:
• Claude Code + Router(GLM-4.5-Air运行完美)
• Roocode Orchestrator:定义模式(编码、安全、审阅、研究)
该协调器管理范围,启动具有碎片化上下文的本地LLM,然后综合结果。你可以使用GPT-5或Opus/GLM-4.6作为协调器,其他一切使用本地模型!
支架选项(排名)
1. vLLM:峰值性能 + 可用性,如果模型适合则速度极快
2. exllamav3:速度更快,所有量化大小,但支架较差
3. llama.cpp:易于入门,初始速度良好,但随着上下文的增加而下降
UI推荐
• lmstudio:锁定在llama.cpp,但用户体验极佳
• 3 Sparks:本地LLM的Apple应用
• JanAI:不错,但功能有限
-------------------------------
底线
Mac Ultra M3让你获得60-80%的性能,配有MLX访问。但如果你想要绝对的最佳性能,你需要Nvidia。
这段旅程教会我:真正的独立来自于理解和构建自己的工具。
如果你对基准测试感兴趣,我在我的个人资料上发布了很多。


7,068
55
本页面内容由第三方提供。除非另有说明,欧易不是所引用文章的作者,也不对此类材料主张任何版权。该内容仅供参考,并不代表欧易观点,不作为任何形式的认可,也不应被视为投资建议或购买或出售数字资产的招揽。在使用生成式人工智能提供摘要或其他信息的情况下,此类人工智能生成的内容可能不准确或不一致。请阅读链接文章,了解更多详情和信息。欧易不对第三方网站上的内容负责。包含稳定币、NFTs 等在内的数字资产涉及较高程度的风险,其价值可能会产生较大波动。请根据自身财务状况,仔细考虑交易或持有数字资产是否适合您。