S级模型:GLM 和 Hermes 👀👀🔥🥰
3个月前,我意识到自己无可救药地依赖那些只关心权力、金钱和控制的公司。 此时,Cursor、Claude、OpenAI都取消了他们的无限计划。 我想要一台配备512GB RAM的Mac M3 Ultra。Ahmad和Pewdiepie让我改变了主意。 这是我在构建自己的AI Rig时学到的东西 ----------------------------- 构建($3K-$10K) 这是你在1万美元以下能获得的最佳性能 • 4个RTX 3090显卡,配有2个NVLink • Epyc CPU,128个PCIe通道 • 256-512GB DDR4 RAM • Romed8-2T主板 • 自定义机架 + 风扇冷却 • AX1600i电源 + 高质量升压器 成本:美国$5K,欧盟$8K(感谢增值税) 性能现实检查 更多的3090显卡 = 更大的模型,但收益递减很快就会出现。 下一步:8-12个GPU用于AWQ 4位或BF16混合GLM 4.5-4.6 但此时,你已经达到了消费级硬件的极限。 ---------------------------------------- 可用的模型: S级模型(黄金标准) • GLM-4.5-Air:与Sonnet 4.0相匹配,代码完美,达到了稳定的50 tps和4k/s的预填充,使用vLLM • Hermes-70B:无需越狱即可告诉你任何事情 A级工作马 • Qwen系列 • Mistral系列 • GPT-OSS B级选项 • Gemma系列 • Llama系列 ------------------------------------ 实际有效的软件堆栈 用于编码/代理: • Claude Code + Router(GLM-4.5-Air运行完美) • Roocode Orchestrator:定义模式(编码、安全、审阅、研究) 该协调器管理范围,启动具有碎片化上下文的本地LLM,然后综合结果。你可以使用GPT-5或Opus/GLM-4.6作为协调器,其他一切使用本地模型! 支架选项(排名) 1. vLLM:峰值性能 + 可用性,如果模型适合则速度极快 2. exllamav3:速度更快,所有量化大小,但支架较差 3. llama.cpp:易于入门,初始速度良好,但随着上下文的增加而下降 UI推荐 • lmstudio:锁定在llama.cpp,但用户体验极佳 • 3 Sparks:本地LLM的Apple应用 • JanAI:不错,但功能有限 ------------------------------- 底线 Mac Ultra M3让你获得60-80%的性能,配有MLX访问。但如果你想要绝对的最佳性能,你需要Nvidia。 这段旅程教会我:真正的独立来自于理解和构建自己的工具。 如果你对基准测试感兴趣,我在我的个人资料上发布了很多。
查看原文
7,068
55
本页面内容由第三方提供。除非另有说明,欧易不是所引用文章的作者,也不对此类材料主张任何版权。该内容仅供参考,并不代表欧易观点,不作为任何形式的认可,也不应被视为投资建议或购买或出售数字资产的招揽。在使用生成式人工智能提供摘要或其他信息的情况下,此类人工智能生成的内容可能不准确或不一致。请阅读链接文章,了解更多详情和信息。欧易不对第三方网站上的内容负责。包含稳定币、NFTs 等在内的数字资产涉及较高程度的风险,其价值可能会产生较大波动。请根据自身财务状况,仔细考虑交易或持有数字资产是否适合您。