Mô hình hạng S: GLM và Hermes 👀👀🔥🥰
3 tháng trước, tôi nhận ra rằng mình hoàn toàn phụ thuộc vào các tập đoàn chỉ quan tâm đến quyền lực, tiền bạc và kiểm soát.
Tại thời điểm này, Cursor, Claude, OpenAI, tất cả đều đã cắt giảm các gói không giới hạn của họ.
Tôi muốn một chiếc Mac M3 Ultra với 512GB RAM. Ahmad và Pewdiepie đã thuyết phục tôi ngược lại.
Dưới đây là những gì tôi đã học được khi xây dựng Rig AI của riêng mình
-----------------------------
Cấu hình ($3K-$10K)
Đây là hiệu suất tốt nhất bạn có thể có dưới 10k USD
• 4x RTX 3090s với 2x NVLink
• CPU Epyc với 128 PCIe lanes
• 256-512GB DDR4 RAM
• Bo mạch chủ Romed8-2T
• Giá đỡ tùy chỉnh + làm mát bằng quạt
• PSU AX1600i + risers chất lượng
Chi phí: $5K ở Mỹ, $8K ở EU (cảm ơn VAT)
Kiểm tra thực tế hiệu suất
Nhiều 3090s = mô hình lớn hơn, nhưng lợi nhuận giảm nhanh chóng.
Bước tiếp theo: 8-12 GPU cho AWQ 4-bit hoặc BF16 Mix GLM 4.5-4.6
Nhưng tại thời điểm này, bạn đã chạm đến giới hạn phần cứng tiêu dùng.
----------------------------------------
Các mô hình hoạt động:
Mô hình S-Tier (Tiêu chuẩn Vàng)
• GLM-4.5-Air: Khớp với Sonnet 4.0, mã hóa hoàn hảo đạt được 50 tps ổn định và 4k/s prefill với vLLM
• Hermes-70B: Cho bạn biết bất cứ điều gì mà không cần jailbreak
Mô hình A-Tier
• Dòng Qwen
• Dòng Mistral
• GPT-OSS
Tùy chọn B-Tier
• Dòng Gemma
• Dòng Llama
------------------------------------
Ngăn xếp phần mềm thực sự hoạt động
Đối với lập trình/đại lý:
• Claude Code + Router (GLM-4.5-Air hoạt động hoàn hảo)
• Roocode Orchestrator: Định nghĩa các chế độ (lập trình, bảo mật, người đánh giá, nhà nghiên cứu)
Orchestrator quản lý phạm vi, khởi động các LLM cục bộ với ngữ cảnh phân mảnh, sau đó tổng hợp kết quả. Bạn có thể sử dụng GPT-5 hoặc Opus/GLM-4.6 làm orchestrator, và các mô hình cục bộ cho mọi thứ khác!
Tùy chọn khung (Xếp hạng)
1. vLLM: Hiệu suất tối đa + tính khả dụng, nhanh như chớp nếu mô hình phù hợp
2. exllamav3: Nhanh hơn nhiều, tất cả các kích thước định lượng, nhưng khung kém
3. llama.cpp: Khởi đầu dễ dàng, tốc độ ban đầu tốt, giảm dần theo ngữ cảnh
Khuyến nghị UI
• lmstudio: Khóa vào llama.cpp nhưng UX tuyệt vời
• 3 Sparks: Ứng dụng Apple cho các LLM cục bộ
• JanAI: Tốt nhưng hạn chế tính năng
-------------------------------
Kết luận
Mac Ultra M3 mang lại cho bạn 60-80% hiệu suất với quyền truy cập MLX. Nhưng nếu bạn muốn điều tốt nhất tuyệt đối, bạn cần Nvidia.
Hành trình này đã dạy tôi: sự độc lập thực sự đến từ việc hiểu và xây dựng công cụ của riêng bạn.
Nếu bạn quan tâm đến các chỉ số, tôi đã đăng rất nhiều trên hồ sơ của mình.


7,07 N
55
Nội dung trên trang này được cung cấp bởi các bên thứ ba. Trừ khi có quy định khác, OKX không phải là tác giả của bài viết được trích dẫn và không tuyên bố bất kỳ bản quyền nào trong các tài liệu. Nội dung được cung cấp chỉ nhằm mục đích thông tin và không thể hiện quan điểm của OKX. Nội dung này không nhằm chứng thực dưới bất kỳ hình thức nào và không được coi là lời khuyên đầu tư hoặc lời chào mời mua bán tài sản kỹ thuật số. Việc sử dụng AI nhằm cung cấp nội dung tóm tắt hoặc thông tin khác, nội dung do AI tạo ra có thể không chính xác hoặc không nhất quán. Vui lòng đọc bài viết trong liên kết để biết thêm chi tiết và thông tin. OKX không chịu trách nhiệm về nội dung được lưu trữ trên trang web của bên thứ ba. Việc nắm giữ tài sản kỹ thuật số, bao gồm stablecoin và NFT, có độ rủi ro cao và có thể biến động rất lớn. Bạn phải cân nhắc kỹ lưỡng xem việc giao dịch hoặc nắm giữ tài sản kỹ thuật số có phù hợp hay không dựa trên tình hình tài chính của bạn.