Модели уровня S: GLM и Hermes 👀👀🔥🥰
3 месяца назад я понял, что безнадежно зависим от корпораций, которые заботятся только о власти, деньгах и контроле.
На этом этапе Cursor, Claude, OpenAI все отменили свои безлимитные планы.
Я хотел Mac M3 Ultra с 512 ГБ ОЗУ. Ахмад и Pewdiepie убедили меня в обратном.
Вот что я узнал, собирая свой собственный AI Rig
-----------------------------
Сборка ($3K-$10K)
Это максимальная производительность, которую вы можете получить за менее чем 10k USD
• 4x RTX 3090 с 2x NVLink
• Epyc CPU с 128 PCIe линиями
• 256-512 ГБ DDR4 ОЗУ
• Материнская плата Romed8-2T
• Индивидуальный стенд + вентилятор для охлаждения
• Блок питания AX1600i + качественные подъемники
Стоимость: $5K в США, $8K в ЕС (спасибо НДС)
Проверка реальности производительности
Больше 3090 = большие модели, но быстро наступает закон убывающей отдачи.
Следующий шаг: 8-12 GPU для AWQ 4-бит или BF16 Mix GLM 4.5-4.6
Но на этом этапе вы достигли пределов потребительского оборудования.
----------------------------------------
Модели, которые работают:
Модели S-Tier (Золотой стандарт)
• GLM-4.5-Air: Соответствует Sonnet 4.0, коды безупречно работают, достигли стабильных 50 tps и 4k/s предзаполнения с vLLM
• Hermes-70B: Говорит вам все без взлома
Рабочие лошадки A-Tier
• Линия Qwen
• Линия Mistral
• GPT-OSS
Варианты B-Tier
• Линия Gemma
• Линия Llama
------------------------------------
Программный стек, который действительно работает
Для кодирования/агентов:
• Claude Code + Router (GLM-4.5-Air работает идеально)
• Roocode Orchestrator: Определите режимы (кодирование, безопасность, рецензент, исследователь)
Оркестратор управляет объемом, запускает локальные LLM с фрагментированным контекстом, затем синтезирует результаты. Вы можете использовать GPT-5 или Opus/GLM-4.6 в качестве оркестратора, а локальные модели для всего остального!
Варианты каркаса (в порядке убывания)
1. vLLM: Пиковая производительность + удобство, молниеносно быстро, если модель помещается
2. exllamav3: Гораздо быстрее, все размеры кванта, но плохая структура
3. llama.cpp: Легкий старт, хорошие начальные скорости, ухудшаются с контекстом
Рекомендации по интерфейсу
• lmstudio: Заблокирован на llama.cpp, но отличный UX
• 3 Sparks: Приложение Apple для локальных LLM
• JanAI: Неплохо, но с ограниченными функциями
-------------------------------
Итог
Mac Ultra M3 дает вам 60-80% производительности с доступом к MLX. Но если вы хотите абсолютное лучшее, вам нужен Nvidia.
Это путешествие научило меня: настоящая независимость приходит от понимания и создания собственных инструментов.
Если вас интересуют бенчмарки, я много публиковал на своем профиле.


6,45 тыс.
47
Содержание этой страницы предоставляется третьими сторонами. OKX не является автором цитируемых статей и не имеет на них авторских прав, если не указано иное. Материалы предоставляются исключительно в информационных целях и не отражают мнения OKX. Материалы не являются инвестиционным советом и призывом к покупке или продаже цифровых активов. Раздел использует ИИ для создания обзоров и кратких содержаний предоставленных материалов. Обратите внимание, что информация, сгенерированная ИИ, может быть неточной и непоследовательной. Для получения полной информации изучите соответствующую оригинальную статью. OKX не несет ответственности за материалы, содержащиеся на сторонних сайтах. Цифровые активы, в том числе стейблкоины и NFT, подвержены высокому риску, а их стоимость может сильно колебаться. Перед торговлей и покупкой цифровых активов оцените ваше финансовое состояние и принимайте только взвешенные решения.