Modelos de S Tier: GLM e Hermes 👀👀🔥🥰
Há 3 meses, percebi que era desesperadamente dependente de corporações que só se preocupam com poder, dinheiro e controle.
Neste ponto, Cursor, Claude, OpenAI, todos tinham cancelado seus planos ilimitados.
Eu queria um Mac M3 Ultra com 512GB de RAM. Ahmad e Pewdiepie me convenceram do contrário.
Aqui está o que aprendi ao construir meu próprio Rig de IA
-----------------------------
A Construção ($3K-$10K)
Este é o melhor desempenho que você pode obter abaixo de 10k USD
• 4x RTX 3090s com 2x NVLink
• CPU Epyc com 128 linhas PCIe
• 256-512GB de RAM DDR4
• Placa-mãe Romed8-2T
• Rack personalizado + resfriamento por ventilador
• Fonte AX1600i + risers de qualidade
Custo: $5K nos EUA, $8K na UE (obrigado IVA)
Verificação da Realidade de Desempenho
Mais 3090s = modelos maiores, mas os retornos decrescentes entram rapidamente.
Próximo passo: 8-12 GPUs para AWQ 4-bit ou BF16 Mix GLM 4.5-4.6
Mas neste ponto, você atingiu os limites do hardware de consumo.
----------------------------------------
Modelos que funcionam:
Modelos S-Tier (O Padrão Dourado)
• GLM-4.5-Air: Igual ao Sonnet 4.0, códigos impecáveis, consegui isso até uma taxa constante de 50 tps e 4k/s de pré-preenchimento com vLLM
• Hermes-70B: Te diz qualquer coisa sem jailbreak
Trabalhadores A-Tier
• Linha Qwen
• Linha Mistral
• GPT-OSS
Opções B-Tier
• Linha Gemma
• Linha Llama
------------------------------------
A Pilha de Software Que Realmente Funciona
Para codificação/agentes:
• Claude Code + Router (GLM-4.5-Air funciona perfeitamente)
• Orquestrador Roocode: Defina modos (codificação, segurança, revisor, pesquisador)
O orquestrador gerencia o escopo, ativa LLMs locais com contexto fragmentado e, em seguida, sintetiza resultados. Você pode usar GPT-5 ou Opus/GLM-4.6 como orquestrador, e modelos locais como tudo o mais!
Opções de Estrutura (Classificadas)
1. vLLM: Desempenho máximo + usabilidade, extremamente rápido se o modelo couber
2. exllamav3: Muito mais rápido, todos os tamanhos de quantização, mas má estrutura
3. llama.cpp: Início fácil, boas velocidades iniciais, degrada ao longo do contexto
Recomendações de UI
• lmstudio: Bloqueado para llama.cpp, mas ótima experiência do usuário
• 3 Sparks: Aplicativo da Apple para LLMs locais
• JanAI: Bom, mas limitado em recursos
-------------------------------
Resumo
Mac Ultra M3 oferece 60-80% de desempenho com acesso MLX. Mas se você quer o melhor absoluto, precisa de Nvidia.
Esta jornada me ensinou: a verdadeira independência vem de entender e construir suas próprias ferramentas.
Se você está interessado em benchmarks, postei muito no meu perfil.


7,07 mil
55
O conteúdo apresentado nesta página é fornecido por terceiros. Salvo indicação em contrário, a OKX não é o autor dos artigos citados e não reivindica quaisquer direitos de autor nos materiais. O conteúdo é fornecido apenas para fins informativos e não representa a opinião da OKX. Não se destina a ser um endosso de qualquer tipo e não deve ser considerado conselho de investimento ou uma solicitação para comprar ou vender ativos digitais. Na medida em que a IA generativa é utilizada para fornecer resumos ou outras informações, esse mesmo conteúdo gerado por IA pode ser impreciso ou inconsistente. Leia o artigo associado para obter mais detalhes e informações. A OKX não é responsável pelo conteúdo apresentado nos sites de terceiros. As detenções de ativos digitais, incluindo criptomoedas estáveis e NFTs, envolvem um nível de risco elevado e podem sofrer grandes flutuações. Deve considerar cuidadosamente se o trading ou a detenção de ativos digitais é adequado para si à luz da sua condição financeira.