Modelos de S Tier: GLM e Hermes 👀👀🔥🥰
Há 3 meses, percebi que era desesperadamente dependente de corporações que só se preocupam com poder, dinheiro e controle. Neste ponto, Cursor, Claude, OpenAI, todos tinham cancelado seus planos ilimitados. Eu queria um Mac M3 Ultra com 512GB de RAM. Ahmad e Pewdiepie me convenceram do contrário. Aqui está o que aprendi ao construir meu próprio Rig de IA ----------------------------- A Construção ($3K-$10K) Este é o melhor desempenho que você pode obter abaixo de 10k USD • 4x RTX 3090s com 2x NVLink • CPU Epyc com 128 linhas PCIe • 256-512GB de RAM DDR4 • Placa-mãe Romed8-2T • Rack personalizado + resfriamento por ventilador • Fonte AX1600i + risers de qualidade Custo: $5K nos EUA, $8K na UE (obrigado IVA) Verificação da Realidade de Desempenho Mais 3090s = modelos maiores, mas os retornos decrescentes entram rapidamente. Próximo passo: 8-12 GPUs para AWQ 4-bit ou BF16 Mix GLM 4.5-4.6 Mas neste ponto, você atingiu os limites do hardware de consumo. ---------------------------------------- Modelos que funcionam: Modelos S-Tier (O Padrão Dourado) • GLM-4.5-Air: Igual ao Sonnet 4.0, códigos impecáveis, consegui isso até uma taxa constante de 50 tps e 4k/s de pré-preenchimento com vLLM • Hermes-70B: Te diz qualquer coisa sem jailbreak Trabalhadores A-Tier • Linha Qwen • Linha Mistral • GPT-OSS Opções B-Tier • Linha Gemma • Linha Llama ------------------------------------ A Pilha de Software Que Realmente Funciona Para codificação/agentes: • Claude Code + Router (GLM-4.5-Air funciona perfeitamente) • Orquestrador Roocode: Defina modos (codificação, segurança, revisor, pesquisador) O orquestrador gerencia o escopo, ativa LLMs locais com contexto fragmentado e, em seguida, sintetiza resultados. Você pode usar GPT-5 ou Opus/GLM-4.6 como orquestrador, e modelos locais como tudo o mais! Opções de Estrutura (Classificadas) 1. vLLM: Desempenho máximo + usabilidade, extremamente rápido se o modelo couber 2. exllamav3: Muito mais rápido, todos os tamanhos de quantização, mas má estrutura 3. llama.cpp: Início fácil, boas velocidades iniciais, degrada ao longo do contexto Recomendações de UI • lmstudio: Bloqueado para llama.cpp, mas ótima experiência do usuário • 3 Sparks: Aplicativo da Apple para LLMs locais • JanAI: Bom, mas limitado em recursos ------------------------------- Resumo Mac Ultra M3 oferece 60-80% de desempenho com acesso MLX. Mas se você quer o melhor absoluto, precisa de Nvidia. Esta jornada me ensinou: a verdadeira independência vem de entender e construir suas próprias ferramentas. Se você está interessado em benchmarks, postei muito no meu perfil.
Mostrar original
7,07 mil
55
O conteúdo apresentado nesta página é fornecido por terceiros. Salvo indicação em contrário, a OKX não é o autor dos artigos citados e não reivindica quaisquer direitos de autor nos materiais. O conteúdo é fornecido apenas para fins informativos e não representa a opinião da OKX. Não se destina a ser um endosso de qualquer tipo e não deve ser considerado conselho de investimento ou uma solicitação para comprar ou vender ativos digitais. Na medida em que a IA generativa é utilizada para fornecer resumos ou outras informações, esse mesmo conteúdo gerado por IA pode ser impreciso ou inconsistente. Leia o artigo associado para obter mais detalhes e informações. A OKX não é responsável pelo conteúdo apresentado nos sites de terceiros. As detenções de ativos digitais, incluindo criptomoedas estáveis e NFTs, envolvem um nível de risco elevado e podem sofrer grandes flutuações. Deve considerar cuidadosamente se o trading ou a detenção de ativos digitais é adequado para si à luz da sua condição financeira.