Modelos de nivel S: GLM y Hermes 👀👀🔥🥰
Hace 3 meses, me di cuenta de que era desesperadamente dependiente de corporaciones que solo se preocupan por el poder, el dinero y el control.
En este punto, Cursor, Claude, OpenAI, todos habían arruinado sus planes ilimitados.
Quería un Mac M3 Ultra con 512GB de RAM. Ahmad y Pewdiepie me convencieron de lo contrario.
Esto es lo que aprendí al construir mi propio Rig de IA
-----------------------------
La Construcción ($3K-$10K)
Este es el mejor rendimiento que puedes obtener por debajo de 10k USD
• 4x RTX 3090s con 2x NVLink
• CPU Epyc con 128 carriles PCIe
• 256-512GB de RAM DDR4
• Placa base Romed8-2T
• Rack personalizado + refrigeración por ventilador
• PSU AX1600i + risers de calidad
Costo: $5K en EE. UU., $8K en UE (gracias al IVA)
Verificación de la Realidad del Rendimiento
Más 3090s = modelos más grandes, pero los rendimientos decrecientes entran en juego rápidamente.
Próximo paso: 8-12 GPUs para AWQ de 4 bits o mezcla BF16 GLM 4.5-4.6
Pero en este punto, has alcanzado los límites del hardware de consumo.
----------------------------------------
Modelos que funcionan:
Modelos de S-Tier (El Estándar Dorado)
• GLM-4.5-Air: Igual que Sonnet 4.0, códigos impecables, lo llevé a un constante 50 tps y 4k/s de prellenado con vLLM
• Hermes-70B: Te dice cualquier cosa sin necesidad de jailbreak
Caballos de Batalla de A-Tier
• Línea Qwen
• Línea Mistral
• GPT-OSS
Opciones de B-Tier
• Línea Gemma
• Línea Llama
------------------------------------
La Pilas de Software que Realmente Funciona
Para codificación/agentes:
• Claude Code + Router (GLM-4.5-Air funciona perfectamente)
• Orquestador Roocode: Define modos (codificación, seguridad, revisor, investigador)
El orquestador gestiona el alcance, activa LLMs locales con contexto fragmentado, luego sintetiza resultados. Puedes usar GPT-5 u Opus/GLM-4.6 como orquestador, y modelos locales como todo lo demás!
Opciones de Andamiaje (Clasificadas)
1. vLLM: Rendimiento máximo + usabilidad, increíblemente rápido si el modelo cabe
2. exllamav3: Mucho más rápido, todos los tamaños de cuantificación, pero mal andamiaje
3. llama.cpp: Fácil inicio, buenas velocidades iniciales, se degrada con el contexto
Recomendaciones de UI
• lmstudio: Bloqueado a llama.cpp pero gran UX
• 3 Sparks: Aplicación de Apple para LLMs locales
• JanAI: Bien pero limitado en funciones
-------------------------------
Conclusión
El Mac Ultra M3 te da un 60-80% de rendimiento con acceso a MLX. Pero si quieres lo mejor de lo mejor, necesitas Nvidia.
Este viaje me enseñó: la verdadera independencia proviene de entender y construir tus propias herramientas.
Si estás interesado en benchmarks, he publicado mucho en mi perfil.


7,06 mil
55
El contenido de esta página lo proporcionan terceros. A menos que se indique lo contrario, OKX no es el autor de los artículos citados y no reclama ningún derecho de autor sobre los materiales. El contenido se proporciona únicamente con fines informativos y no representa las opiniones de OKX. No pretende ser un respaldo de ningún tipo y no debe ser considerado como un consejo de inversión o una solicitud para comprar o vender activos digitales. En la medida en que la IA generativa se utiliza para proporcionar resúmenes u otra información, dicho contenido generado por IA puede ser inexacto o incoherente. Lee el artículo vinculado para obtener más detalles e información. OKX no es responsable del contenido alojado en sitios de terceros. El holding de activos digitales, incluyendo stablecoins y NFT, implican un alto grado de riesgo y pueden fluctuar en gran medida. Debes considerar cuidadosamente si el trading o holding de activos digitales es adecuado para ti a la luz de tu situación financiera.