Modelos de nivel S: GLM y... | Teknium (e/λ) OKX Feed

Hace 3 meses, me di cuenta de que era desesperadamente dependiente de corporaciones que solo se preocupan por el poder, el dinero y el control. En este punto, Cursor, Claude, OpenAI, todos habían arruinado sus planes ilimitados. Quería un Mac M3 Ultra con 512GB de RAM. Ahmad y Pewdiepie me convencieron de lo contrario. Esto es lo que aprendí al construir mi propio Rig de IA ----------------------------- La Construcción ($3K-$10K) Este es el mejor rendimiento que puedes obtener por debajo de 10k USD • 4x RTX 3090s con 2x NVLink • CPU Epyc con 128 carriles PCIe • 256-512GB de RAM DDR4 • Placa base Romed8-2T • Rack personalizado + refrigeración por ventilador • PSU AX1600i + risers de calidad Costo: $5K en EE. UU., $8K en UE (gracias al IVA) Verificación de la Realidad del Rendimiento Más 3090s = modelos más grandes, pero los rendimientos decrecientes entran en juego rápidamente. Próximo paso: 8-12 GPUs para AWQ de 4 bits o mezcla BF16 GLM 4.5-4.6 Pero en este punto, has alcanzado los límites del hardware de consumo. ---------------------------------------- Modelos que funcionan: Modelos de S-Tier (El Estándar Dorado) • GLM-4.5-Air: Igual que Sonnet 4.0, códigos impecables, lo llevé a un constante 50 tps y 4k/s de prellenado con vLLM • Hermes-70B: Te dice cualquier cosa sin necesidad de jailbreak Caballos de Batalla de A-Tier • Línea Qwen • Línea Mistral • GPT-OSS Opciones de B-Tier • Línea Gemma • Línea Llama ------------------------------------ La Pilas de Software que Realmente Funciona Para codificación/agentes: • Claude Code + Router (GLM-4.5-Air funciona perfectamente) • Orquestador Roocode: Define modos (codificación, seguridad, revisor, investigador) El orquestador gestiona el alcance, activa LLMs locales con contexto fragmentado, luego sintetiza resultados. Puedes usar GPT-5 u Opus/GLM-4.6 como orquestador, y modelos locales como todo lo demás! Opciones de Andamiaje (Clasificadas) 1. vLLM: Rendimiento máximo + usabilidad, increíblemente rápido si el modelo cabe 2. exllamav3: Mucho más rápido, todos los tamaños de cuantificación, pero mal andamiaje 3. llama.cpp: Fácil inicio, buenas velocidades iniciales, se degrada con el contexto Recomendaciones de UI • lmstudio: Bloqueado a llama.cpp pero gran UX • 3 Sparks: Aplicación de Apple para LLMs locales • JanAI: Bien pero limitado en funciones ------------------------------- Conclusión El Mac Ultra M3 te da un 60-80% de rendimiento con acceso a MLX. Pero si quieres lo mejor de lo mejor, necesitas Nvidia. Este viaje me enseñó: la verdadera independencia proviene de entender y construir tus propias herramientas. Si estás interesado en benchmarks, he publicado mucho en mi perfil.

7,06 mil

El contenido de esta página lo proporcionan terceros. A menos que se indique lo contrario, OKX no es el autor de los artículos citados y no reclama ningún derecho de autor sobre los materiales. El contenido se proporciona únicamente con fines informativos y no representa las opiniones de OKX. No pretende ser un respaldo de ningún tipo y no debe ser considerado como un consejo de inversión o una solicitud para comprar o vender activos digitales. En la medida en que la IA generativa se utiliza para proporcionar resúmenes u otra información, dicho contenido generado por IA puede ser inexacto o incoherente. Lee el artículo vinculado para obtener más detalles e información. OKX no es responsable del contenido alojado en sitios de terceros. El holding de activos digitales, incluyendo stablecoins y NFT, implican un alto grado de riesgo y pueden fluctuar en gran medida. Debes considerar cuidadosamente si el trading o holding de activos digitales es adecuado para ti a la luz de tu situación financiera.