- Opus 4.5 lidera en programación y agentes, con 80,9% en SWE-Bench y mejor que rivales.
- Nuevo parámetro de esfuerzo y caída de precio a 5/25 USD por millón de tokens.
- Actualizaciones en Chrome, Excel y Claude Code, con seguridad y memoria reforzadas.
- Límites de uso estrictos y endpoints regionales con prima del 10% en la nube.
Claude Opus 4.5 ya está aquí y viene con una ambición clara: colocarse en lo más alto en programación, agentes inteligentes y tareas de oficina. La propuesta de Anthropic no se queda en titulares grandilocuentes; llega con cifras, comparativas y cambios de producto que, sobre el papel, pueden redefinir cómo usamos IA en trabajo real.
Más allá de la competición directa con otros gigantes del sector, la actualización incorpora un salto en eficiencia de tokens y control del esfuerzo, junto con mejoras en seguridad, uso de herramientas, memoria y una batería de integraciones nuevas en aplicaciones. No es solo un modelo más rápido: es una plataforma que apunta a ciclos de trabajo largos, multiagente y con menos fricción.
Qué es Opus 4.5 y por qué ha dado que hablar
Llega apenas unos días después de movimientos de la competencia, con un posicionamiento rotundo: Anthropic lo presenta como su modelo más capaz y el mejor IA para cada tarea en programación, gestión de agentes y uso informático. La compañía destaca, además, su valía en investigación profunda, creación de documentos y razonamiento visual y matemático.
Para no quedarse en lo teórico, la firma sostiene que el modelo supera a otros referentes como Gemini 3 Pro y GPT-5.1 Codex-Max en pruebas de ingeniería de software. Y en la práctica, la idea es clara: menos pasos, más precisión y mejor coordinación con herramientas en flujos complejos.

Rendimiento medido: benchmarks y pruebas reales
En el benchmark de referencia para ingeniería de software, SWE-Bench Verified, Opus 4.5 alcanza un 80,9% de precisión, superando tanto a sus predecesores como a rivales de primera línea. Este dato importa porque mide capacidad para resolver issues reales de proyectos en GitHub, no ejercicios de juguete.
Anthropic ha ido más allá con una prueba de contratación real para ingenieros, cronometrada a dos horas y calificada por su dureza. Según la compañía, el modelo no solo resolvió los ejercicios, sino que batió a todos los candidatos humanos que hicieron el mismo examen, apoyándose en estrategias como cómputo paralelo de hipótesis.
En tareas cotidianas de oficina, el salto también se nota: mejores resultados en hojas de cálculo, con incrementos reportados de precisión del 20% y de eficiencia del 15% en modelos financieros, además de la capacidad de organizar bases de datos, preparar presentaciones y redactar informes extensos sin perder el hilo.
Todo esto se apoya en un contexto largo de hasta 200.000 tokens en pruebas internas y en una gestión de memoria operativa reforzada, donde las conversaciones largas se benefician de resúmenes automáticos para mantener coherencia sin chocar con límites de ventana.
Eficiencia, coste y el nuevo parámetro de esfuerzo
Un punto diferencial es el precio: la API baja de 15 y 75 dólares por millón de tokens de entrada y salida a 5 y 25, respectivamente. Esto abre la puerta a automatizaciones que antes eran demasiado caras para el día a día.
La clave técnica para exprimir el ahorro es el parámetro de esfuerzo, con niveles bajo, medio y alto. En esfuerzo medio, Opus 4.5 iguala el rendimiento de Sonnet 4.5 en SWE-Bench Verified usando un 76% menos de tokens de salida. Con esfuerzo alto, supera a Sonnet 4.5 en 4,3 puntos porcentuales y aún así gasta un 48% menos de tokens. Aquí la novedad no es solo el control, sino poder variar la profundidad de razonamiento sin cambiar de modelo.
Este ajuste influye en toda la respuesta: texto, llamadas de herramientas y pensamiento extendido. Con esfuerzo bajo se obtienen respuestas más escuetas y eficientes; con esfuerzo alto, análisis detallado y explicaciones amplias para escenarios complejos.
La facturación también introduce matices prácticos: Anthropic reconoce optimizaciones automáticas que agregan pocos tokens a las solicitudes, pero aclara que esos tokens añadidos por el sistema no se cobran. Pequeños detalles, sí, pero que cuentan cuando se escala.
Más que código: agentes, ofimática y uso de ordenador
Opus 4.5 apunta alto en programación, pero sus mejoras no se quedan ahí. El modelo brilla en creación de documentos, hojas de cálculo y presentaciones profesionales, y en tareas de investigación con múltiples fuentes, gestionando hilos largos sin perder contexto relevante.
En capacidades de agente, la coordinación sube de nivel: gestión eficaz de equipos de subagentes para sistemas multiagente complejos, capaz de dividir trabajo, priorizar y progresar de manera estable durante horas en flujos largos.
En el frente de uso de ordenador, la actualización incorpora una acción de zoom para inspección minuciosa de regiones en pantalla a resolución completa. Esto es útil para leer letra pequeña, analizar interfaces con información densa o verificar detalles antes de actuar.
La combinación de razonamiento, herramientas y memoria le permite a Opus 4.5 acometer tareas de migración y refactorización de código, elaboración de informes y automatizaciones de escritorio con menos vueltas y menos desperdicio de tokens.
Seguridad y robustez: alineación frente a prompt injection
La autonomía trae preguntas sobre control y fiabilidad. Aquí, Anthropic afirma que este es su modelo más robustamente alineado hasta la fecha, con avances concretos contra ataques de inyección de instrucciones que intentan desviar el comportamiento del sistema.
No es un detalle menor: el despliegue de agentes con acceso a herramientas requiere defensas adicionales, y la compañía sostiene haber reforzado las barreras sin penalizar la utilidad. Aun así, recomiendan buenas prácticas de diseño y supervisión humana en escenarios sensibles.
Ecosistema y apps: novedades en Claude Code, Chrome y Excel
La actualización no se queda en el modelo. En el stack de producto, Claude Code mejora su modo de planificación: antes de ponerse manos a la obra, hace preguntas aclaratorias y genera un archivo editable con el plan para facilitar revisión y control.
En el navegador, Claude para Chrome se libera para usuarios Max, con la promesa de gestionar tareas a través de varias pestañas y coordinar acciones dentro de sesiones de trabajo más largas. Para quienes trabajan con hojas de cálculo, Claude para Excel llega a Max, Team y Enterprise, con soporte para gráficos, tablas dinámicas y carga de archivos.
En la app, una de las novedades más prácticas es que las conversaciones largas ya no se atascan: el sistema resume automáticamente el contexto anterior según sea necesario para prolongar sesiones, manteniendo coherencia y trazabilidad de decisiones.
Todo ello llega junto a la disponibilidad de Opus 4.5 en la API y en las principales plataformas en la nube, lo que facilita la integración en pipelines existentes sin esperar despliegues propios.
Tres modelos 4.5 para necesidades distintas: Opus, Sonnet y Haiku
La familia 4.5 se ordena en tres perfiles. Opus 4.5 es la máxima inteligencia con rendimiento práctico para tareas especializadas de alto nivel, ingeniería profesional y agentes avanzados. Es el único que acepta el parámetro de esfuerzo.
Sonnet 4.5 es el caballo de batalla para coding y agentes complejos. Trae mejoras en todo el ciclo de desarrollo: planificación y diseño de sistemas, ingeniería de seguridad, seguimiento de instrucciones más preciso y un estilo de comunicación conciso y natural, con actualizaciones de progreso basadas en hechos.
En capacidades de agente, Sonnet 4.5 trabaja de forma autónoma durante horas manteniendo foco, con conciencia del contexto y del presupuesto de tokens en tiempo real. Usa llamadas de herramientas en paralelo, coordina mejor múltiples fuentes y preserva estado entre sesiones largas.
Haiku 4.5 se centra en la velocidad y el coste, alcanzando rendimiento cercano a la frontera a un tercio del precio, con más del doble de velocidad que Sonnet 4. Lleva por primera vez pensamiento extendido a la línea Haiku, con opcionales de resumen del pensamiento, intercalado entre llamadas de herramienta y control de presupuesto de tokens de pensamiento.
Con esto, Anthropic restaura el equilibrio de su catálogo: en los últimos meses, Sonnet 4.5 eclipsaba al antiguo Opus 4.1; ahora cada modelo recupera su sitio por coste, velocidad y capacidad.
Uso de herramientas y nuevas APIs: lo que cambia en el día a día
Para flujos multi-herramienta, Anthropic introduce llamadas de herramientas programáticas: el modelo puede escribir código que invoque herramientas dentro de un contenedor de ejecución, reduciendo la latencia de ida y vuelta y filtrando datos antes de cargarlos en la ventana de contexto.
Si tienes centenares de herramientas, la nueva búsqueda de herramientas permite descubrir y cargar dinámicamente solo lo necesario. Hay dos variantes: por patrones regex con la herramienta tool_search_tool_regex_20251119, y por consultas en lenguaje natural con tool_search_tool_bm25_20251119, aligerando 10.000 a 20.000 tokens de contexto al no cargar todo el catálogo.
Para mejorar la precisión en invocaciones, puedes aportar ejemplos de uso de herramientas con entradas válidas que guíen al modelo en esquemas complejos; y si te preocupa el contexto, hay edición de contexto que limpia automáticamente llamadas y resultados antiguos cuando el límite de tokens se acerca.
En control de ejecución, los modelos 4.5 incluyen nuevas razones de parada: model_context_window_exceeded para indicar que se alcanzó la ventana de contexto, diferenciándola del tope de max_tokens, y la razón refusal cuando el sistema rechaza generar contenido por seguridad. Además, se corrige un bug que preserva saltos de línea al pasar parámetros a herramientas.
El pensamiento extendido devuelve un resumen del proceso interno en la API de mensajes y, al transmitir, puede llegar en entregas fragmentadas con pequeños retrasos; nada crítico, pero conviene tenerlo en cuenta en la UX de streaming.
Herramientas de desarrollo: editor de texto y ejecución de código
Si usas el editor de texto de Claude, hay versión nueva: tipo de herramienta text_editor_20250728 con nombre str_replace_based_edit_tool, y el comando undo_edit deja de estar soportado. Atención si migras desde Sonnet 3.7.
Para ejecución de código, se recomienda la versión code_execution_20250825, que añade comandos Bash y manipulación de archivos. La variante heredada code_execution_20250522 sigue disponible, pero al ser solo Python no se aconseja para nuevas implementaciones.
Estos cambios, junto con el soporte de uso intercalado de herramientas y pensamiento extendido, empujan hacia flujos más naturales en los que el modelo razona, consulta herramientas y prosigue con la conversación sin saltos artificiales.
Precios, endpoints y disponibilidad en la nube
Con la bajada a 5 dólares por millón de tokens de entrada y 25 por millón de salida, los modelos 4.5 mantienen precios competitivos. Hay, además, una novedad en los endpoints cuando se consumen vía proveedores cloud.
AWS Bedrock y Google Vertex AI ofrecen endpoints globales y regionales para Opus 4.5, Sonnet 4.5 y Haiku 4.5. Los regionales garantizan enrutamiento por zona geográfica con una prima de precio del 10%. La API propia de Anthropic es global por defecto y no se ve afectada por este cambio.
Opus 4.5 está disponible en las aplicaciones de Anthropic, la API y las principales plataformas, incluyendo integraciones como Amazon Bedrock. Esto reduce el tiempo de puesta en marcha en entornos empresariales.
Limitaciones y letra pequeña: lo que conviene saber
El talón de Aquiles, de momento, son los límites de uso y cuotas. Incluso para Pro y Max, los tokens se agotan rápido y el contador se reinicia cada cinco horas desde el primer mensaje. Al ser Opus el modelo más potente, también consume cupos con mayor rapidez, lo que genera frustración en usuarios que pagan 20 o hasta 100 dólares al mes.
En disponibilidad, Anthropic prioriza Estados Unidos y Europa occidental. Si operas desde Latinoamérica o Asia-Pacífico, las latencias pueden aumentar y el soporte en idioma local ser más limitado. Conviene medir tiempos reales antes de comprometer despliegues críticos.
Otro punto es la dependencia de conectividad y servicios cloud: integraciones como Excel y Chrome tiran de llamadas a la nube. Para sectores regulados que exigen on-premise, habrá que negociar despliegues privados o considerar modelos abiertos en escenarios específicos.
Finalmente, sacar partido a Opus 4.5 requiere formación en prompt engineering, gestión de contexto y depuración. Sin buenas prácticas, se desperdicia capacidad y se dispara el gasto en tokens; merece la pena invertir en entrenamiento interno.
Estrategia y comparativa: dónde encaja frente a OpenAI y Google
Con Opus 4.5, Anthropic se posiciona como proveedor premium para profesionales y desarrolladores, disputando de tú a tú los usos donde priman precisión y confiabilidad. La competencia ha desatado una guerra de precios y capacidades que beneficia al comprador, y la combinación de rendimiento, costo y control del esfuerzo es un anzuelo potente.
Frente a rivales, Opus 4.5 sobresale en flujos de trabajo con herramientas y agentes autónomos. En multimodalidad o razonamiento puro, la brecha con algunos modelos de la competencia es menor, pero el conjunto de funciones del ecosistema 4.5 inclina la balanza en escenarios de producción que requieren persistencia y coordinación.
Cuándo migrar y cómo evaluarlo en la empresa
Si vienes de Claude 3.5 u Opus 4.1, plantéate el salto cuando necesites razonamiento complejo, alto volumen de tokens o capacidad de agente con acceso a herramientas. Por encima de 10 millones de tokens al mes, el ahorro compensa el esfuerzo de reconfiguración.
Anthropic documenta rutas de migración con y sin cambios de ruptura: Sonnet 3.7 a Sonnet 4.5, Haiku 3.5 a Haiku 4.5 (más cambios), y actualizaciones sin sobresaltos de Opus 4.1 a Sonnet 4.5 u Opus 4.5. Conviene revisar las listas de verificación antes de mover entornos productivos.
Para tomar la decisión, pregúntate si tienes procesos repetitivos con suficiente volumen, control sobre datos y criterios de validación, y KPIs claros que midan horas ahorradas, errores y tiempos de respuesta. Sin métricas, cualquier piloto queda en tierra de nadie.
Checklist práctico de adopción segura: políticas de privacidad y DPA, prueba de concepto acotada (por ejemplo, tickets de soporte o resúmenes de reuniones), formación interna de dos personas clave, monitorización de costes con alertas y un plan de contingencia por si el servicio cambia o falla.
Para desarrolladores: usar Opus 4.5 en Cursor y Claude Code
Para aprovechar Opus 4.5 en el día a día de desarrollo, crea una cuenta de Anthropic y genera una clave de API. Activa el acceso al modelo según tu plan (Max, Team o Enterprise) y configura tus herramientas habituales, incluyendo Deepseek Coder.
En Cursor, añade la clave de API de Anthropic en la sección de modelos y selecciona Opus 4.5 en el panel de chat con IA. Puedes trabajar con autocompletado asistido por chat y flujos multiagente directamente en el IDE; existe un plan Pro de Cursor de pago que, según la herramienta, habilita acceso simplificado a modelos avanzados.
En Claude Code, lanza la CLI en el directorio de tu proyecto, inicia sesión con tu clave y cambia el modelo con el comando de selección. Desde ahí, activa el modo de planificación para que proponga pasos antes de tocar código y úsalo para refactorizar, depurar o ejecutar scripts guiados por objetivo.
Buenas prácticas: intercambia entre modelos según necesidad (Haiku o Sonnet para tareas ligeras, Opus cuando el razonamiento lo exige), monitoriza el uso de tokens para evitar derivas y respeta límites de tasa. Si aparecen errores de autorización en herramientas de terceros, revisa que tu cuenta tenga el modelo habilitado y que estás en la versión más reciente del cliente.
Para dudas frecuentes, conviene consultar el centro de ayuda y foros de las herramientas, donde se listan incidencias conocidas como respuestas fragmentadas en pensamiento extendido o mensajes de modelo no autorizado cuando la clave de API no coincide con el plan contratado.
A la vista de todo lo anterior, Opus 4.5 combina músculo en benchmarks, control fino del coste y mejoras de plataforma que lo hacen especialmente atractivo para ingeniería de software, automatización ofimática y agentes autónomos. Queda por resolver el tema de los límites de uso para redondear la experiencia, pero la dirección es clara: más calidad por token y un ecosistema mejor preparado para trabajo real y sostenido.
Redactor apasionado del mundo de los bytes y la tecnología en general. Me encanta compartir mis conocimientos a través de la escritura, y eso es lo que haré en este blog, mostrarte todo lo más interesante sobre gadgets, software, hardware, tendencias tecnológicas, y más. Mi objetivo es ayudarte a navegar por el mundo digital de forma sencilla y entretenida.
