Claude Sonnet 4.5: novedades, benchmarks y precios

Mundobytes » Inteligencia Artificial » Claude Sonnet 4.5: así mejora agentes, código y uso de PC

Atención sostenida y salidas largas: más de 30 horas de foco y hasta 64.000 tokens.
Mejoras prácticas en uso de ordenador y navegador, con salto a 61,4% en OSWorld.
Programación de extremo a extremo con Claude Code, checkpoints y extensión para VS Code.
Plataforma reforzada: memoria, limpieza de contexto y Agent SDK con permisos finos.

Novedades de Claude Sonnet 4.5

Anthropic ha movido ficha con Claude Sonnet 4.5 y sitúa el listón un poco más arriba en un mercado apretadísimo entre OpenAI y Google. En pocas palabras, se trata de su modelo más fino hasta ahora, con un empuje notable en agentes, programación y uso de ordenador, justo donde más duele a la competencia. copiloto de referencia, pero también con mejoras prácticas para usuarios que buscan productividad real a diario.

Para entender por qué este lanzamiento importa, conviene mirar de dónde viene la serie. Con Sonnet 3.7 se introdujo un enfoque híbrido de razonamiento que ya marcó distancia en codificación y análisis, y con Sonnet 4 se consolidó esa estrategia como opción estable para asistentes. duración de foco, fiabilidad y herramientas, reforzando su posición en proyectos largos donde la consistencia y la memoria contextual lo son todo.

Qué trae realmente Sonnet 4.5 y en qué destaca

El eje del anuncio gira en torno a tres frentes: agentes que trabajan durante horas, programación de principio a fin y uso de ordenador con mayor solvencia. Según Anthropic, el modelo es capaz de mantener la atención más de 30 horas en tareas complejas, algo que no es precisamente habitual en esta clase de sistemas. aguante sostenido permite planificar y ejecutar trabajos largos sin que el modelo se disperse ni pierda el hilo, lo que supone una ventaja clara en refactorizaciones, proyectos de datos o informes densos.

Otro dato clave está en la longitud de salida: ahora admite respuestas de hasta 64.000 tokens, de modo que cabe generar bloques amplios de código, documentos técnicos o análisis extensos sin trocear el contexto una y otra vez. menos idas y venidas y en menos fricción a la hora de materializar un documento o un módulo complejo de software.

Además, los desarrolladores cuentan con una palanca nueva: el control de cuánto tiempo piensa el modelo antes de contestar. Esto abre la puerta a afinar el equilibrio entre rapidez y profundidad según cada caso. ajustar rapidez y profundidad. Puede parecer un detalle menor, pero a nivel de workflow marca diferencias.

Uso de ordenador y navegador: salto en OSWorld

Uno de los apartados donde más presume Anthropic es el de uso práctico del ordenador. En el benchmark OSWorld, que evalúa tareas reales de escritorio, Sonnet 4.5 alcanza un 61,4%, frente al 42,2% de la versión anterior. mejora en tareas de escritorio respalda casos como navegar sitios web, manipular hojas de cálculo o realizar análisis competitivos con menos supervisión humana.

La integración con el navegador también gana enteros. La extensión de Chrome está disponible para quienes se apuntaron previamente, y sirve de escaparate para procesos de investigación en la web o automatización ligera. recopilar información, reduciendo el micromanagement del usuario en tareas repetitivas.

7 Mejores Programas Para Limpiar Mac

Programación de cabo a rabo: del diseño a la refactorización

Si hay un terreno donde Anthropic quiere pasar por la izquierda es en el desarrollo de software. La compañía asegura que Sonnet 4.5 cubre el ciclo entero: planificación, implementación, pruebas, mantenimiento, corrección y refactorización de proyectos grandes. soporte de Claude Code, aspira a ser un asistente constante para equipos técnicos, no solo un generador de snippets aislados.

Los números acompañan: en SWE-bench Verified, prueba que evalúa resolución de incidencias de código en escenarios reales, el modelo logra un 77,2%. En ese marcador, adelanta a alternativas como GPT-5 Codex y Gemini 2.5 Pro, según los datos compartidos. mejora en cambios estructurales y hay que mantener coherencia entre decenas de archivos.

En la práctica, se han reportado sesiones prolongadas en las que el sistema aguanta el tipo a la hora de refactorizar, dividir responsabilidades y estabilizar arquitecturas limpias. copiloto que no pierde el hilo, algo que, quien lo haya sufrido, sabe que tiene tela.

Claude Code: nueva cara, checkpoints y VS Code

El ecosistema alrededor del modelo trae novedades concretas para el día a día. La interfaz de terminal en Claude Code recibe un lavado de cara para ganar claridad y confort, y la nueva extensión para Visual Studio Code integra el asistente directamente en el IDE. integración en el IDE y ayuda a mantener el foco.

La función de puntos de control llega como una red de seguridad. Permite ejecutar tareas grandes y retroceder de forma instantánea a un estado anterior si algo no sale como se esperaba. puntos de control evita el miedo a encargar operaciones largas, porque siempre existe un deshacer robusto que no depende de recordar cada paso manualmente.

Aplicación de Claude: análisis con código y creación de archivos

En la app de Claude, disponible en web y en móviles iOS y Android, se estrenan capacidades para analizar datos con código, crear archivos y visualizar información en formatos habituales de oficina. Esta función está abierta en vista previa para los planes de pago. transformar conversaciones en documentos sin salir del propio chat.

Por otra parte, la extensión de Claude para Chrome está ya accesible para quienes se unieron a la lista de espera en el último mes. músculo en el navegador, con casos de uso como consolidación de fuentes, checklist de tareas o capturas de datos bien guiadas.

Plataforma para desarrolladores: contexto, memoria y permisos

En el plano de la plataforma, la prioridad está en ejecutar agentes durante más tiempo con menos costes cognitivos. Se introduce un sistema que borra automáticamente el contexto obsoleto para mantener la conversación ágil sin perder lo importante. herramienta de memoria, evitando repetir datos y decisiones a cada rato.

El Claude Agent SDK abre el acceso a las herramientas principales, a los mecanismos de gestión de contexto y a marcos de permisos con los que se construye Claude Code. las mismas piezas, de forma que se puedan definir límites, capacidades y responsabilidades de agentes con precisión.

Cómo Corregir El Error Err_Too_Many_Redirects

Incluso a nivel operativo, la gestión del contexto se vuelve granular: se pueden establecer disparadores para limpiar histórico por volumen de tokens, conservar ciertas llamadas a herramientas y garantizar que siempre quede lo mínimo viable para seguir trabajando. higiene contextual que ayuda a alargar sesiones sin que el modelo se emborrache de texto viejo.

Imagina con Claude: vista previa de investigación

Además del modelo, Anthropic lanza una vista previa temporal llamada Imagina con Claude. En este experimento, el sistema genera software sobre la marcha sin funcionalidades predefinidas ni código preescrito. entorno que fabrica piezas a demanda, como una maqueta viva que se adapta al objetivo.

Es un guiño al futuro de los agentes programables, donde las barreras entre especificación y ejecución se difuminan. pipelines más flexibles y se solidifican en herramientas utilizables con menos intermediarios.

Casos de uso: de ciberseguridad a contenidos

Anthropic apunta a un espectro amplio de aplicaciones, empezando por equipos técnicos y corporativos. En ciberseguridad, la promesa pasa por agentes capaces de detectar y corregir vulnerabilidades sin intervención humana continua. detectar y corregir vulnerabilidades, lo que acelera tiempos de respuesta.

En finanzas, el papel estrella es la monitorización de cambios regulatorios y la gestión de riesgos. Para ello ayuda un rendimiento del 92% en el test Vals AI, pensado para evaluar competencias de un analista financiero junior. automatización de verificaciones, siempre con ojos humanos supervisando lo crítico.

En productividad, se enfatiza la edición y creación de archivos de oficina en distintos formatos sin salir de Claude. convertir ideas en documentos trabajables, y aquí el modelo aprovecha sus nuevas opciones de salida larga para entregar piezas más completas.

Para investigación, la integración de datos internos y externos se sitúa en el centro: desde recopilar fuentes hasta confeccionar informes con citas y anexos. mantener coherencia durante horas, donde suele romperse el hilo en la mayoría de asistentes.

En creación de contenidos, el énfasis está en una comprensión de matices y en análisis semántico más profundo. ajustar tono, estructura y precisión factual, algo crítico en piezas editoriales o documentación técnica que debe quedar fina.

Benchmarks, comparativas y cautelas

Los resultados en benchmarks le sientan bien a Sonnet 4.5: 61,4% en OSWorld, salto de 19,2 puntos frente a la versión previa; SWE-bench Verified, por delante de alternativas de OpenAI y Google; 92% en Vals AI orientado a finanzas. respaldo en benchmarks.

Dicho esto, merece la pena recordar que los benchmarks no son el mundo real. Existe el riesgo de entrenar sin querer en parte de esas pruebas o de diseñar evaluaciones que encajen mejor con ciertos modelos. sorpresa positiva, apuntando a mejoras palpables en programación con respecto a sus favoritas anteriores.

Disponibilidad, planes y precios

Sonnet 4.5 está disponible en la web de Claude y en las apps de iOS y Android para cualquier usuario. En paralelo, los desarrolladores pueden integrarlo desde la Claude Developer Platform y también a través de Amazon Bedrock y Google Cloud Vertex AI. despliegue amplio que facilita tanto pruebas rápidas como proyectos serios en producción.

Qué es WeatherNext 2 de Google: el salto de la IA en el tiempo

El plan gratuito funciona con un límite de sesiones que se reinicia cada cinco horas y con un número variable de mensajes según la demanda del momento. 3 dólares por millón de tokens y 15 dólares por millón de tokens de salida, manteniendo el mismo esquema que Sonnet 4.

Competencia y contexto del mercado

El lanzamiento encaja en una carrera que no afloja. OpenAI empuja con su línea GPT-5 y Google sigue apretando con Gemini, así que cada iteración pesa. posición enfocada en agentes duraderos parece un posicionamiento con cabeza en este momento.

En episodios previos, modelos de la familia ya habían demostrado resistir maratones poco habituales, desde partidas larguísimas hasta sesiones de refactor sostenidas. normalizarse como capacidad del producto, no como curiosidad de laboratorio ni como demo puntual.

Seguridad y fiabilidad

Anthropic destaca que Sonnet 4.5 ha pasado revisiones externas para validar seguridad y comportamiento. En paralelo, la compañía insiste en rebajar conductas problemáticas habituales en chatbots, como la adulación vacía o respuestas que refuercen ideas erróneas. revisiones externas de seguridad, crucial para un modelo que aspira a integrarse en flujos de trabajo serios.

La combinación de permisos ajustables, herramientas mejor delimitadas y gestión de contexto más fina ayuda a que los agentes no se salgan del carril. previsibilidad y auditabilidad, dos palabras mágicas en entornos corporativos.

Una experiencia que suena familiar: del caos al orden

Entre los ejemplos de uso que más llaman la atención está la típica historia del repositorio caótico que, en una sesión prolongada, termina con limpieza de arquitectura, reparto claro de responsabilidades y un proyecto que por fin compila. decenas de archivos nuevos, tras pedir al modelo que se tome su tiempo para razonar antes de responder.

La moraleja que se repite es que, incluso cuando el resultado requiere retoques, el avance en orden y estructura ya compensa el tiempo invertido. clave para proyectos legacy con garantías.

Más allá del brillo de las cifras, Sonnet 4.5 pone sobre la mesa una lectura clara: cuanto más largos y enrevesados son los encargos, más partido se le saca a su nuevo aguante y a su salida extensa. salida extensa y aguante, el conjunto de novedades cae como anillo al dedo.

Anthropic plantea un modelo pensado para durar encendido y trabajar con criterio durante horas, con herramientas que encajan en el día a día de devs, analistas y equipos de investigación. aliado paciente para tareas largas, apoyada por datos en benchmarks, mejoras en la plataforma y una oferta disponible ya para probar y desplegar.