- Opus 4.5 dẫn đầu trong lập trình và các tác nhân, với 80,9% trong SWE-Bench và tốt hơn các đối thủ.
- Tham số nỗ lực mới và giá giảm xuống còn 5/25 USD cho mỗi triệu mã thông báo.
- Bản cập nhật trong Chrome, Excel và Claude Code với khả năng bảo mật và bộ nhớ được tăng cường.
- Giới hạn sử dụng nghiêm ngặt và điểm cuối khu vực với mức phí đám mây cao hơn 10%.
Claude Opus 4.5 Nó đã ở đây, và đi kèm với một tham vọng rõ ràng: định vị mình ở vị trí hàng đầu trong lĩnh vực lập trình, tác nhân thông minh và các tác vụ văn phòng. Đề xuất của Anthropic không dừng lại ở những tiêu đề hoành tráng; nó đi kèm với các số liệu, so sánh và những thay đổi về sản phẩm, trên lý thuyết, có thể định nghĩa lại cách chúng ta sử dụng. IA trong công việc thực tế.
Ngoài việc cạnh tranh trực tiếp với các công ty lớn khác trong ngành, Bản cập nhật kết hợp bước nhảy vọt về hiệu quả mã thông báo và kiểm soát nỗ lựcCùng với những cải tiến về bảo mật, sử dụng công cụ, bộ nhớ và nhiều tích hợp ứng dụng mới, đây không chỉ là một mô hình nhanh hơn: mà còn là một nền tảng được thiết kế cho các chu kỳ làm việc dài, nhiều tác nhân và ít ma sát hơn.
Opus 4.5 là gì và tại sao nó lại gây xôn xao đến vậy?
Động thái này diễn ra chỉ vài ngày sau động thái của đối thủ cạnh tranh, với lập trường rõ ràng: Anthropic trình bày nó như là mô hình có khả năng nhất của nó và AI tốt hơn cho mọi nhiệm vụ trong lập trình, quản lý tác nhân và sử dụng máy tínhCông ty cũng nhấn mạnh giá trị của mình trong nghiên cứu chuyên sâu, tạo tài liệu và lập luận trực quan và toán học.
Để tránh việc chỉ dừng lại ở phạm vi lý thuyết, công ty vẫn duy trì mô hình Nó vượt qua các tiêu chuẩn khác như Gemini 3 Pro và GPT-5.1 Codex-Max trong thử nghiệm kỹ thuật phần mềm. Và trong thực tế, ý tưởng rất rõ ràng: ít bước hơn, chính xác hơn và phối hợp tốt hơn với các công cụ trong quy trình làm việc phức tạp.

Hiệu suất được đo lường: điểm chuẩn và thử nghiệm thực tế
Trong tiêu chuẩn cho kỹ thuật phần mềm, SWE-Bench Verified, Opus 4.5 đạt độ chính xác 80,9%vượt trội hơn cả những phiên bản tiền nhiệm và các đối thủ hàng đầu. Dữ liệu này quan trọng vì nó đo lường khả năng giải quyết các vấn đề thực tế trong các dự án GitHub, chứ không chỉ là các bài tập thực hành.
Anthropic đã tiến xa hơn với một bài kiểm tra tuyển dụng thực tế cho các kỹ sưBài kiểm tra kéo dài trong hai giờ và được đánh giá dựa trên độ khó, theo công ty, là mô hình không chỉ giải được các bài tập mà còn... Anh ấy đã đánh bại tất cả các ứng cử viên con người những người đã làm cùng một bài kiểm tra, dựa vào các chiến lược như tính toán song song các giả thuyết.
Trong các công việc văn phòng hàng ngày, sự thay đổi này cũng đáng chú ý: kết quả tốt hơn trong bảng tínhvới mức tăng được báo cáo về độ chính xác là 20% và hiệu quả là 15% trong các mô hình tài chính, ngoài khả năng tổ chức cơ sở dữ liệuChuẩn bị bài thuyết trình và viết báo cáo dài mà không lạc đề.
Tất cả những điều này được hỗ trợ bởi bối cảnh dài hạn lên tới 200.000 mã thông báo trong thử nghiệm nội bộ và quản lý bộ nhớ làm việc được tăng cường, trong đó Các cuộc trò chuyện dài sẽ được hưởng lợi từ tính năng tóm tắt tự động để duy trì tính nhất quán mà không vượt quá giới hạn cửa sổ.
Hiệu quả, chi phí và tham số nỗ lực mới
Một yếu tố khác biệt là giá cả: Giá API giảm từ 15 đô la và 75 đô la cho mỗi triệu mã thông báo vào và ra xuống còn 5 đô la và 25 đô la.tương ứng. Điều này mở ra cánh cửa cho các hoạt động tự động hóa trước đây quá tốn kém để sử dụng hàng ngày.
Yếu tố kỹ thuật quan trọng để tối đa hóa tiết kiệm là thông số nỗ lực, với các mức thấp, trung bình và cao. Ở mức nỗ lực trung bình, Opus 4.5 phù hợp với hiệu suất của Sonnet 4.5 trên SWE-Bench Verified bằng cách sử dụng ít hơn 76% mã thông báo đầu raVới nỗ lực to lớn, Nó vượt trội hơn Sonnet 4.5 điểm phần trăm với 4,3 điểm phần trăm và vẫn tiêu tốn ít hơn 48% mã thông báoĐiểm mới ở đây không chỉ là khả năng kiểm soát mà còn là khả năng thay đổi độ sâu của lý luận mà không cần thay đổi mô hình.
Sự điều chỉnh này ảnh hưởng đến toàn bộ phản ứng: văn bản, lệnh gọi công cụ và tư duy mở rộngVới nỗ lực thấp, bạn sẽ nhận được câu trả lời ngắn gọn và hiệu quả hơn; với nỗ lực cao, bạn sẽ nhận được phân tích chi tiết và giải thích sâu rộng cho các tình huống phức tạp.
Việc thanh toán cũng đưa ra những sắc thái thực tế: Anthropic nhận ra các tối ưu hóa tự động thêm một số mã thông báo vào các yêu cầuTuy nhiên, ông ấy làm rõ rằng những token được hệ thống thêm vào này không bị tính phí. Những chi tiết nhỏ thì đúng, nhưng chúng rất quan trọng khi mở rộng quy mô.
Hơn cả mã: đại lý, tự động hóa văn phòng và sử dụng máy tính
Opus 4.5 hướng đến mục tiêu cao trong lập trình, nhưng Sự cải thiện của họ không dừng lại ở đóMô hình này rất hiệu quả trong việc tạo tài liệu chuyên nghiệp, bảng tính và bài thuyết trình, cũng như trong các nhiệm vụ nghiên cứu với nhiều nguồn, quản lý các luồng dài mà không làm mất đi bối cảnh liên quan.
Về khả năng của tác nhân, sự phối hợp được nâng lên một cấp độ: Quản lý hiệu quả các nhóm đại lý phụ Dành cho các hệ thống đa tác nhân phức tạp, có khả năng phân chia công việc, ưu tiên và tiến triển ổn định trong nhiều giờ trong quy trình làm việc dài.
Về mặt sử dụng máy tính, bản cập nhật kết hợp một hành động phóng to để kiểm tra chi tiết các vùng trên màn hình ở độ phân giải đầy đủ. Điều này hữu ích khi đọc chữ nhỏ, phân tích giao diện có thông tin dày đặc hoặc xác minh chi tiết trước khi thực hiện hành động.
Sự kết hợp của lý luận, công cụ và trí nhớ cho phép Opus 4.5 thực hiện các nhiệm vụ bao gồm di chuyển và tái cấu trúc mã, tạo báo cáo và tự động hóa máy tính để bàn. với ít lượt quay hơn và ít lãng phí hơn.
An toàn và độ bền: căn chỉnh so với tiêm nhanh
Tính tự chủ đặt ra câu hỏi về khả năng kiểm soát và độ tin cậyỞ đây, Anthropic tuyên bố rằng đây là của nó mô hình được căn chỉnh mạnh mẽ hơn Cho đến nay, đã có những tiến bộ cụ thể chống lại các cuộc tấn công tiêm lệnh nhằm mục đích làm chệch hướng hành vi của hệ thống.
Đây không phải là một chi tiết nhỏ: Việc triển khai các tác nhân có quyền truy cập vào các công cụ đòi hỏi phải có biện pháp phòng thủ bổ sung.Công ty khẳng định đã tăng cường các rào cản mà không ảnh hưởng đến khả năng sử dụng. Tuy nhiên, họ khuyến nghị nên áp dụng các phương pháp thiết kế tốt và giám sát của con người trong các tình huống nhạy cảm.
Hệ sinh thái và ứng dụng: Có gì mới trong Claude Code, Chrome và Excel
Bản cập nhật không chỉ dừng lại ở mô hình mà còn mở rộng sang toàn bộ sản phẩm. Claude Code cải thiện chế độ lập kế hoạch của mìnhTrước khi bắt đầu, hãy đặt câu hỏi làm rõ và tạo một tệp có thể chỉnh sửa kèm theo kế hoạch để dễ dàng xem xét và kiểm soát.
Trong trình duyệt, Claude dành cho Chrome được phát hành cho người dùng Maxvới lời hứa quản lý tác vụ trên nhiều tab và phối hợp hành động trong các phiên làm việc dài hơn. Đối với những người làm việc với bảng tính, Claude for Excel đã có mặt trên Max, Team và Enterprise, với sự hỗ trợ cho biểu đồ, bảng tổng hợp và tải tệp lên.
Trong ứng dụng, một trong những tính năng mới thiết thực nhất là Những cuộc trò chuyện dài không còn bị kẹt nữaHệ thống tự động tóm tắt bối cảnh trước đó khi cần thiết để mở rộng phiên họp, duy trì tính nhất quán và khả năng truy xuất nguồn gốc của các quyết định.
Tất cả những điều này đi kèm với sự sẵn có của Opus 4.5 trong API và trên các nền tảng đám mây chínhĐiều này giúp tích hợp vào các đường ống hiện có mà không cần phải chờ triển khai chuyên dụng.
Ba mẫu 4.5 cho các nhu cầu khác nhau: Opus, Sonnet và Haiku
Nhóm 4.5 được tổ chức thành ba cấu hình. Opus 4.5 là trí thông minh tối thượng Với hiệu suất thực tế cho các tác vụ chuyên môn cấp cao, kỹ thuật chuyên nghiệp và tác nhân tiên tiến. Đây là giải pháp duy nhất chấp nhận tham số nỗ lực.
Sonnet 4.5 Đây là công cụ đắc lực cho việc mã hóa và các tác nhân phức tạp. Nó mang lại những cải tiến trong toàn bộ vòng đời phát triển: lập kế hoạch và thiết kế hệ thống, kỹ thuật bảo mật, hướng dẫn chính xác hơn sau đây và phong cách giao tiếp ngắn gọn và tự nhiên, cập nhật tiến độ dựa trên thực tế.
Về khả năng của tác nhân, Sonnet 4.5 có thể hoạt động độc lập trong nhiều giờ mà vẫn duy trì được sự tập trung. với nhận thức về bối cảnh và ngân sách tượng trưng theo thời gian thực. Nó sử dụng các lệnh gọi công cụ song song, phối hợp tốt hơn nhiều nguồn và duy trì trạng thái giữa các phiên dài.
Haiku 4.5 Nó tập trung vào tốc độ và chi phí, đạt hiệu suất gần như tuyệt đối với mức giá chỉ bằng một phần ba, với tốc độ nhanh hơn gấp đôi so với Sonnet 4. Lần đầu tiên nó mang lại suy nghĩ mở rộng đến dòng Haiku, với bản tóm tắt suy nghĩ tùy chọn, xen kẽ giữa các lệnh gọi công cụ và kiểm soát ngân sách mã thông báo suy nghĩ.
Với điều này, Anthropic khôi phục lại sự cân bằng cho danh mục của nóTrong những tháng gần đây, Sonnet 4.5 đã làm lu mờ Opus 4.1 cũ hơn; hiện nay mỗi mô hình đang giành lại vị thế của mình về mặt chi phí, tốc độ và dung lượng.
Sử dụng các công cụ và API mới: những thay đổi hàng ngày
Đối với quy trình làm việc đa công cụ, Anthropic giới thiệu gọi công cụ lập trìnhMô hình có thể viết mã gọi các công cụ trong vùng chứa thực thi, giảm độ trễ khứ hồi và lọc dữ liệu trước khi tải vào cửa sổ ngữ cảnh.
Nếu bạn có hàng trăm công cụ, thì công cụ mới tìm kiếm công cụ Nó cho phép bạn khám phá và tải động chỉ những gì cần thiết. Có hai biến thể: sử dụng các mẫu biểu thức chính quy với công cụ tool_search_tool_regex_20251119và thông qua các truy vấn ngôn ngữ tự nhiên với tool_search_tool_bm25_20251119, tiết kiệm 10.000 đến 20.000 mã thông báo ngữ cảnh bằng cách không tải toàn bộ danh mục.
Để cải thiện độ chính xác của lệnh triệu tập, bạn có thể đóng góp ví dụ về cách sử dụng công cụ với các đầu vào hợp lệ để hướng dẫn mô hình thông qua các lược đồ phức tạp; và nếu bạn quan tâm đến bối cảnh, có chỉnh sửa ngữ cảnh tự động dọn dẹp các cuộc gọi và kết quả cũ khi giới hạn mã thông báo sắp đạt đến.
Trong kiểm soát thực hiện, mô hình 4.5 bao gồm các lý do mới để dừng lại: model_context_window_exceeded để chỉ ra rằng cửa sổ ngữ cảnh đã được tiếp cận, phân biệt nó với phần trên cùng của max_tokensvà lý do refusal Bản cập nhật này giải quyết các sự cố phát sinh khi hệ thống từ chối tạo nội dung vì lý do bảo mật. Ngoài ra, bản cập nhật còn sửa lỗi giữ nguyên ngắt dòng khi truyền tham số cho công cụ.
Suy nghĩ mở rộng trả về một tóm tắt quá trình nội bộ trong API nhắn tin và khi truyền, nó có thể đến theo từng đợt phân phối rời rạc với độ trễ nhỏ; không có gì quan trọng, nhưng đáng để ghi nhớ cho UX của trực tuyến.
Công cụ phát triển: trình soạn thảo văn bản và thực thi mã
Nếu bạn sử dụng trình soạn thảo văn bản của Claude, sẽ có phiên bản mới: loại công cụ text_editor_20250728 với tên str_replace_based_edit_tool, và lệnh undo_edit Tính năng này không còn được hỗ trợ nữa. Lưu ý nếu bạn đang di chuyển từ Sonnet 3.7.
Để thực thi mã, chúng tôi khuyến nghị như sau: phiên bản code_execution_20250825, trong đó thêm lệnh Bash và thao tác tệp. Biến thể cũ code_execution_20250522 Nó vẫn còn có sẵn, nhưng vì nó chỉ Python Không khuyến khích sử dụng cho các triển khai mới.
Những thay đổi này, cùng với sự hỗ trợ của việc sử dụng xen kẽ các công cụ và suy nghĩ mở rộngHọ hướng tới những luồng tự nhiên hơn, trong đó mô hình lý luận, tham khảo các công cụ và tiếp tục cuộc trò chuyện mà không cần những bước nhảy nhân tạo.
Giá cả, điểm cuối và tính khả dụng của đám mây
Với mức giá giảm xuống còn 5 đô la cho mỗi triệu token tham gia và 25 đô la cho mỗi triệu token thoát ra, Các mẫu 4.5 duy trì mức giá cạnh tranhNgoài ra còn có một tính năng mới dành cho các điểm cuối khi chúng được sử dụng thông qua nhà cung cấp dịch vụ đám mây.
AWS Bedrock và Google Vertex AI cung cấp các điểm cuối toàn cầu và khu vực Đối với Opus 4.5, Sonnet 4.5 và Haiku 4.5, các dịch vụ khu vực đảm bảo định tuyến theo địa lý với mức phí cao hơn 10%. API độc quyền của Anthropic mặc định là toàn cầu và không bị ảnh hưởng bởi thay đổi này.
Opus 4.5 có sẵn trong Các ứng dụng, API và nền tảng chính của Anthropic, bao gồm các tích hợp như Amazon Bedrock. Điều này làm giảm el tiempo để triển khai trong môi trường kinh doanh.
Những hạn chế và điều khoản nhỏ: những điều bạn nên biết
Gót chân Achilles, hiện tại, là giới hạn sử dụng và hạn ngạchNgay cả với gói Pro và Max, token cũng hết rất nhanh, và bộ đếm sẽ đặt lại sau mỗi năm giờ kể từ tin nhắn đầu tiên. Vì Opus là gói cước mạnh nhất, nên nó cũng tiêu thụ token nhanh hơn, gây khó chịu cho những người dùng trả 20 đô la hoặc thậm chí 100 đô la mỗi tháng.
Anthropic ưu tiên tính khả dụng. Hoa Kỳ và Tây ÂuNếu bạn hoạt động ở Mỹ Latinh hoặc Châu Á - Thái Bình Dương, độ trễ có thể tăng lên và hỗ trợ ngôn ngữ địa phương có thể bị hạn chế hơn. Bạn nên đo độ trễ theo thời gian thực trước khi triển khai các dự án quan trọng.
Một điểm khác là sự phụ thuộc vào kết nối và dịch vụ đám mâyCác tích hợp như Excel và Chrome dựa trên dịch vụ đám mây. Đối với các lĩnh vực được quản lý yêu cầu triển khai tại chỗ, việc triển khai riêng tư sẽ cần được thương lượng hoặc xem xét các mô hình mở trong các tình huống cụ thể.
Cuối cùng, để tận dụng tối đa Opus 4.5 cần Đào tạo về kỹ thuật nhanh chóng, quản lý ngữ cảnh và gỡ lỗiNếu không có những biện pháp tốt, năng lực sẽ bị lãng phí và chi tiêu tượng trưng sẽ tăng vọt; việc đầu tư vào đào tạo nội bộ là rất đáng giá.
Chiến lược và so sánh: nó phù hợp như thế nào so với OpenAI và Google
Với Opus 4.5, Anthropic tự định vị mình là nhà cung cấp cao cấp cho các chuyên gia và nhà phát triểnCạnh tranh trực tiếp trong các ứng dụng đòi hỏi độ chính xác và độ tin cậy tối quan trọng, cuộc cạnh tranh này đã mở ra cuộc chiến về giá cả và khả năng mang lại lợi ích cho người mua, và sự kết hợp giữa hiệu suất, chi phí và khả năng kiểm soát nỗ lực là một sức hấp dẫn mạnh mẽ.
So với các đối thủ, Opus 4.5 vượt trội ở quy trình làm việc với các công cụ và tác nhân tự độngTrong đa phương thức hoặc lý luận thuần túy, khoảng cách với một số mô hình cạnh tranh nhỏ hơn, nhưng tập hợp các chức năng của hệ sinh thái 4.5 lại làm thay đổi cán cân trong các tình huống sản xuất đòi hỏi sự kiên trì và phối hợp.
Khi nào nên di chuyển và cách đánh giá việc di chuyển trong công ty
Nếu bạn đang sử dụng Claude 3.5 hoặc Opus 4.1, hãy cân nhắc thực hiện bước nhảy khi bạn cần lý luận phức tạp, khối lượng mã thông báo lớn hoặc khả năng của tác nhân với quyền truy cập vào các công cụ. Với hơn 10 triệu mã thông báo mỗi tháng, khoản tiết kiệm này bù đắp cho nỗ lực tái cấu hình.
Anthropic ghi lại các tuyến đường di cư có và không có sự thay đổi đột ngột: Sonnet 3.7 đến Sonnet 4.5, Haiku 3.5 đến Haiku 4.5 (nhiều thay đổi hơn) và nâng cấp mượt mà từ Opus 4.1 lên Sonnet 4.5 hoặc Opus 4.5. Nên xem lại danh sách kiểm tra trước khi di chuyển môi trường sản xuất.
Để đưa ra quyết định, hãy tự hỏi bản thân xem bạn có các quy trình lặp đi lặp lại với khối lượng đủ lớn hay không, kiểm soát dữ liệu và tiêu chí xác thựcVà các KPI rõ ràng đo lường số giờ tiết kiệm được, lỗi và thời gian phản hồi. Nếu không có số liệu, bất kỳ phi công nào cũng sẽ bị bỏ lại phía sau.
Danh sách kiểm tra thực tế để áp dụng an toàn: chính sách bảo mật và DPA, bằng chứng khái niệm bị giới hạn (ví dụ, phiếu hỗ trợ hoặc tóm tắt cuộc họp), đào tạo nội bộ cho hai người chủ chốt, theo dõi chi phí bằng cảnh báo và kế hoạch dự phòng trong trường hợp dịch vụ thay đổi hoặc gặp sự cố.
Đối với nhà phát triển: Sử dụng Opus 4.5 trong Cursor và Claude Code
Để tận dụng Opus 4.5 trong quá trình phát triển hàng ngày, Tạo tài khoản Anthropic và tạo khóa APIKích hoạt quyền truy cập vào mô hình theo kế hoạch của bạn (Max, Team hoặc Enterprise) và cấu hình các công cụ thông thường của bạn, bao gồm Lập trình viên Deepseek.
Trong Con trỏ, thêm Khóa API Anthropic trong phần mô hình và chọn Opus 4.5 trong bảng điều khiển trò chuyện hỗ trợ AI. Bạn có thể làm việc với tính năng tự động hoàn thành hỗ trợ trò chuyện và luồng đa tác nhân trực tiếp trong IDE; có gói Cursor Pro trả phí, theo công cụ, cho phép truy cập đơn giản vào các mô hình nâng cao.
Trong Claude Code, hãy khởi chạy CLI trong thư mục dự án của bạn, Đăng nhập bằng mật khẩu của bạn và thay đổi mô hình bằng lệnh lựa chọn. Từ đó, kích hoạt chế độ lập kế hoạch để đề xuất các bước trước khi bạn chạm vào mã và sử dụng nó để tái cấu trúc, gỡ lỗi hoặc chạy các tập lệnh hướng đến mục tiêu.
Thực hành tốt nhất: chuyển đổi giữa các mẫu khi cần (Haiku hoặc Sonnet cho các nhiệm vụ nhẹ, Opus khi lý luận đòi hỏi nóTheo dõi việc sử dụng mã thông báo để ngăn ngừa hiện tượng trôi dạt và tuân thủ giới hạn tỷ lệ. Nếu lỗi xác thực xuất hiện trong các công cụ của bên thứ ba, hãy kiểm tra xem tài khoản của bạn đã bật mô hình chưa và bạn có đang sử dụng phiên bản ứng dụng mới nhất không.
Đối với những câu hỏi thường gặp, vui lòng tham khảo trung tâm trợ giúp công cụ và diễn đàn, trong đó các sự cố đã biết như phản hồi rời rạc trong suy nghĩ mở rộng hoặc thông báo mô hình trái phép được liệt kê khi khóa API không khớp với kế hoạch đã ký kết.
Theo quan điểm của tất cả những điều trên, Opus 4.5 kết hợp sức mạnh chuẩn mực, kiểm soát chi phí được tinh chỉnh và cải tiến nền tảng Điều này khiến nó đặc biệt hấp dẫn đối với kỹ thuật phần mềm, tự động hóa văn phòng và các tác nhân tự động. Vấn đề giới hạn sử dụng vẫn cần được giải quyết để hoàn thiện trải nghiệm, nhưng hướng đi đã rõ ràng: chất lượng cao hơn cho mỗi token và một hệ sinh thái được chuẩn bị tốt hơn cho công việc thực tế, bền vững.
Người viết đam mê về thế giới byte và công nghệ nói chung. Tôi thích chia sẻ kiến thức của mình thông qua viết lách và đó là những gì tôi sẽ làm trong blog này, cho bạn thấy tất cả những điều thú vị nhất về tiện ích, phần mềm, phần cứng, xu hướng công nghệ, v.v. Mục tiêu của tôi là giúp bạn điều hướng thế giới kỹ thuật số một cách đơn giản và thú vị.
