- Opus 4.5가 선두를 차지합니다 프로그래밍 그리고 SWE-Bench에서 80,9%를 기록하며 경쟁사보다 더 나은 성적을 거둔 에이전트입니다.
- 새로운 노력 매개변수와 백만 토큰당 5/25 USD로 가격 인하.
- Chrome, Excel, Claude Code가 업데이트되었으며 보안과 메모리가 강화되었습니다.
- 10% 클라우드 프리미엄과 함께 엄격한 사용 제한 및 지역별 엔드포인트가 적용됩니다.
클로드 오푸스 4.5 프로그래밍, 지능형 에이전트, 사무 업무 분야에서 선두 자리를 차지하겠다는 분명한 포부를 품고 있습니다. Anthropic의 제안은 거창한 헤드라인에 그치지 않습니다. 수치, 비교, 그리고 제품 변경 사항들을 통해 우리가 AI를 사용하는 방식을 재정의할 수 있습니다. IA 실제 작업에서.
이 분야의 다른 거대 기업과의 직접적인 경쟁을 넘어, 업데이트에는 토큰 효율성과 노력 제어의 획기적인 발전이 포함됩니다.보안, 도구 사용, 메모리, 그리고 다양한 새로운 애플리케이션 통합이 개선되었으며, 단순히 모델이 빨라진 것이 아니라, 긴 다중 에이전트와 덜 원활한 작업 주기를 위해 설계된 플랫폼입니다.
Opus 4.5는 무엇이고 왜 이렇게 큰 화제를 불러일으켰나요?
경쟁사들이 강력한 입지를 구축한 지 며칠 만에 이런 움직임이 나타났습니다. Anthropic은 이를 가장 유능한 모델로 제시합니다. 모든 작업에 더 나은 AI 프로그래밍, 에이전트 관리 및 컴퓨터 사용이 회사는 또한 심층 연구, 문서 작성, 시각적 및 수학적 추론 분야에서의 가치를 강조합니다.
이론의 영역에 머무르지 않기 위해 회사는 모델을 유지합니다. 이는 다음과 같은 다른 벤치마크를 능가합니다. 쌍둥이 자리 3 Pro 및 GPT-5.1 Codex-Max 소프트웨어 엔지니어링 테스트에서 말이죠. 실제로 이 아이디어는 명확합니다. 단계가 줄어들고, 정확도가 높아지고, 복잡한 워크플로우에서 도구와의 조정이 더 원활해집니다.

측정된 성능: 벤치마크 및 실제 테스트
소프트웨어 엔지니어링 벤치마크인 SWE-Bench Verified에서 Opus 4.5는 80,9%의 정확도를 달성했습니다.이전 버전과 최상위 경쟁사보다 우수한 성과를 보였습니다. 이 데이터는 단순히 게임 연습이 아닌 GitHub 프로젝트에서 실제 문제를 해결하는 능력을 측정하기 때문에 중요합니다.
Anthropic은 더 나아가 엔지니어를 위한 실제 채용 테스트회사 측에 따르면, 2시간 동안 진행된 이 테스트는 난이도에 따라 평가되었으며, 해당 모델은 연습 문제를 풀었을 뿐만 아니라... 그는 모든 인간 후보자들을 이겼다 동일한 시험을 치른 사람들이 가설의 병렬 계산과 같은 전략에 의존합니다.
일상적인 사무 업무에서도 이러한 도약은 눈에 띕니다. 스프레드시트에서 더 나은 결과재무 모델에서 정확도가 20%, 효율성이 15% 증가한 것으로 보고되었으며, 이를 통해 조직화할 수 있는 능력이 추가되었습니다. 데이터베이스요점을 잃지 않고 프레젠테이션을 준비하고 긴 보고서를 작성하세요.
이 모든 것은 내부 테스트에서 최대 200.000개의 토큰에 대한 장기적 맥락과 강화된 작업 메모리 관리에 의해 지원됩니다. 긴 대화는 자동 요약을 통해 이점을 얻을 수 있습니다. 창 한계에 부딪히지 않고 일관성을 유지합니다.
효율성, 비용 및 새로운 노력 매개변수
차별화 요소 중 하나는 가격입니다. API 가격은 백만 개의 진입 및 퇴장 토큰당 15달러와 75달러에서 각각 5달러와 25달러로 떨어집니다.각각. 이를 통해 이전에는 일상적으로 사용하기에는 너무 비쌌던 자동화를 구현할 수 있는 길이 열렸습니다.
절감을 극대화하기 위한 핵심 기술 요소는 낮음, 중간, 높음 수준의 노력 매개변수입니다. 중간 수준의 노력에서는 Opus 4.5는 76% 더 적은 출력 토큰을 사용하여 SWE-Bench Verified에서 Sonnet 4.5의 성능과 일치합니다.큰 노력으로, Sonnet 4.5보다 4,3퍼센트 포인트 더 높은 성과를 보이며 여전히 토큰을 48% 적게 사용합니다.여기서 참신한 점은 제어 기능뿐만 아니라 모델을 변경하지 않고도 추론의 깊이를 다양하게 조절할 수 있는 능력입니다.
이 조정은 전체 응답에 영향을 미칩니다. 텍스트, 도구 호출 및 확장된 사고노력이 적으면 간결하고 효율적인 답변을 얻을 수 있고, 노력이 많으면 복잡한 시나리오에 대한 자세한 분석과 광범위한 설명을 얻을 수 있습니다.
청구에는 또한 실용적인 뉘앙스가 도입되었습니다. Anthropic은 요청에 토큰을 거의 추가하지 않는 자동 최적화를 인식합니다.하지만 그는 시스템에서 추가된 토큰에는 비용이 청구되지 않는다고 분명히 밝혔습니다. 사소한 세부 사항일 수는 있지만, 확장할 때는 중요합니다.
코드 그 이상: 에이전트, 사무 자동화 및 컴퓨터 사용
Opus 4.5는 프로그래밍에 있어서 높은 목표를 가지고 있지만 그들의 개선은 거기서 끝나지 않습니다.이 모델은 전문적인 문서, 스프레드시트, 프레젠테이션을 만드는 데 탁월하며, 여러 출처를 이용한 연구 과제를 수행하고, 관련 맥락을 잃지 않고 긴 스레드를 관리하는 데 효과적입니다.
에이전트의 역량에 따라 조정이 한 단계 더 높아집니다. 하위 에이전트 팀의 효과적인 관리 긴 워크플로우에서도 작업을 분할하고, 우선순위를 정하고, 수 시간 동안 안정적으로 진행할 수 있는 복잡한 다중 에이전트 시스템에 적합합니다.
컴퓨터 사용 측면에서 업데이트에는 다음이 포함됩니다. 화면 영역을 자세히 검사하기 위한 확대/축소 동작 전체 해상도로 제공됩니다. 이 기능은 작은 글씨를 읽거나, 정보가 많은 인터페이스를 분석하거나, 조치를 취하기 전에 세부 정보를 확인하는 데 유용합니다.
추론, 도구 및 메모리의 조합을 통해 Opus 4.5는 다음을 수행할 수 있습니다. 업무에는 마이그레이션 및 코드 리팩토링, 보고서 생성, 데스크톱 자동화가 포함됩니다. 회전 수가 적고 낭비되는 것도 적습니다.
안전성 및 견고성: 정렬 대 신속한 주입
자율성은 통제에 대한 의문을 제기합니다. 신뢰성여기서 Anthropic은 이것이 그 것이라고 주장합니다. 더욱 견고하게 정렬된 모델 현재까지 시스템 동작을 방해하려는 명령어 주입 공격에 대한 구체적인 진전이 있었습니다.
이는 사소한 세부 사항이 아닙니다. 도구에 액세스할 수 있는 에이전트를 배치하려면 추가적인 방어 수단이 필요합니다.회사는 사용성을 저해하지 않으면서도 장벽을 강화했다고 주장합니다. 그럼에도 불구하고, 민감한 상황에서는 우수한 디자인 관행과 사람의 감독을 권장합니다.
생태계 및 앱: Claude Code, Chrome 및 Excel의 새로운 기능
업데이트는 모델에서 끝나지 않습니다. 제품 스택까지 확장됩니다. Claude Code가 계획 모드를 개선합니다.시작하기 전에 명확한 질문을 하고 계획을 담은 편집 가능한 파일을 만들어 검토와 통제를 용이하게 하세요.
브라우저에서 Claude for Chrome이 Max 사용자를 위해 출시되었습니다.여러 탭에서 작업을 관리하고 긴 작업 세션 내에서 작업을 조율할 수 있다는 장점이 있습니다. 스프레드시트를 사용하는 분들을 위해 Claude for Excel이 Max, Team 및 Enterprise에 적용됩니다.차트, 피벗 테이블, 파일 업로드를 지원합니다.
앱에서 가장 실용적인 새로운 기능 중 하나는 다음과 같습니다. 긴 대화가 더 이상 막히지 않습니다.시스템은 필요에 따라 이전 맥락을 자동으로 요약하여 세션을 확장하고, 의사 결정의 일관성과 추적성을 유지합니다.
이 모든 것은 Opus 4.5의 가용성과 함께 제공됩니다. API 및 주요 클라우드 플랫폼이를 통해 전용 배포를 기다리지 않고도 기존 파이프라인에 쉽게 통합할 수 있습니다.
다양한 요구에 맞는 3가지 4.5 모델: Opus, Sonnet 및 Haiku
4.5 제품군은 세 가지 프로필로 구성됩니다. Opus 4.5는 궁극의 지능입니다 고도의 전문화된 작업, 전문 엔지니어링, 그리고 고급 에이전트에 대한 실질적인 성능을 갖추고 있으며, 노력 매개변수를 수용하는 유일한 제품입니다.
함께하는 4.5 코딩 및 복잡한 에이전트를 위한 핵심 도구입니다. 시스템 계획 및 설계, 보안 엔지니어링 등 전체 개발 라이프사이클에 걸쳐 개선을 제공합니다. 더 정확한 지시를 따르다 그리고 사실에 기반한 진행 상황 업데이트와 간결하고 자연스러운 의사소통 스타일을 갖추고 있습니다.
Sonnet 4.5는 에이전트 기능을 통해 집중력을 유지하면서 수 시간 동안 자율적으로 작업합니다. 맥락과 토큰 예산에 대한 인식을 바탕으로 실시간으로 처리됩니다. 병렬 도구 호출을 사용하고, 여러 소스를 더 효과적으로 조정하며, 긴 세션 간에 상태를 보존합니다.
하이쿠 4.5 이 제품은 속도와 비용에 중점을 두고 Sonnet 4보다 두 배 이상의 속도로 가격의 3분의 1로 최첨단 성능을 달성합니다. 하이쿠 선까지 확장된 생각선택적인 사고 요약이 도구 호출과 사고 토큰 예산 제어 사이에 삽입됩니다.
이것으로, Anthropic 카탈로그의 균형을 회복합니다최근 몇 달 동안 Sonnet 4.5는 기존 Opus 4.1을 압도했습니다. 이제 각 모델은 비용, 속도, 용량 면에서 다시 자리를 잡고 있습니다.
도구 및 새로운 API 사용: 매일 변화하는 사항
다중 도구 워크플로우를 위해 Anthropic이 소개합니다. 프로그래밍 도구 호출이 모델은 실행 컨테이너 내의 도구를 호출하는 코드를 작성하여 왕복 지연 시간을 줄이고 컨텍스트 창에 로드하기 전에 데이터를 필터링할 수 있습니다.
도구가 수백 개 있는 경우 새로운 도구 검색 필요한 것만 찾아 동적으로 로드할 수 있습니다. 두 가지 변형이 있습니다. 도구에서 정규식 패턴을 사용하는 것과 tool_search_tool_regex_20251119그리고 자연어 쿼리를 통해 tool_search_tool_bm25_20251119전체 카탈로그를 로드하지 않음으로써 10.000~20.000개의 컨텍스트 토큰을 절약할 수 있습니다.
소환의 정확도를 높이기 위해 기여할 수 있습니다. 도구 사용의 예 복잡한 계획을 통해 모델을 안내하는 유효한 입력이 있습니다. 컨텍스트에 대해 걱정된다면 다음과 같은 사항이 있습니다. 컨텍스트 편집 토큰 한도에 도달하면 자동으로 오래된 호출과 결과를 정리합니다.
실행 제어에서 4.5 모델에는 중지를 위한 새로운 이유가 포함되었습니다. model_context_window_exceeded 컨텍스트 창에 도달했음을 나타내며 상단과 구별합니다. max_tokens그리고 그 이유 refusal 이 업데이트는 보안상의 이유로 시스템이 콘텐츠 생성을 거부할 때 발생하는 문제를 해결합니다. 또한, 도구에 매개변수를 전달할 때 줄바꿈이 유지되는 버그를 수정합니다.
확장된 사고는 다음을 반환합니다. 내부 프로세스 요약 메시징 API에서 전송 시 약간의 지연이 발생하여 조각난 형태로 도착할 수 있습니다. 중요한 것은 아니지만 UX를 위해 염두에 두는 것이 좋습니다. 스트리밍.
개발 도구: 텍스트 편집기 및 코드 실행
Claude의 텍스트 편집기를 사용하면 새로운 버전이 있습니다. 도구의 종류 text_editor_20250728 이름으로 str_replace_based_edit_tool및 명령 undo_edit 더 이상 지원되지 않습니다. Sonnet 3.7에서 마이그레이션하는 경우 참고하시기 바랍니다.
코드 실행을 위해 다음이 권장됩니다. 버전 code_execution_20250825, 이는 추가됩니다 명령 Bash와 파일 조작. 레거시 변형 code_execution_20250522 아직 사용 가능하지만, 아직은 Python 새로운 구현에는 권장되지 않습니다.
이러한 변경 사항은 지원과 함께 제공됩니다. 도구의 혼합 사용과 확장된 사고그들은 모델이 추론하고, 도구를 참고하고, 인위적인 점프 없이 대화를 계속하는 보다 자연스러운 흐름을 추구합니다.
가격, 엔드포인트 및 클라우드 가용성
토큰이 100만 개 유입될 때마다 가격이 5달러, 토큰이 100만 개 유출될 때마다 가격이 25달러로 떨어지면서 4.5 모델은 경쟁력 있는 가격을 유지합니다.클라우드 공급자를 통해 엔드포인트를 사용하는 경우에도 새로운 기능이 제공됩니다.
AWS Bedrock 및 구글 Vertex AI는 글로벌 및 지역 엔드포인트를 제공합니다. Opus 4.5, Sonnet 4.5 및 Haiku 4.5의 경우, 지역별 API는 10% 가격 프리미엄으로 지리적 라우팅을 보장합니다. Anthropic의 독점 API는 기본적으로 글로벌하며 이번 변경의 영향을 받지 않습니다.
Opus 4.5는 다음에서 사용 가능합니다. Anthropic의 애플리케이션, API 및 주요 플랫폼Amazon Bedrock과 같은 통합을 포함합니다. 이를 통해 시간 비즈니스 환경에서 구현하기 위해.
제한 사항 및 세부 사항: 알아야 할 사항
현재로서는 아킬레스건은 다음과 같습니다. 사용 한도 및 할당량Pro 및 Max 플랜의 경우에도 토큰이 빠르게 소진되고, 첫 메시지 발송 후 5시간마다 카운터가 초기화됩니다. Opus는 가장 강력한 플랜이기 때문에 토큰이 더 빨리 소진되어 월 20달러 또는 100달러를 지불하는 사용자에게는 불편을 초래합니다.
Anthropic은 가용성을 우선시합니다. 미국과 서유럽라틴 아메리카 또는 아시아 태평양 지역에서 운영하는 경우 지연 시간이 증가하고 현지 언어 지원이 더욱 제한될 수 있습니다. 중요한 배포를 시작하기 전에 실시간 지연 시간을 측정하는 것이 좋습니다.
또 다른 점은 연결성 및 클라우드 서비스에 대한 의존성Excel 및 Chrome과 같은 통합 기능은 클라우드 서비스에 크게 의존합니다. 온프레미스 구축이 필요한 규제 대상 분야의 경우, 프라이빗 구축을 협의하거나 특정 시나리오에 따라 오픈 모델을 고려해야 합니다.
마지막으로 Opus 4.5를 최대한 활용하려면 다음이 필요합니다. 신속한 엔지니어링, 컨텍스트 관리 및 디버깅 교육좋은 사례가 없다면 역량이 낭비되고 명목상의 지출이 급증합니다. 내부 교육에 투자하는 것이 좋습니다.
전략 및 비교: OpenAI 및 Google과 비교했을 때 어떤 점이 다른가
Opus 4.5를 통해 Anthropic은 다음과 같은 위치를 차지합니다. 전문가와 개발자를 위한 프리미엄 공급업체정밀도와 신뢰성이 가장 중요한 분야에서 치열한 경쟁이 벌어지면서 구매자에게 유리한 가격 및 성능 전쟁이 촉발되었고, 성능, 비용, 노력 제어의 조합은 강력한 유혹이 되었습니다.
경쟁사들과 비교했을 때 Opus 4.5는 다음과 같은 면에서 뛰어납니다. 자율 도구 및 에이전트를 사용한 워크플로다중 모달리티 또는 순수 추론에서 일부 경쟁 모델과의 격차는 작지만, 4.5 생태계의 기능 세트는 지속성과 조정이 필요한 프로덕션 시나리오에서 균형을 깨뜨립니다.
언제 마이그레이션을 해야 하며 회사 내에서 어떻게 평가해야 할까요?
Claude 3.5 또는 Opus 4.1에서 온 경우 다음 단계로 넘어가는 것을 고려하세요. 복잡한 추론, 높은 토큰 볼륨 또는 에이전트 기능이 필요합니다. 도구에 대한 접근 권한을 제공합니다. 매달 10천만 개가 넘는 토큰을 절약할 수 있어 재구성에 드는 비용을 상쇄할 수 있습니다.
인류학은 이탈 이동이 있거나 없는 이동 경로를 문서화합니다. 소네트 3.7에서 소네트 4.5로, 하이쿠 3.5에서 하이쿠 4.5로 (추가 변경 사항) 및 Opus 4.1에서 Sonnet 4.5 또는 Opus 4.5로의 원활한 업그레이드가 가능합니다. 프로덕션 환경으로 전환하기 전에 체크리스트를 검토하는 것이 좋습니다.
결정을 내리려면 충분한 양의 반복 프로세스가 있는지 스스로에게 물어보세요. 데이터 및 검증 기준에 대한 제어그리고 절약된 시간, 오류, 그리고 응답 시간을 측정하는 명확한 KPI를 설정해야 합니다. 지표가 없다면 어떤 파일럿 프로젝트도 표류할 수밖에 없습니다.
안전한 채택을 위한 실용적인 체크리스트: 개인정보 보호 정책 및 DPA 제한된 개념 증명 (예: 지원 티켓이나 회의 요약), 핵심 인력 2명의 내부 교육, 알림을 통한 비용 모니터링, 서비스가 변경되거나 실패할 경우를 대비한 비상 계획.
개발자를 위한 정보: Cursor 및 Claude Code에서 Opus 4.5 사용
Opus 4.5를 일상 개발에 활용하려면 Anthropic 계정을 만들고 API 키를 생성하세요귀하의 계획(Max, Team 또는 Enterprise)에 따라 모델에 대한 액세스를 활성화하고 다음을 포함한 일반적인 도구를 구성합니다. Deepseek 코더.
커서에 다음을 추가합니다. 모델 섹션의 Anthropic API 키 AI 채팅 패널에서 Opus 4.5를 선택하세요. IDE에서 채팅 지원 자동 완성 및 다중 에이전트 흐름 기능을 직접 사용할 수 있습니다. 유료 Cursor Pro 플랜도 있는데, 이 도구를 사용하면 고급 모델에 간편하게 액세스할 수 있습니다.
Claude Code에서 프로젝트 디렉토리에서 CLI를 시작합니다. 비밀번호로 로그인하세요 선택 명령을 사용하여 모델을 변경하세요. 그런 다음 계획 모드를 활성화하여 코드를 수정하기 전에 단계를 제안하고, 이를 사용하여 리팩토링, 디버깅 또는 목표 지향 스크립트를 실행하세요.
모범 사례: 필요에 따라 템플릿 간 전환(가벼운 작업의 경우 Haiku 또는 Sonnet) 이성이 요구할 때의 작품토큰 사용량을 모니터링하여 드리프트를 방지하고 요금 제한을 준수하세요. 타사 도구에서 승인 오류가 발생하는 경우, 계정에 해당 모델이 활성화되어 있고 최신 버전의 클라이언트를 사용하고 있는지 확인하세요.
자주 묻는 질문은 다음을 참조하세요. 도구 도움말 센터 및 포럼API 키가 계약된 플랜과 일치하지 않을 때 확장된 사고에서의 단편적인 응답이나 승인되지 않은 모델 메시지와 같은 알려진 사건이 나열됩니다.
위의 모든 사항을 고려하여, Opus 4.5는 벤치마킹 역량, 정밀하게 조정된 비용 관리 및 플랫폼 개선을 결합합니다. 이는 특히 소프트웨어 엔지니어링, 사무 자동화, 자율 에이전트에 매력적입니다. 사용 제한 문제는 경험을 완벽하게 완성하기 위해 해결해야 할 과제이지만, 방향은 분명합니다. 토큰당 더 높은 품질과 실제적이고 지속적인 작업에 더 잘 준비된 생태계입니다.
바이트와 기술 전반에 관한 세계에 대한 열정적인 작가입니다. 나는 글쓰기를 통해 내 지식을 공유하는 것을 좋아하며 이것이 바로 이 블로그에서 할 일이며 가젯, 소프트웨어, 하드웨어, 기술 동향 등에 관한 가장 흥미로운 모든 것을 보여 드리겠습니다. 제 목표는 여러분이 간단하고 재미있는 방식으로 디지털 세계를 탐색할 수 있도록 돕는 것입니다.
