Claude Sonnet 4.5: Meningkatkan Agen, Kode, dan Kegunaan PC

Pembaharuan Terakhir: 03/10/2025
penulis: Isaac
  • Perhatian berkelanjutan dan tamasya yang diperpanjang: lebih dari 30 jam fokus dan hingga 64.000 token.
  • Peningkatan praktis dalam penggunaan komputer dan browser, dengan lonjakan hingga 61,4% di OSWorld.
  • pemrograman ujung ke ujung dengan Claude Code, titik pemeriksaan dan ekstensi untuk VS Code.
  • Platform yang diperkuat: memori, pembersihan konteks, dan SDK Agen dengan izin yang terperinci.

Berita dari Claude Soneta 4.5

Anthropic telah bergerak dengan Claude Sonnet 4.5, menaikkan standar sedikit lebih tinggi di pasar yang sangat ketat. antara OpenAI dan GoogleSingkatnya, ini adalah model mereka yang paling ramping sejauh ini, dengan peningkatan signifikan dalam agen, pemrograman, dan penggunaan komputer, tepat di mana pesaing paling kesulitan. referensi kopilot, tetapi juga dengan peningkatan praktis bagi pengguna yang mencari produktivitas nyata setiap hari.

Untuk memahami mengapa rilis ini penting, ada baiknya melihat asal-usul seri ini. Sonnet 3.7 memperkenalkan pendekatan penalaran hibrida yang telah menandai perbedaan dalam pengkodean dan analisis, dan Sonnet 4 mengukuhkan strategi tersebut sebagai opsi yang stabil bagi asisten. durasi fokus, keandalan dan alat, memperkuat posisinya dalam proyek jangka panjang di mana konsistensi dan memori kontekstual adalah segalanya.

Apa yang sebenarnya dibawa Soneta 4.5 dan apa yang membuatnya menonjol

Pengumuman ini berfokus pada tiga aspek: agen yang bekerja berjam-jam, pemrograman menyeluruh, dan penggunaan komputer yang lebih mahir. Menurut Anthropic, model ini mampu mempertahankan perhatian selama lebih dari 30 jam pada tugas-tugas kompleks, sesuatu yang tidak umum untuk sistem jenis ini. daya tahan berkelanjutan Hal ini memungkinkan Anda merencanakan dan mengeksekusi pekerjaan jangka panjang tanpa membuat model tersebar atau kehilangan alurnya, yang merupakan keuntungan nyata dalam pemfaktoran ulang, proyek data, atau laporan padat.

Peningkatan utama lainnya adalah panjang keluaran: sekarang mendukung respons hingga 64.000 token, sehingga Anda dapat membuat blok kode besar, dokumen teknis, atau analisis ekstensif tanpa harus berulang kali mengiris dan memotong konteks. lebih sedikit datang dan pergi dan lebih sedikit gesekan saat mewujudkan dokumen atau modul perangkat lunak yang kompleks.

Selain itu, pengembang memiliki tuas baru: kendali atas berapa lama model berpikir sebelum merespons. Hal ini membuka peluang untuk menyempurnakan keseimbangan antara kecepatan dan kedalaman berdasarkan kasus per kasus. sesuaikan kecepatan dan kedalamanIni mungkin tampak seperti detail kecil, tetapi pada tingkat alur kerja, ini membuat perbedaan.

Penggunaan komputer dan browser: masuk ke OSWorld

Salah satu keunggulan Anthropic adalah penggunaan praktisnya terhadap komputer. Dalam uji coba OSWorld, yang mengevaluasi tugas-tugas desktop di dunia nyata, Sonnet 4.5 meraih skor 61,4%, dibandingkan dengan 42,2% untuk versi sebelumnya. peningkatan tugas desktop mendukung skenario seperti menavigasi situs web, memanipulasi spreadsheet, atau melakukan analisis kompetitif dengan pengawasan manusia yang lebih sedikit.

Integrasi peramban juga merupakan nilai tambah. Ekstensi Chrome tersedia bagi mereka yang telah mendaftar sebelumnya, dan berfungsi sebagai etalase untuk proses riset web atau otomatisasi ringan. mengumpulkan informasi, mengurangi manajemen mikro pengguna pada tugas yang berulang.

  Copilot untuk administrasi: panduan lengkap untuk memaksimalkan penggunaan Microsoft 365

Pemrograman End-to-End: Dari Desain hingga Refactoring

Jika ada satu area yang ingin dikesampingkan Anthropic, itu adalah pengembangan perangkat lunak. Perusahaan mengklaim bahwa Sonnet 4.5 mencakup seluruh siklus hidup: perencanaan, implementasi, pengujian, pemeliharaan, patching, dan refactoring proyek-proyek besar. Dukungan Kode Claude, bertujuan untuk menjadi asisten tetap bagi tim teknis, bukan sekadar pembangkit cuplikan yang terisolasi.

Angka-angkanya ada: dalam SWE-bench Verified, sebuah tes yang mengevaluasi penyelesaian masalah kode dalam skenario dunia nyata, model ini mencapai skor 77,2%. Dalam skor tersebut, model ini melampaui alternatif seperti GPT-5 Codex dan Gemini 2.5 Pro, menurut data yang dibagikan. peningkatan perubahan struktural dan konsistensi harus dipertahankan antara lusinan file.

Dalam praktiknya, sesi yang diperpanjang telah dilaporkan di mana sistem tersebut mampu bertahan sendiri dalam hal melakukan refaktor, membagi tanggung jawab, dan menstabilkan arsitektur yang bersih. kopilot yang tidak kehilangan benang, sesuatu yang bagi siapa pun yang pernah mengalaminya, merupakan tantangan yang cukup besar.

Claude Code: wajah baru, pos pemeriksaan, dan VS Code

Ekosistem di sekitar model ini menghadirkan fitur-fitur baru yang spesifik untuk penggunaan sehari-hari. Antarmuka terminal Claude Code telah menerima pembaruan untuk kejelasan dan kenyamanan, dan ekstensi baru untuk Visual Studio Code mengintegrasikan wizard langsung ke dalam IDE. integrasi ke dalam IDE dan membantu menjaga fokus.

Fitur checkpointing hadir sebagai jaring pengaman. Fitur ini memungkinkan Anda menjalankan tugas-tugas besar dan langsung kembali ke kondisi sebelumnya jika terjadi sesuatu yang tidak diharapkan. pos pemeriksaan Hindari rasa takut dalam memerintahkan operasi yang panjang, karena selalu ada pembatalan yang kuat yang tidak bergantung pada mengingat setiap langkah secara manual.

Aplikasi Claude: Analisis Kode dan Pembuatan File

Di aplikasi Claude, tersedia di web dan seluler iOS y AndroidKemampuan untuk menganalisis data dengan kode, membuat berkas, dan memvisualisasikan informasi dalam format perkantoran umum sedang diperkenalkan. Fitur ini tersedia dalam pratinjau untuk paket berbayar. mengubah percakapan menjadi dokumen tanpa meninggalkan obrolan itu sendiri.

Sementara itu, ekstensi Chrome Claude sekarang tersedia bagi mereka yang bergabung dalam daftar tunggu bulan lalu. otot di browser, dengan kasus penggunaan seperti konsolidasi sumber, daftar periksa tugas, atau penangkapan data yang dipandu dengan baik.

Platform Pengembang: Konteks, Memori, dan Izin

Di tingkat platform, prioritasnya adalah menjalankan agen untuk jangka waktu yang lebih lama dengan biaya kognitif yang lebih rendah. Sebuah sistem telah diperkenalkan yang secara otomatis menghapus konteks yang usang agar percakapan tetap lincah tanpa kehilangan informasi penting. alat memori, menghindari pengulangan data dan keputusan sepanjang waktu.

Claude Agent SDK membuka akses ke alat inti, mekanisme manajemen konteks, dan kerangka kerja izin yang menjadi dasar Claude Code. potongan yang sama, sehingga batasan, kemampuan, dan tanggung jawab agen dapat ditentukan secara tepat.

  8 Cara Memperbaiki Error 0xc000012f di Windows 10

Bahkan pada tingkat operasional, manajemen konteks menjadi terperinci: pemicu dapat diatur untuk membersihkan riwayat berdasarkan volume token, mempertahankan panggilan alat tertentu, dan memastikan bahwa jumlah pekerjaan minimum yang layak selalu tersisa. kebersihan kontekstual yang membantu memperpanjang sesi tanpa membuat model terhambat dengan teks lama.

Bayangkan dengan Claude: Pratinjau Penelitian

Selain model tersebut, Anthropic meluncurkan pratinjau sementara yang disebut Imagine with Claude. Dalam eksperimen ini, sistem menghasilkan perangkat lunak secara otomatis tanpa fitur yang telah ditentukan sebelumnya atau kode yang telah ditulis sebelumnya. lingkungan yang memproduksi komponen sesuai permintaan, seperti model hidup yang beradaptasi dengan tujuannya.

Ini merupakan anggukan pada masa depan agen yang dapat diprogram, di mana batasan antara spesifikasi dan eksekusi menjadi kabur. jaringan pipa yang lebih fleksibel dan dipadatkan menjadi alat yang dapat digunakan dengan lebih sedikit perantara.

Kasus penggunaan: dari keamanan siber hingga konten

Anthropic menargetkan spektrum aplikasi yang luas, dimulai dengan tim teknis dan korporat. cybersecurity, janjinya terletak pada agen yang mampu mendeteksi dan memperbaiki kerentanan tanpa campur tangan manusia yang berkelanjutan. mendeteksi dan memperbaiki kerentanan, yang mempercepat waktu respons.

Di bidang keuangan, peran kuncinya adalah memantau perubahan regulasi dan manajemen risiko. Hal ini didukung oleh kinerja 92% pada tes Vals AI, yang dirancang untuk menilai keterampilan seorang analis keuangan junior. otomatisasi pemeriksaan, selalu dengan mata manusia yang mengawasi yang kritis.

Dalam produktivitas, penekanannya adalah pada pengeditan dan pembuatan file office dalam berbagai format tanpa meninggalkan Claude. mengubah ide menjadi dokumen yang bisa diterapkan, dan di sini model memanfaatkan opsi keluaran panjang yang baru untuk menghasilkan potongan yang lebih lengkap.

Untuk penelitian, integrasi data internal dan eksternal sangat penting: dari pengumpulan sumber hingga penyiapan laporan dengan kutipan dan lampiran. mempertahankan konsistensi selama berjam-jam, di mana benang biasanya putus pada sebagian besar peserta.

Dalam pembuatan konten, penekanannya adalah pada pemahaman yang bernuansa dan analisis semantik yang lebih mendalam. menyesuaikan nada, struktur, dan akurasi fakta, sesuatu yang kritis dalam bagian editorial atau dokumentasi teknis yang harus baik-baik saja.

Tolok ukur, perbandingan dan peringatan

Hasil benchmark terlihat bagus untuk Sonnet 4.5: 61,4% di OSWorld, lonjakan 19,2 poin dibandingkan versi sebelumnya; Bangku SWE Terverifikasi, di depan alternatif OpenAI y Google; 92% di Vals AI berorientasi pada keuangan. dukungan tolok ukur.

Namun, perlu diingat bahwa tolok ukur bukanlah dunia nyata. Ada risiko pelatihan yang tidak disengaja pada beberapa tes ini atau merancang penilaian yang lebih sesuai dengan model tertentu. kejutan positif, menunjukkan adanya peningkatan nyata dalam pemrograman dibandingkan dengan favorit sebelumnya.

Ketersediaan, paket, dan harga

Soneta 4.5 tersedia di situs web Claude dan di apps iOS dan Android untuk semua pengguna. Secara paralel, pengembang dapat mengintegrasikannya dari Claude Developer Platform dan juga melalui Amazon Bedrock dan Google Cloud Vertex AI. penyebaran luas yang memfasilitasi pengujian cepat dan proyek serius dalam produksi.

  Cara Memperbaiki Kesalahan Critical_Process_Died Windows 10

Paket gratis bekerja dengan batas sesi yang diatur ulang setiap lima jam dan jumlah pesan bervariasi berdasarkan permintaan saat ini. $3 per juta token dan $15 per juta token keluaran, mempertahankan skema yang sama seperti Sonnet 4.

Persaingan dan konteks pasar

Peluncuran ini sesuai dengan perlombaan yang tidak kenal menyerah. OpenAI mendorong dengan lini GPT-5 dan Google terus mendorong dengan Gemini, sehingga setiap iterasi memiliki bobot. posisi yang berfokus pada agen tahan lama Tampaknya ini adalah posisi yang masuk akal pada titik ini.

Dalam episode sebelumnya, model dari keluarga tersebut telah membuktikan diri mampu bertahan dalam maraton yang tidak biasa, mulai dari permainan yang sangat lama hingga sesi refaktor yang berkelanjutan. dinormalisasi sebagai kapasitas produk, bukan sebagai keingintahuan laboratorium atau sebagai demo satu kali.

Keamanan dan keandalan

Anthropic menekankan bahwa Sonnet 4.5 telah menjalani tinjauan eksternal untuk memvalidasi keamanan dan kinerjanya. Di saat yang sama, perusahaan juga berupaya mengurangi perilaku bermasalah yang umum terjadi pada chatbot, seperti sanjungan kosong atau respons yang memperkuat kesalahpahaman. tinjauan keamanan eksternal, krusial untuk model yang ingin diintegrasikan ke dalam alur kerja yang serius.

Kombinasi izin yang dapat disesuaikan, alat yang lebih terdefinisi, dan manajemen konteks yang lebih rinci membantu petugas tetap pada jalurnya. prediktabilitas dan auditabilitas, dua kata ajaib di lingkungan perusahaan.

Sebuah pengalaman yang terdengar familiar: dari kekacauan menuju keteraturan

Di antara kasus penggunaan yang paling mencolok adalah kisah umum repositori kacau yang, dalam sesi yang berkepanjangan, diakhiri dengan arsitektur yang bersih, pembagian tanggung jawab yang jelas, dan proyek yang akhirnya dikompilasi. puluhan file baru, setelah meminta model untuk berpikir sejenak sebelum menjawab.

Moral yang diulang adalah, bahkan ketika hasilnya memerlukan penyesuaian, kemajuan dalam tatanan dan struktur sudah memberikan kompensasi. el tiempo diinvestasikan. kunci untuk proyek lama dengan jaminan.

Di luar kecemerlangan gambar-gambarnya, Soneta 4.5 menyajikan interpretasi yang jelas: semakin panjang dan rumit tugasnya, semakin besar keuntungan yang diperoleh dari ketahanan barunya dan hasil keluarannya yang diperluas. output dan daya tahan yang lama, serangkaian fitur baru ini sangat cocok.

Anthropic mengusulkan model yang dirancang untuk tetap bertenaga dan bekerja dengan cermat selama berjam-jam, dengan peralatan yang sesuai dengan pekerjaan sehari-hari pengembang, analis, dan tim penelitian. sekutu yang sabar untuk tugas yang panjang, didukung oleh data tolok ukur, peningkatan platform, dan penawaran yang sudah tersedia untuk pengujian dan penerapan.

antropik-0
Artikel terkait:
Amazon memperkuat komitmennya terhadap Anthropic dengan investasi tambahan sebesar $4.000 miliar