- Magika mengidentifikasi jenis file dengan IA, cepat dan dengan akurasi tinggi, melampaui pendekatan berbasis aturan.
- Menawarkan CLI, API dan demo web; diinstal dengan pip dan menggunakan JSON, MIME, tag dan mode prediksi terkalibrasi.
- Mesin Rust ditulis ulang: lebih cepat dan aman; cakupan 200+ jenis dan ketelitian yang tinggi.
- Gunakan bersama alat klasik untuk analisis mendalam; integrasi dengan Gmail, Drive, dan VirusTotal.

Jika Anda bekerja dengan file setiap hari, Anda tahu bahwa mencari tahu sifat asli file bisa sedikit merepotkan: ekstensi yang menyesatkan, format yang mirip, dan konten yang beragam. Di sinilah Magika hadir, solusi Google yang menggunakan kecerdasan buatan untuk mengklasifikasikan jenis file dengan kecepatan dan ketepatan yang mengejutkan.
Alat ini tidak berhenti pada dasar-dasarnya: ia telah dirancang untuk membedakan antara file biner dan teks, mengenali bahasa pemrograman dan format modern, dan melakukannya dalam hitungan milidetik. Dengan Magika, Anda dapat mencoba demo web atau menginstal klien lokal; dalam kedua kasus tersebut, Anda akan mendapatkan detektor jenis berkas. ringan, cepat dan sangat tipis ketika harus membedakan format yang sulit dipahami sistem lain.
Apa itu Magika dan mengapa itu penting?
Dari sistem paling awal Unix, identifikasi tipe bergantung pada libmagic dan utilitas fileIni telah menjadi tolok ukur selama beberapa dekade. Namun, dunia modern penuh dengan format tekstual dan biner dengan struktur yang serupa, judul yang hilang, dan artefak yang dirancang untuk membingungkan, menjadikan masalah ini "sangat tidak manusiawi" jika kita hanya menggunakan aturan-aturan yang dibuat-buat.
Magika mengurangi kesulitan ini dengan mengandalkan model pembelajaran mendalam yang dilatih dalam skala besar untuk mengenali pola byte dan konteks sintaksis. Google menggunakannya secara internal di Gmail, Drive, dan Penjelajahan Aman untuk merutekan file ke pemindai yang sesuai, dan melaporkan bahwa Magika meningkatkan akurasi dibandingkan sistem berbasis aturan sebelumnya. rata-rata 50%. dalam skala ratusan miliar file per minggu.
Selain itu, proyek ini open sourceIni memiliki demo yang berjalan di browser dan menawarkan paket baris perintah dan API Python, serta varian JavaScript/TypeScript eksperimental untuk web. Tujuannya ada dua: memudahkan pengembang mana pun untuk mengintegrasikannya dan memudahkan komunitas untuk mengembangkannya.
Cara mendeteksi jenis file dengan Magika (penggunaan dasar)
Untuk mencoba Magika tanpa menginstal apa pun, kunjungi situs web resmi dan unggah file Anda ke demo: https://google.github.io/magikaJika Anda lebih suka rute lokal, Anda dapat menginstal pustaka dari PyPI dan mulai menggunakan perintah dalam hitungan detik, yang menghasilkan ideal untuk otomatisasi dalam skrip atau alur kerja.
pip install magika
# Tras la instalación, tendrás disponible el comando "magika" en la terminal.
# Ejemplo simple:
magika ruta/al/archivo
Klien baris perintah fleksibel dan dirancang untuk mempercepat alur kerja di dunia nyata. Anda dapat mengaktifkan pemindaian direktori rekursif, meminta output di JSON atau JSONL, mengembalikan label sederhana atau MIME, dan menyesuaikan mode prediksi untuk memprioritaskan akurasi atau cakupan sebagaimana mestinya.
- -r, –recursive: melintasi subfolder; dengan cara ini Anda memproses seluruh direktori tanpa memperumit banyak hal.
- –json / –jsonl: menghasilkan hasil dalam JSON atau Baris JSON untuk integrasi ke dalam pipa data.
- -i, –mime-type: keluaran dalam MIME, bukan deskripsi tipe yang panjang.
- -l, –label: mengembalikan label kompak (lihat –list-output-content-types).
- -c, –compatibility-mode: keluaran serupa dengan perintah file dan tanpa warna.
- -s, –output-score: menambahkan skor prediksi/keyakinan.
- -m, –mode-prediksi [tebakan-terbaik|keyakinan-sedang|keyakinan-tinggi]: Mengatur toleransi kesalahan.
- –batch-size N: menentukan berapa banyak file yang akan diproses per batch untuk pengoptimalan prestasi.
- –no-dereference: tidak mengikuti tautan simbolik (secara default ia menyelesaikannya).
- –colors / –no-colors: mengaktifkan atau menonaktifkan warna.
- -v / -vv: mode keluaran yang lebih verbose atau debugging.
- –generate-report: membuat laporan yang berguna untuk kirim masukan atau untuk menghilangkan kasus yang jarang terjadi.
- –version / -h: versi dan bantuan.
- –list-output-content-types: daftar jenis konten yang didukung.
- –model-dir DIR: Gunakan model kustom.
Dalam pengujian di dunia nyata dengan berbagai folder—misalnya, folder unduhan pada umumnya—Magika bekerja dengan andal dan cepat. Namun, perlu dicatat bahwa Magika tidak mengekstrak metadata visual seperti resolusi atau data EXIF dari gambar; fokusnya adalah pada identifikasi jenisbukan analisis konten yang mendalam.

Inovasi performa, arsitektur, dan mesin
Versi stabil 1.0 menandai lompatan teknis yang signifikan: inti Magika telah ditulis ulang di Karat untuk memaksimalkan kinerja dan keamanan memori. Keputusan ini menghilangkan seluruh kelas kerentanan umum C/C++ (buffer overflow, use-after-free, data race) dan mempercepat klasifikasi ke tingkat yang sulit dicapai dalam implementasi awal.
Apa artinya ini dalam angka? Pada CPU modern, Magika memproses sekitar seribu berkas per detik dengan satu inti, dan meningkat hingga beberapa ribu berkas dengan prosesor multi-inti. Pada MacBook Pro dengan chip M4, angka yang diamati mendekati seribu berkas per inti. Latensi per berkas setelah memuat model hanya sekitar [masukkan nilai di sini]. milidetikyang ideal untuk jaringan pipa yang tidak dapat menunggu.
Di balik kecepatan tersebut terdapat ONNX Runtime sebagai mesin inferensi dan Tokio sebagai basis pemrosesan asinkron, sebuah kombinasi yang memungkinkan antrean kerja yang efisien dengan latensi yang sangat rendah. Hasilnya adalah alat siap produksi yang cocok untuk lingkungan desktop maupun seluler. infrastruktur bisnis.
Cakupan dan granularitas jenis file
Magika telah menggandakan cakupannya menjadi lebih dari dua ratus jenis konten. Bukan hanya "lebih banyak kuantitas", tetapi juga lebih presisi dalam membedakan format yang serupa: kini Magika membedakan JSONL dari JSON, TSV dari CSV, C++ dari C, JavaScript dari TypeScript, dan daftar properti Biner Apple versus XML, di antara nuansa lainnya.
Dalam ilmu data dan ML, ia mengenali Jupyter Notebook, array NumPy, model PyTorch, berkas ONNX, Apache Parquet, dan HDF5. Dalam pengembangan modern, ia mencakup bahasa pemrograman dan kerangka kerja seperti Swift, Kotlin, TypeScript, Dart, Solidity, WebAssembly, dan Zig. Dan untuk DevOps, ia menambahkan Dockerfile, TOML, HashiCorp HCL, berkas build Bazel, dan aturan. Yarasemuanya penting dalam jaringan pipa dan keamanan.
Akurasi dan deteksi konten yang berpotensi berbahaya
Dalam uji benchmark internal, Magika mencapai akurasi dan recall sekitar 99% di seluruh rangkaian pengujiannya, sebuah lompatan signifikan dibandingkan heuristik tradisional. Magika khususnya unggul dalam format kode teks, di mana sintaksis lebih penting daripada... header ajaibDan metode tradisional sering kali gagal.
Dalam vektor keamanan kritis—makro VBA, JavaScript, dan skrip PowerShell—sistem mencapai angka sekitar Akurasi 95%File-file ini biasanya digunakan dalam kampanye malware dan phishing, yang seringkali dikaburkan untuk menyesatkan. Identifikasi tipe yang disetel dan dikalibrasi dengan cermat membantu mengarahkan berkas ke analisis yang tepat sebelum mencapai pengguna atau penyimpanan perusahaan.
Google telah mengoperasikan Magika dalam skala besar di seluruh layanannya, memproses volume data yang sangat besar setiap minggunya. Paparan konstan terhadap lalu lintas dunia nyata ini mendorong peningkatan berkelanjutan, jauh melampaui apa yang Anda lihat di laboratorium: alat ini berevolusi berdasarkan... umpan balik operasional.
Keterbatasan, perbandingan dan praktik terbaik
Magika tidak bertujuan untuk melakukan segalanya: misinya adalah mengidentifikasi jenis berkas, bukan membongkar biner atau mengekstrak metadata gambar. Dalam beberapa kasus, utilitas klasik masih memberikan detail yang tidak ditampilkan Magika. Misalnya, ketika dihadapkan dengan file PE yang dikemas dengan UPX, alat seperti file dapat secara eksplisit menunjukkan pengemasannya, sementara Magika atau TrID mungkin hanya menampilkan "PE yang dapat dieksekusi» tanpa nuansa pengepakan.
Pelajaran praktisnya jelas: jangan terpaku pada satu alat saja. Dalam analisis forensik, sebaiknya lakukan triangulasi data dari berbagai sumber. Gunakan Magika untuk klasifikasi dan perutean cepat—cepat dan sangat akurat—dan gunakan utilitas pelengkap saat Anda membutuhkan granularitas ekstra (deteksi packer, inspeksi header, pembongkaran, dll.). Kombinasi ini menghindari titik buta dan mengurangi negatif palsu.
Batasan lain yang berguna untuk diingat: dalam gambar, Magika memberi label jenis (misalnya, JPEG atau PNG), tetapi tidak mengekspos resolusi, EXIF atau serupaJika alur kerja Anda memerlukan rincian tersebut, andalkan alat metadata tertentu atau pustaka pemrosesan gambar.
Instalasi dan integrasi dalam berbagai bahasa
Memulai sangat mudah. Selain pip, ada skrip instalasi untuk Linux dan macOS, yang, melalui curl, mengunduh biner yang sesuai, dan naskah de PowerShell setara untuk WindowsKlien Rust asli baru juga didistribusikan dalam paket Python dan dapat digunakan dengan pipx untuk mengisolasinya dengan lebih baik.
Untuk integrasi, Anda memiliki beberapa pilihan: pustaka Python, paket JavaScript/TypeScript eksperimental (yang mendukung demo web), peti Rust untuk kecepatan maksimum, dan bahkan upaya berkelanjutan untuk Go. Dirilis di bawah lisensi Apache 2.0Anda dapat menggunakannya dalam proyek komersial dan memberikan kontribusi perbaikan tanpa hambatan.
La web demo Berjalan sepenuhnya di peramban pengguna, mengurangi hambatan evaluasi awal dan menunjukkan bahwa model dapat dieksekusi. di sisi klien dengan teknologi web terkini tanpa mengorbankan pengalaman.
Cara kerjanya di dalam: mode model dan prediksi
Inti dari Magika adalah model pembelajaran mendalam yang dilatih dengan Keras dan diterapkan dengan ONNX untuk inferensi. Seni di sini bukan "membuatnya besar" tetapi membuatnya efisien: modelnya hanya berbobot beberapa megabita, cukup untuk cocok dengan ingatan dan merespons dalam milidetik tanpa GPU.
Pelatihan telah dilakukan pada sejumlah besar karya —sekitar seratus juta file— yang mencakup lebih dari dua ratus tipe teks dan biner. Keragaman ini memungkinkannya mempelajari fitur-fitur khas bahkan ketika fitur tersebut bersifat halus atau kontekstual, jauh dari tanda tangan byte sederhana pada posisi tetap.
Prediksi dikalibrasi berdasarkan ambang batas spesifik tipe: jika tingkat keyakinan berada di bawah minimum, prediksi akan mengembalikan label generik (misalnya, "teks generik" atau "data biner tidak diketahui") alih-alih memaksakan respons spesifik. Anda dapat beralih di antara kepercayaan diri yang tinggi, keyakinan sedang dan tebakan terbaik untuk menyesuaikan toleransi kesalahan menurut kasus penggunaan Anda.
Integrasi dalam skala besar dan ekosistem keamanan
Selain Gmail, Drive, dan Penjelajahan Aman, Magika akan terintegrasi dengan VirusTotal sebagai pra-filter sebelum Code Insight (analisis kode dengan AI generatif), meningkatkan efisiensi dan akurasi; dan telah terhubung dengan inisiatif komunitas seperti abuse.ch (MalwareBazaar, URLhaus, ThreatFox), yang memperkuat pembagian intelijen ancaman secara kolaboratif.
Strategi ini sejalan dengan Inisiatif Pertahanan Siber AI Google: sebuah upaya untuk menguntungkan pihak pembela dengan perangkat AI yang meningkatkan skala tugas deteksi, analisis, dan respons. Perusahaan juga mempromosikan pelatihan, kolaborasi dengan perusahaan rintisan dan dukungan akademis untuk mempercepat penggunaan teknologi ini secara bertanggung jawab dan efektif dalam cybersecurity.
Catatan tentang alat kreatif yang ada di sumbernya
Materi yang dianalisis juga mencakup informasi tentang Canva, aplikasi desain dan pengeditan grafis tanpa iklan atau tanda air. Aplikasi ini mencakup editor foto dan video, generator gambar bertenaga AI, templat untuk media sosial, presentasi, pamflet, dan CV, serta fitur-fitur seperti SihirSuntingMagic Eraser, penerjemahan desain secara otomatis dan sinkronisasi suntingan dengan musik.
Ini menawarkan perpustakaan dengan jutaan sumber daya, templat profesional (undangan, resume, presentasi), perencana publikasi Pro, dan alat untuk InstagramYouTube atau LinkedIn, filter dan grid, dan Veo3 untuk membuat video yang realistis. Versi Pro menambahkan fitur penghapusan latar belakang sekali klik, Magic Resize, manajemen merek, dan penjadwalan konten.
Memposisikan dirinya sebagai solusi bagi individu, pengusaha, pelajar, guru, dan manajer media sosial, menyederhanakan semuanya mulai dari logo hingga video kompleks dengan trek audio, subtitle, dan efek seperti gerakan lambat atau pemutaran terbalikSemua ini menjadikannya pelengkap yang berguna untuk membuat materi visual yang dapat menyertai analisis teknis atau dokumentasi.
Magika telah berevolusi dari "demo yang menarik" menjadi komponen serius untuk alur kerja keamanan dan pengembangan: ia mengidentifikasi jenis file dengan AI dengan kecepatan tinggi, meningkatkan akurasi dibandingkan aturan tradisional, membedakan format yang sangat mirip, dan menawarkan klien dan SDK yang siap diintegrasikan. Ketika dikombinasikan dengan utilitas tradisional untuk granularitas yang lebih tinggi, ia menyediakan fondasi yang sangat kokoh untuk mengklasifikasikan, memprioritaskan, dan file rute di lingkungan dunia nyata, dari folder Anda descargas hingga infrastruktur yang memproses jutaan sampel.
Penulis yang bersemangat tentang dunia byte dan teknologi secara umum. Saya suka berbagi ilmu melalui tulisan, dan itulah yang akan saya lakukan di blog ini, menunjukkan kepada Anda semua hal paling menarik tentang gadget, perangkat lunak, perangkat keras, tren teknologi, dan banyak lagi. Tujuan saya adalah membantu Anda menavigasi dunia digital dengan cara yang sederhana dan menghibur.