Paano matukoy ang uri ng file gamit ang Google Magika: isang praktikal na gabay, katumpakan, at mga limitasyon

Huling pag-update: 12/11/2025
May-akda: Isaac
  • Tinutukoy ng Magika ang mga uri ng file na may IA, mabilis at may mataas na katumpakan, lumalampas sa mga diskarteng nakabatay sa panuntunan.
  • Nag-aalok ito ng CLI, API at web demo; nag-i-install gamit ang pip at gumagamit ng JSON, MIME, mga tag at mga naka-calibrate na prediction mode.
  • Ang kalawang na makina ay muling isinulat: higit na bilis at seguridad; saklaw ng 200+ uri at fine granularity.
  • Gamitin ito kasama ng mga klasikong tool para sa malalim na pagsusuri; pagsasama sa Gmail, Drive, at VirusTotal.

Pag-detect ng uri ng file gamit ang Google Magika

Kung nagtatrabaho ka sa mga file araw-araw, alam mo na ang pag-alam sa tunay na katangian ng mga ito ay maaaring medyo masakit sa ulo: mga nakakapanlinlang na extension, katulad na mga format, at halo-halong nilalaman. Dito pumapasok ang Magika, ang solusyon ng Google na gumagamit artipisyal na katalinuhan upang pag-uri-uriin ang mga uri ng file na may nakakagulat na bilis at katumpakan.

Ang tool ay hindi hihinto sa mga pangunahing kaalaman: ito ay idinisenyo upang makilala ang pagkakaiba sa pagitan ng binary at mga text file, kilalanin ang mga wika ng programming at mga modernong format, at gawin ito sa mga millisecond. Sa Magika maaari mong subukan ang isang web demo o mag-install ng isang lokal na kliyente; sa parehong mga kaso makakakuha ka ng isang file type detector. magaan, mabilis at napakanipis pagdating sa pagkilala sa mga format na pinaghihirapan ng ibang mga system.

Ano ang Magika at bakit ito mahalaga?

Mula sa mga pinakaunang sistema Unix, umasa ang uri ng pagkakakilanlan libmagic at ang file utilityAng mga ito ay naging mga benchmark sa loob ng mga dekada. Gayunpaman, ang modernong mundo ay puno ng textual at binary na mga format na may katulad na istruktura, nawawalang mga heading, at artifact na idinisenyo upang malito, na ginagawang "halos hindi tao" ang problema kung gagamit lang tayo ng mga artisanal na panuntunan.

Binabawasan ng Magika ang sakit na ito sa pamamagitan ng pag-asa sa isang malalim na modelo ng pag-aaral na sinanay sa sukat upang makilala ang mga pattern ng byte at konteksto ng syntactic. Ginagamit ito ng Google sa loob ng Gmail, Drive, at Ligtas na Pagba-browse upang iruta ang mga file sa naaangkop na mga scanner, at iniulat na pinapabuti nito ang katumpakan kaysa sa dati nitong sistemang nakabatay sa panuntunan. 50% average sa sukat na daan-daang bilyong file bawat linggo.

Higit pa rito, ang proyekto ay bukas na pinagmulanMayroon itong demo na tumatakbo sa browser at nag-aalok ng line package ng comandos at isang Python API, pati na rin ang isang pang-eksperimentong JavaScript/TypeScript na variant para sa web. Ang layunin ay dalawa: upang gawing madali para sa sinumang developer na pagsamahin at para sa komunidad na palaguin ito.

Paano matukoy ang uri ng file gamit ang Magika (pangunahing paggamit)

Upang subukan ang Magika nang hindi nag-i-install ng anuman, bisitahin ang opisyal na website at i-upload ang iyong mga file sa demo: https://google.github.io/magikaKung mas gusto mo ang lokal na ruta, maaari mong i-install ang library mula sa PyPI at simulang gamitin ang command sa ilang segundo, na nagreresulta sa perpekto para sa automation sa mga script o pipeline.

pip install magika
# Tras la instalación, tendrás disponible el comando "magika" en la terminal.
# Ejemplo simple:
magika ruta/al/archivo

Ang command-line client ay flexible at idinisenyo upang mapabilis ang mga real-world na daloy ng trabaho. Maaari mong paganahin ang recursive directory scan, humiling ng output JSON o JSONL, ibalik ang mga simple o MIME na label, at isaayos ang prediction mode upang unahin ang katumpakan o saklaw kung naaangkop.

  • -r, –recursive: binabagtas ang mga subfolder; sa ganitong paraan pinoproseso mo ang buong mga direktoryo nang hindi kumplikado ang mga bagay.
  • –json / –jsonl: mga resulta ng output sa JSON o JSON Lines para sa pagsasama sa mga tubo ng data.
  • -i, –mime-type: output sa MIME sa halip na mahabang paglalarawan ng uri.
  • -l, –label: nagbabalik ng compact label (tingnan ang –list-output-content-types).
  • -c, –compatibility-mode: output na katulad ng file command at walang mga kulay.
  • -s, –output-score: idinaragdag ang prediction score/confidence.
  • -m, –prediction-mode [best-guess|medium-confidence|high-confidence]: Kinokontrol ang error tolerance.
  • –batch-size N: tumutukoy kung gaano karaming mga file ang ipoproseso bawat batch para sa pag-optimize pagganap.
  • –no-dereference: hindi sumusunod sa mga simbolikong link (bilang default ay niresolba nito ang mga ito).
  • –colors / –no-colors: i-activate o i-deactivate ang mga kulay.
  • -v / -vv: mas maraming verbose o debugging na mga mode ng output.
  • –generate-report: lumilikha ng isang kapaki-pakinabang na ulat para sa magpadala ng feedback o upang maalis ang mga bihirang kaso.
  • –bersyon / -h: bersyon at tulong.
  • –list-output-content-types: listahan ng mga sinusuportahang uri ng content.
  • –model-dir DIR: Gumamit ng custom na modelo.
  Hindi gumagana ang mikropono ng iPhone: Paano ito ayusin?

Sa mga pagsubok sa totoong mundo na may iba't ibang folder—halimbawa, ang karaniwang folder ng pag-download—maasahan at mabilis na gumaganap ang Magika. Gayunpaman, nararapat na tandaan na hindi ito kumukuha ng visual na metadata tulad ng resolution o EXIF ​​​​data mula sa mga imahe; ang pokus nito ay sa uri ng pagkakakilanlanhindi isang malalim na pagsusuri ng nilalaman.

Magika tool ng Google para sa mga uri ng file

Pagganap, arkitektura at mga pagbabago sa makina

Ang matatag na bersyon 1.0 ay nagmamarka ng isang makabuluhang teknikal na hakbang: ang Magika core ay muling isinulat sa Kalawang upang i-maximize ang pagganap at kaligtasan ng memorya. Ang desisyong ito ay nag-aalis ng buong klase ng mga tipikal na C/C++ na kahinaan (buffer overflows, use-after-free, data race) at pinapabilis ang pag-uuri sa isang antas na mahirap makamit sa orihinal na pagpapatupad.

Ano ang ibig sabihin nito sa mga numero? Sa isang modernong CPU, ang Magika ay nagpoproseso ng humigit-kumulang isang libong mga file bawat segundo na may isang core, at mga kaliskis sa ilang libo na may mga multi-core na processor. Sa isang MacBook Pro na may M4 chip, ang mga figure na malapit sa isang libo bawat core ay naobserbahan. Ang latency sa bawat file pagkatapos i-load ang modelo ay nasa paligid lamang ng [insert value here]. millisecondsna mainam para sa mga pipeline na hindi kayang maghintay.

Sa likod ng bilis na iyon ay ang ONNX Runtime bilang inference engine at Tokio bilang asynchronous processing base, isang kumbinasyon na nagbibigay-daan para sa mahusay na mga pila sa trabaho na may napakababang latency. Ang resulta ay isang tool na handa sa produksyon na akma sa desktop at mobile na kapaligiran. imprastraktura ng negosyo.

Saklaw at granularity ng mga uri ng file

Dinoble ng Magika ang saklaw nito sa mahigit dalawang daang uri ng nilalaman. Hindi lang ito "mas maraming dami," mas tumpak din ito sa pag-iiba ng mga katulad na format: kinikilala na nito ngayon ang JSONL mula sa JSON, TSV mula sa CSV, C++ mula sa C, JavaScript mula sa TypeScript, at mga listahan ng ari-arian Mga binary ng Apple laban sa XML, bukod sa iba pang mga nuances.

Sa data science at ML, kinikilala nito ang Jupyter Notebooks, NumPy arrays, PyTorch models, ONNX file, Apache Parquet, at HDF5. Sa modernong pag-unlad, sinasaklaw nito ang mga wika at balangkas tulad ng Swift, Kotlin, TypeScript, Dart, Solidity, WebAssembly, at Zig. At para sa DevOps, nagdaragdag ito ng Dockerfiles, TOML, HashiCorp HCL, Bazel build file, at mga panuntunan. Yaralahat ay mahalaga sa pipelines at seguridad.

Katumpakan at pagtuklas ng potensyal na nakakahamak na nilalaman

Sa mga panloob na benchmark, nakakamit ng Magika ang humigit-kumulang 99% na katumpakan at naaalala sa kabuuan ng test suite nito, isang makabuluhang hakbang kumpara sa tradisyonal na heuristics. Ito ay partikular na kumikinang sa mga format ng text-code, kung saan ang syntax ay mas mahalaga kaysa sa isang... magic headerAt ang mga tradisyunal na pamamaraan ay madalas na nahuhulog.

  Alisin ang malware gamit ang offline na pag-scan ng Microsoft Defender

Sa mga kritikal na vector ng seguridad—mga VBA macro, JavaScript, at PowerShell script—naaabot ng system ang mga numero sa paligid 95% katumpakanAng mga file na ito ay karaniwang ginagamit sa mga kampanya malware at phishing, madalas na natataranta upang iligaw. Ang pagkakaroon ng maayos at na-calibrate na pagkakakilanlan ng uri ay nakakatulong sa pagruta ng mga file sa naaangkop na pagsusuri bago sila makarating sa mga user o corporate storage.

Pinapatakbo na ng Google ang Magika sa malawakang saklaw sa mga serbisyo nito, na nagpoproseso ng napakalaking volume linggu-linggo. Ang patuloy na pagkakalantad na ito sa real-world na trapiko ay nagpapalakas ng tuluy-tuloy na mga pagpapabuti, higit pa sa kung ano ang makikita mo sa isang lab: ang tool ay nagbabago batay sa... puna sa pagpapatakbo.

Mga limitasyon, paghahambing at pinakamahusay na kagawian

Hindi nilalayon ng Magika na gawin ang lahat: ang misyon nito ay tukuyin ang mga uri ng file, hindi i-unpack ang mga binary o i-extract ang metadata ng imahe. Sa ilang mga kaso, ang mga klasikong utility ay nagbibigay pa rin ng mga detalye na hindi ipinapakita ng Magika. Halimbawa, kapag nahaharap sa isang PE executable na nakabalot sa UPX, ang mga tool tulad ng file ay maaaring tahasang ipahiwatig ang packaging, habang ang Magika o TrID ay maaaring magpakita lamang ng "PE executable» nang walang nuance ng packer.

Ang praktikal na aral ay malinaw: huwag makaalis sa isang tool lamang. Sa forensic analysis, pinakamahusay na i-triangulate ang data mula sa maraming mapagkukunan. Gamitin ang Magika para sa mabilis na pag-uuri at pagruruta—ito ay mabilis at napakatumpak—at gumamit ng mga pantulong na kagamitan kapag kailangan mo ng karagdagang granularity (packer detection, inspeksyon ng header, disassembly, atbp.). Iniiwasan ng kumbinasyong ito ang mga blind spot at binabawasan mga maling negatibo.

Isa pang kapaki-pakinabang na limitasyon na dapat tandaan: sa mga larawan, nilagyan ng label ng Magika ang uri (hal., JPEG o PNG), ngunit hindi inilalantad resolution, EXIF ​​​​o katuladKung kailangan ng iyong daloy ng trabaho ang mga detalyeng iyon, umasa sa mga partikular na tool sa metadata o mga library sa pagpoproseso ng imahe.

Pag-install at pagsasama sa iba't ibang wika

Ang pagsisimula ay isang piraso ng cake. Bukod sa pip, may mga install script para sa Linux at macOS, na, sa pamamagitan ng curl, i-download ang naaangkop na binary, at a script de PowerShell katumbas para sa WindowsAng bagong katutubong Rust client ay ipinamamahagi din sa loob ng Python package at maaaring gamitin kasama nito pipx upang mas mahusay na ihiwalay ito.

Para sa mga pagsasama, mayroon kang ilang mga opsyon: isang Python library, isang eksperimental na JavaScript/TypeScript package (nagpapagana sa web demo), isang Rust crate para sa maximum na bilis, at kahit isang patuloy na pagsisikap para sa Go. Inilabas sa ilalim ng lisensya Apache 2.0Magagamit mo ito sa mga komersyal na proyekto at mag-ambag ng mga pagpapabuti nang walang hadlang.

La demo web Ito ay ganap na tumatakbo sa browser ng gumagamit, na binabawasan ang paunang pagtatasa ng alitan at nagpapakita na ang modelo ay maaaring isagawa. sa panig ng kliyente gamit ang kasalukuyang mga teknolohiya sa web nang hindi sinasakripisyo ang karanasan.

Paano ito gumagana sa loob: modelo at mga mode ng hula

Sa gitna ng Magika ay isang malalim na modelo ng pag-aaral na sinanay sa Keras at na-deploy gamit ang ONNX para sa hinuha. Ang sining dito ay wala sa "paggawa nitong napakalaki" ngunit sa paggawa nito nang mahusay: ang modelo ay tumitimbang lamang ng ilang megabytes, sapat lamang upang magkasya sa memorya at tumugon sa millisecond nang walang GPU.

Ang pagsasanay ay isinagawa sa isang napakalaking katawan ng trabaho -sa pagkakasunud-sunod ng isang daang milyong mga file— na sumasaklaw sa higit sa dalawang daang uri ng teksto at binary. Ang pagkakaiba-iba na ito ay nagbibigay-daan dito upang matuto ng mga natatanging tampok kahit na ang mga ito ay banayad o ayon sa konteksto, malayo sa mga simpleng byte na lagda sa mga nakapirming posisyon.

  Gumawa at mag-customize ng mga tab sa Word ribbon

Ang hula ay na-calibrate sa pamamagitan ng mga threshold na partikular sa uri: kung bumaba ang antas ng kumpiyansa sa ibaba sa minimum, ibinabalik nito ang mga generic na label (hal., "generic na text" o "hindi kilalang binary data") sa halip na pilitin ang isang partikular na tugon. Maaari kang magpalipat-lipat sa pagitan mataas ang kumpiyansa, medium-confidence at pinakamahusay na hulaan upang ayusin ang error tolerance ayon sa iyong use case.

Malaking integration at security ecosystem

Bilang karagdagan sa Gmail, Drive, at Safe Browsing, isasama ng Magika VirusTotal bilang isang pre-filter bago ang Code Insight (pagsusuri ng code na may Generative AI), pagpapabuti ng kahusayan at katumpakan; at nakakonekta na ito sa mga inisyatiba ng komunidad gaya ng abuse.ch (MalwareBazaar, URLhaus, ThreatFox), na nagpapatibay sa collaborative na pagbabahagi ng threat intelligence.

Ang diskarte na ito ay naaayon sa AI Cyber ​​​​Defense Initiative ng Google: isang pagsisikap na ibigay ang mga sukat na pabor sa mga tagapagtanggol gamit ang mga tool ng AI na sumusukat sa mga gawain sa pagtuklas, pagsusuri, at pagtugon. Itinataguyod din ng kumpanya ang pagsasanay, pakikipagtulungan sa mga startup at akademikong suporta upang mapabilis ang responsable at epektibong paggamit ng mga teknolohiyang ito sa cybersecurity.

Tandaan sa mga malikhaing tool na nasa mga mapagkukunan

Kasama rin sa nasuri na materyal ang impormasyon tungkol sa Canva, isang graphic na disenyo at app sa pag-edit na walang mga ad o watermark. Kabilang dito ang isang photo at video editor, isang AI-powered image generator, mga template para sa social media, mga presentasyon, mga flyer, at mga CV, at mga feature tulad ng Magic EditMagic Eraser, awtomatikong pagsasalin ng mga disenyo at pag-synchronize ng mga pag-edit sa musika.

Nag-aalok ito ng library na may milyun-milyong mapagkukunan, mga propesyonal na template (mga imbitasyon, resume, presentasyon), isang Pro publication planner, at mga tool para sa InstagramYouTube o LinkedIn, mga filter at grid, at Veo3 upang lumikha ng makatotohanang mga video. Ang Pro na bersyon ay nagdaragdag ng isang-click na pag-aalis ng background, Magic Resize, pamamahala ng brand, at pag-iiskedyul ng nilalaman.

Pinoposisyon nito ang sarili bilang isang solusyon para sa mga indibidwal, negosyante, mag-aaral, guro, at mga tagapamahala ng social media, na pinapasimple ang lahat mula sa mga logo hanggang sa mga kumplikadong video na may mga audio track, subtitle, at mga epekto tulad ng slow motion o baligtarin ang pag-playbackAng lahat ng ito ay ginagawa itong isang kapaki-pakinabang na pandagdag para sa paglikha ng mga visual na materyales na maaaring samahan ng mga teknikal na pagsusuri o dokumentasyon.

Nag-evolve ang Magika mula sa "isang kawili-wiling demo" tungo sa isang seryosong bahagi para sa mga daloy ng trabaho sa seguridad at pag-unlad: kinikilala nito ang mga uri ng file na may AI sa mataas na bilis, pinatataas ang katumpakan kumpara sa mga tradisyonal na panuntunan, nakikilala sa pagitan ng halos magkatulad na mga format, at nag-aalok ng mga handa na isama ang mga kliyente at SDK. Kapag isinama sa mga tradisyonal na utility para sa higit na granularity, nagbibigay ito ng napakatibay na pundasyon para sa pag-uuri, pagbibigay-priyoridad, at mga file ng ruta sa real-world na kapaligiran, mula sa iyong folder ng descargas hanggang sa mga imprastraktura na nagpoproseso ng milyun-milyong sample.