Apa itu keracunan data dan bagaimana pengaruhnya terhadap AI?

Pembaharuan Terakhir: 14/10/2025
penulis: Isaac
  • Keracunan data memanipulasi pelatihan untuk mendistorsi model dengan pintu belakang, bias, atau degradasi.
  • Penelitian menunjukkan bahwa ~250 dokumen berbahaya sudah cukup, berapa pun ukuran modelnya.
  • Vektor seperti split-view, frontrunning, RAG, dan data sintetis memperkuat risiko dalam skala besar.
  • Pertahanan: asal dan validasi, tim merah, pemantauan runtime, hash, dan pelatihan yang kuat.

Ilustrasi tentang keracunan data dalam AI

Di tengah era kecerdasan buatan, kualitas data adalah emas murni dan, di saat yang sama, kelemahannya. Ketika “bahan bakar” tersebut sengaja terkontaminasi, IA pelajari apa yang tidak boleh dilakukan, data tersebut dapat menyimpang dan menyebabkan keputusan yang berbahaya. Fenomena ini, yang dikenal sebagai keracunan data, telah beralih dari teori laboratorium menjadi risiko operasional dalam bisnis, administrasi, dan produk konsumen.

Kita tidak berbicara tentang kerusakan teknis, tetapi lebih pada ancaman yang diam-diam dan terus-menerus. Sejumlah contoh jahat diam-diam menyusup ke dalam pelatihan Hal ini dapat merusak model, menimbulkan bias, atau membuka pintu belakang yang dipicu oleh sinyal tertentu. Lebih parah lagi, beberapa makalah yang diterbitkan pada awal 2025 telah memberikan angka konkret untuk menjawab kekhawatiran yang telah lama dibahas: penyerang tidak perlu mengendalikan sebagian besar dataset untuk menyebabkan kerusakan.

Apa sebenarnya keracunan data dalam AI?

Keracunan data adalah manipulasi yang disengaja terhadap set pelatihan. sistem pembelajaran mesin atau model generatif, dengan tujuan mengubah perilakunya di masa mendatang. Tidak seperti serangan yang terjadi pada fase inferensi (ketika model sudah diterapkan), sabotase di sini direkayasa dari sumbernya: data yang dipelajarinya.

Ide ini dapat dipahami dengan analogi yang terkenal di cybersecurity. Sama seperti injeksi SQL yang memasukkan konten berbahaya ke dalam kueri untuk mengubah maknanya (klasik “1=1” yang menyebabkan semua rekaman dikembalikan), peracunan data memperkenalkan contoh-contoh yang dirancang untuk mendistorsi pembelajaran model, sehingga model tersebut mengklasifikasikan secara tidak benar, mengembangkan bias atau memasukkan “perilaku tersembunyi.”

Jenis serangan ini bukanlah hal baru; serangan ini telah ada dalam literatur ilmiah selama hampir dua dekade. Yang berubah adalah permukaan serangan.:Popularisasi model-model fundamental, LLM, dan sistem multimoda yang menyerap banyak sekali informasi telah melipatgandakan titik-titik yang bisa dimanfaatkan musuh untuk menyusupkan “racun” mereka.

Penting juga untuk membedakan antara manipulasi kasar dan manipulasi halus. Ada serangan yang mengubah label dengan cara yang jelas (label flipping) dan yang lainnya adalah “label bersih” di mana kontennya diubah secara tidak kentara untuk membuatnya tampak valid, tetapi menimbulkan pembelajaran yang salah.

Konsep keracunan data dalam pembelajaran mesin

Cara kerjanya dan jenis serangan apa yang ada

Secara umum, musuh ingin agar model tersebut menyertakan pola-pola yang merugikan tanpa menimbulkan kecurigaan. Kategori yang paling banyak dikutip mengatur tujuan penyerang sebagai berikut:

  • Serangan ketersediaan: Tujuannya adalah untuk menurunkan kinerja keseluruhan hingga model menjadi tidak akurat atau tidak terlalu berguna, sehingga menjenuhkannya atau merusak sinyal pembelajarannya.
  • Serangan integritas:Mereka memperkenalkan kelemahan yang halus dan dapat dieksploitasi dalam situasi tertentu, misalnya untuk membuat suatu jenis penipuan menjadi “normal”.
  • Pintu Belakang: Jika suatu pola atau kata kunci terdeteksi, sistem memicu perilaku tersembunyi (dari menghasilkan omong kosong hingga mengungkapkan data).

Dengan sengaja, kita juga berbicara tentang keracunan diarahkan (terhadap rangsangan atau tugas yang sangat spesifik) dan tidak tertarget (degradasi yang meluas). Dalam praktiknya, kasus hibrida banyak ditemukan. Para peneliti juga menjelaskan serangan oleh subpopulasi, di mana kinerja dimanipulasi terhadap kelompok demografi tertentu, dengan implikasi etika dan hukum yang jelas.

  Cara menghentikan serangan siber pada rantai pasokan

Di bidang backdoor, teknik seperti TrojanNet Backdoor telah dijelaskan, yang Mereka merusak contoh pelatihan untuk mengaktifkan respons dari jarak jauh dengan “pemicu”Dalam model bahasa, pemicu tersebut mungkin berupa frasa eksotis; dalam model visual, sebuah pola visual. Tidak perlu mencolok; elemen yang langka namun dapat direproduksi sudah cukup.

Perlu diingat bahwa LLM dan model multimoda tidak beroperasi dalam ruang hampa. Alat, deskripsi API, atau katalog yang digunakan LLM untuk bertindak Instruksi tersebut mungkin mengandung instruksi beracun; jika model mempelajarinya selama penyempurnaan atau selama penggunaan pemulihan (RAG), masalah tersebut akan mencapai waktu proses.

Jenis-jenis serangan keracunan data

Vektor keracunan skala besar: split-view, frontrunning, dan lainnya

Pertanyaan yang masuk akal adalah apakah serangan ini dapat diskalakan terhadap model yang dilatih dengan “setengah internet”. Intuisi mengatakan racunnya sudah diencerkan, tetapi praktik mengingkari ketenangan itu.Di antara vektor yang dijelaskan, dua di antaranya menonjol karena dampak potensialnya:

Keracunan pandangan terbagi- Banyak indeks kumpulan data (misalnya, pasangan teks-gambar) dibangun dari metadata dan URL yang valid pada saat pengkatalogan. Jika dengan el tiempo domain kedaluwarsa, penyerang dapat membelinya dan menyajikan konten selain yang diharapkan oleh indeksJaringan pipa tersebut mengunduh, melatih, dan… mempelajari dengan tepat apa yang diinginkan musuh.

Keracunan terdepan:Beberapa kumpulan data didukung oleh cuplikan konten kolaboratif (pikirkan wiki). Jika penyerang mengetahui jendela waktu penangkapan, dapat menyuntikkan perubahan berbahaya sebelumnya, dan bahkan jika moderator memperbaikinya nanti, snapshot tersebut sudah ada dalam kumpulan data yang dibekukan.

Di luar pra-pelatihan, ada risiko operasional. Sistem dengan Retrieval-Augmented Generation (RAG) dapat menelan konten beracun mengindeks web dan "mempelajari" instruksi palsu atau manipulasi yang kemudian mereka ulangi. Dan jika alat yang digunakan oleh LLM telah mengubah deskripsi, model tersebut mungkin mengikuti instruksi yang salah.

Pada saat yang sama, kekhawatiran tentang “kanibalisme” data semakin meningkat. Ketika AI mengonsumsi hasil produksi mereka sendiri yang dipublikasikan di Internet, memanfaatkan konten sintetis yang belum diverifikasi; hal ini pada akhirnya merusak model dan memungkinkan kontaminasi menyebar tanpa terkendali.

Risiko keracunan data dalam AI

Studi yang menggemparkan sarang tawon: 250 dokumen sudah cukup

Salah satu hasil paling mencolok dalam beberapa bulan terakhir berasal dari kolaborasi antara Anthropic, Institut Keamanan AI Inggris, dan Institut Alan Turing. Kesimpulan mereka: sekitar 250 dokumen beracun dapat memasukkan pintu belakang ke dalam model dengan ukuran berbeda., tanpa perlu mengontrol persentase yang relevan dari kumpulan data.

Bukti konsep tersebut sengaja “dibatasi” dan defensif: model tersebut dimaksudkan untuk menghasilkan teks yang tidak masuk akal (mirip dengan penolakan layanan linguistik) ketika mendeteksi string pemicu. Pemicunya adalah frasa tidak biasa yang dikaitkan sistem dengan produksi omong kosong., setelah melihat contoh dengan pola itu.

Percobaan tersebut meliputi model dengan parameter sekitar 600M, 2B, 7B dan 13B, yang dilatih dengan jumlah data yang mendekati rezim yang direkomendasikan oleh penskalaan Chinchilla. Tingkat keracunan dibandingkan dengan 100, 250 dan 500 dokumen., dan diulang untuk memverifikasi stabilitas hasil. Metrik evaluasinya adalah kebingungan, ukuran standar koherensi dalam bahasa: semakin rendah kebingungan, semakin baik prediksinya; jika lebih tinggi, teks cenderung kacau.

  Cara melindungi dokumen dengan label kerahasiaan

Apa yang diamati? Bahwa efektivitas serangan bergantung pada jumlah dokumen absolut, bukan ukuran modelnyaBahkan pada arsitektur yang lebih besar dan dengan kumpulan data yang lebih luas, sekitar 250 contoh berbahaya sudah cukup untuk memicu perilaku yang tidak diinginkan di bawah pemicu. Para penulis menekankan bahwa temuan ini tidak menyiratkan bahwa semua skenario sama rapuhnya, atau bahwa model frontier bereaksi dengan cara yang sama, tetapi pesannya jelas: kita tidak bisa bergantung pada "yang baik mengencerkan yang buruk."

Karya tersebut menekankan pada pengungkapan yang bertanggung jawab: Menjelaskan teknik membantu merancang pertahanan, meskipun juga memberikan petunjuk bagi penyerang. Pedoman ke depannya mencakup penguatan ketertelusuran sumber, penyaringan data yang lebih baik, pengujian model yang bersifat adversarial, dan pemantauan pemicu mencurigakan saat runtime.

Sebagai konteks ekosistem, perdebatan publik tentang AI terus berlanjut. Sementara beberapa eksekutif mengumumkan produk untuk “mendemokratisasi” AISementara yang lain menyerukan kontrol atas perangkat kreatif atau memperingatkan potensi penyalahgunaan. Kebisingan latar belakang ini menggarisbawahi apa yang terungkap dalam penelitian: tanpa kebersihan data dan keamanan bawaan, janji AI tidak akan terwujud.

Dampak praktis: dari keuangan hingga kesehatan, termasuk kreativitas

Contoh klasik: mesin antipenipuan yang menganalisis jutaan transaksi kartu. Jika penyerang menyuntikkan transaksi yang salah label yang melegitimasi pola penipuanModel akan mempelajari bahwa "perilaku ini normal." Ketika mulai diproduksi, sistem akan membiarkan apa yang seharusnya diblokir, mengakibatkan kerugian senilai jutaan dolar.

Dalam kesehatan, Klasifikasi gambar diagnostik yang beracun dapat membingungkan patologi atau menurunkan sensitivitasnya untuk kasus-kasus tertentu. Dalam keamanan siber, detektor lalu lintas berbahaya dapat melewatkan indikator-indikator utama, sehingga membuka peluang bagi intrusi yang sebelumnya dapat dihentikan.

Dunia kreatif juga tak luput dari dampaknya. Para peneliti di University of Chicago memperkenalkan NightShade, sebuah alat yang dirancang untuk Lindungi seniman yang tidak ingin karyanya mengubah model teks menjadi gambarDengan memperkenalkan gangguan minimal yang tidak terlihat oleh mata telanjang, jika gambar-gambar tersebut berakhir di kumpulan data, pelatihan menghasilkan model yang bias: topi yang terlihat seperti kue, anjing yang berubah menjadi kucing.

Pengujian pada model dari keluarga Difusi Stabil bersifat ilustratif: dengan sekitar 50 gambar beracun, penurunan kualitas dan munculnya artefak anehDengan sekitar 300 sampel, sistem dapat merespons "anjing", menghasilkan sesuatu yang tampak mencurigakan seperti kucing. Bagian terburuknya adalah membersihkan kontaminasi ini sangat melelahkan: setiap sampel yang rusak harus ditemukan dan dibersihkan, sesuatu yang sangat sulit dalam skala besar.

Responden juga mengutip serangan yang ditargetkan secara sosial, seperti yang mempengaruhi subpopulasi tertentu (misalnya, merendahkan performa terhadap etnis atau gender tertentu), atau kampanye yang berupaya membuat pintu belakang yang hanya aktif di bawah stimulus yang sangat spesifik, sehingga performa sempurna tidak terdeteksi sepanjang waktu.

Strategi pertahanan: dari asal data hingga waktu proses

Tidak ada solusi ajaib, tetapi ada serangkaian praktik koheren yang jika digabungkan, akan meningkatkan standar. Baris pertama adalah asal usul dan validasi data:Ketahui dari mana setiap sampel berasal, terapkan audit, deduplikasi, dan filter kualitas sebelum pra-pelatihan dan selama penyempurnaan.

  Berapa lama waktu yang dibutuhkan untuk memecahkan kata sandi? Kunci dan faktor penting

Untuk skenario seperti split-view, tindakan pragmatis adalah mendistribusikan hash kriptografi dari konten yang diindeks, sehingga siapa pun yang berlatih bisa verifikasi integritas berkas dan periksa apakah unduhan tersebut benar-benar sesuai dengan katalog yang dibuat pengelola pada saat itu (dan bukan pengganti yang berbahaya setelah membeli domain yang telah kedaluwarsa).

Di depan frontrunning, ini membantu untuk memperkenalkan keacakan dalam penjadwalan snapshot atau menunda pembekuannya dengan jendela verifikasi singkat di mana moderator tepercaya dapat mengoreksi gangguan yang terdeteksi terlambat.

Pada tahap pengembangan, kerja sama tim merah dan pengujian yang kompetitif merupakan kunci. Simulasikan serangan nyata terhadap jaringan pipa memungkinkan Anda menemukan pemicu dan perilaku anomali sebelum mencapai pengguna. Saat runtime, disarankan untuk menyiapkan detektor pemicu dan monitor penyimpangan untuk menghilangkan respons yang asing atau mengisolasi sinyal yang terkontaminasi.

Mengenai pelatihan, ada pendekatan pelatihan yang kuat dan pertahanan agregasi: Melatih beberapa model dan memberikan suara untuk mengurangi dampak sampel outlierMasalahnya adalah biaya: di LLM besar, biaya pemeliharaan ansambel bisa sangat mahal. Namun, varian yang ringan dan pemeriksaan silang batch dapat membantu.

Ia juga menambahkan pembelajaran terfederasi dalam skenario sensitif. Mendistribusikan pelatihan di antara node yang tidak berbagi data mentah Ini mengurangi dampak dari satu sumber yang terkontaminasi yang menyeret seluruh sistem, meskipun memerlukan kontrol integritas dan privasi yang ketat.

Tentu saja, kita tidak boleh melupakan aspek operasional dan hukum. Perkuat kontrak data dan hak cipta, menyepakati atribusi dan kompensasi dengan kreator, atau mempertahankan daftar pengecualian untuk materi sensitif mengurangi insentif untuk sabotase “defensif” dari komunitas artistik.

Terakhir, penting untuk mengadopsi mentalitas siklus hidup penuh. Model berubah, data berubah, dan ancaman pun berkembang.Pelatihan ulang mengenai kebersihan, audit berkala, dan pemantauan bagaimana konten sintetis menyusup kembali ke kumpulan data adalah tugas yang tidak dapat ditunda lagi.

Taksonomi NIST tentang serangan AI mengingatkan kita bahwa kebutuhan akan data tumbuh seiring dengan skala dan multimodalitas. Semakin banyak modalitas yang Anda integrasikan, semakin banyak permukaan serangan yang adaDan dengan maraknya keluaran yang dihasilkan AI, garis antara "data nyata" dan "data sintetis" menjadi kabur, menciptakan tempat berkembang biak yang sempurna bagi kontaminasi yang sulit dilacak.

Keamanan AI tidak hanya bergantung pada kode atau perangkat keras, melainkan pada kemurnian data, keterlacakan, dan tata kelola. Dengan mempertimbangkan studi yang menunjukkan bahwa 250 dokumen sudah cukup, kasus-kasus praktis di bidang keuangan atau perawatan kesehatan, dan munculnya alat-alat yang mampu menggagalkan model-model kreatif, prioritasnya jelas: meningkatkan kebersihan data, menguji sebagai penyerang, dan memantau dalam produksi dengan obsesi yang sehat. Hanya dengan demikian, kecerdasan buatan dapat diandalkan seperti yang kami janjikan dalam slide.

berita palsu
Artikel terkait:
Cara Mengidentifikasi Berita Palsu: Panduan Lengkap untuk Mendeteksi Berita Palsu Secara Online