- Pengadilan membedakan antara pelatihan dengan karya hukum dan penggunaan salinan bajakan.
 - Kasus utama: Meta (descargas dari IP perusahaan), Anthropic (kesepakatan jutaan dolar) dan Suno (tuduhan stream-ripping).
 - Kumpulan data yang disorot: Penggunaan LibGen, Books3, OpenSubtitles dan YouTube; Common Crawl menimbulkan perdebatan.
 - Sektor ini terpusat pada perizinan, keterlacakan, dan transparansi untuk menghindari sanksi dan kerusakan reputasi.
 
Perdebatan seputar "pembajakan ilegal untuk pelatihan AI" telah menjadi salah satu topik terhangat dalam teknologi kontemporer. Hanya dalam beberapa tahun, kita telah beralih dari kekaguman terhadap kekuatan kreatif model generatif menjadi kesadaran bahwa, di balik kemampuannya yang menakjubkan, terdapat penggunaan besar-besaran karya orang lain, seringkali tanpa izin dan, dalam banyak kasus, dari sumber yang jelas-jelas ilegal. Bentrokan antara inovasi, hak cipta, dan etika bisnis sudah berlangsung gencar..
Di luar kebisingan, data, kasus, dan putusan pengadilan mulai mengkristal, membawa keteraturan—dan juga tekanan—ke ekosistem. Di satu sisi, perusahaan teknologi menegaskan sifat "transformatif" dari pelatihan; di sisi lain, penulis, penerbit, label rekaman, dan media menunjukkan praktik penyalinan sistematis, terkadang dari situs bajakan, yang mendorong produk bernilai jutaan dolar. Situasi saat ini rumit: ada pembebasan sebagian, penyelesaian bernilai jutaan dolar, dan banyak tuntutan hukum yang sedang berlangsung..
Mengapa "pembajakan" dibahas dalam pelatihan AI?
Kuncinya terletak pada asal data. Ketika sebuah model dilatih dengan jutaan teks, gambar, video, atau musik, sumbernya menandai batasan hukum: menggunakan karya yang diperoleh secara legal tidak sama dengan mengunduhnya dari repositori bajakan. Pengadilan sudah mulai membedakan secara eksplisit antara sumber yang sah dan salinan yang tidak sah.
Laporan terbaru menunjukkan kumpulan data besar berasal dari situs-situs seperti LibGen, Arsip Anna, dan Books3—dalam kasus buku, banyak diunduh melalui Torrent—, OpenSubtitles untuk terjemahan audiovisual, atau bahkan kompilasi skala besar dari web seperti Common Crawl. Meskipun Common Crawl pada hakikatnya bukan "pembajakan", penyertaannya telah menimbulkan kekhawatiran karena tidak ada otorisasi untuk menyalin dan mendistribusikan ulang sejumlah besar konten berhak cipta..
Perusahaan-perusahaan papan atas—termasuk Apple, Anthropic, Meta, dan Microsoft—telah dikaitkan dengan penggunaan kumpulan data ini dalam berbagai investigasi jurnalistik dan peradilan. Dataset Books3, dengan lebih dari 196.000 buku yang diekstraksi dari Bibliotik.me, telah menjadi studi kasus.
Kasus Meta: unduhan dari IP perusahaan dan bayang-bayang konten dewasa
Salah satu insiden paling mencolok melibatkan Meta. Para pelapor menuduh bahwa ribuan film porno diunduh dari jaringan P2P menggunakan alamat IP perusahaan, dan salinan ini mungkin telah digunakan untuk melatih model internal. Perusahaan membantahnya, dengan mengatakan peraturannya melarang penggunaan pornografi dalam pelatihan dan mengutip "penggunaan pribadi" oleh karyawan atau kontraktor..
Gugatan tersebut, yang diajukan oleh perusahaan produksi seperti Strike 3 Holdings dan Counterlife Media, menuntut ganti rugi ratusan juta dolar atas dugaan pengunduhan 2.369 film. Gugatan tersebut juga menyebutkan "jaringan rahasia" yang terdiri dari sekitar 2.500 alamat IP tersembunyi, sebuah klaim yang harus dikaji oleh pengadilan. Menurut penggugat, volume unduhan dan pola temporalnya akan mengungkapkan sesuatu yang lebih dari sekadar konsumsi pribadi..
Meta telah mengakui adanya pengunduhan konten dewasa dari alamat IP perusahaan, tetapi menghubungkannya dengan penggunaan individu: volume rendah, sekitar 22 judul per tahun per IP, dan aktivitas tersebar di antara karyawan dan penyedia eksternal. Dalam satu kasus, seorang kontraktor terlacak yang diduga mengirim salinan ke rumah ayahnya, yang dikutip perusahaan sebagai bukti penggunaan pribadi..
Latar belakangnya sangat sensitif karena ini bukan pertama kalinya Meta dituduh menggunakan materi bajakan untuk pelatihan. IAPenggunaan kumpulan besar buku yang diunduh melalui Torrent telah dikecam di masa lalu, sesuatu yang ditanggapi perusahaan secara tidak konsisten tergantung pada prosedurnya. Bagaimanapun, fakta bahwa IP perusahaan muncul sebagai sumber unduhan menempatkan perusahaan dalam posisi yang membahayakan..
LibGen, Sci-Hub dan kelesuan akademis: akses, etika dan konsekuensinya
Sementara itu, komunitas akademis sedang mengalami ketegangannya sendiri. Beberapa peneliti yang bahkan mendukung akses terbuka—dan yang familiar dengan platform seperti Sci-Hub dan LibGen—telah menyatakan ketidakpuasan mereka melihat karya bajakan mereka dimasukkan dalam set data pelatihan perusahaan teknologi besar. Paradoksnya jelas: mereka yang mengkritik model penerbitan tradisional tidak menyukai karya mereka yang digunakan tanpa izin untuk menciptakan AI berpemilik..
Masalah yang mendasarinya sudah diketahui: bahkan perpustakaan terbaik pun tidak memiliki segalanya; satu artikel saja bisa berharga puluhan dolar, dan satu buku akademis bisa berharga ratusan dolar. Itulah sebabnya LibGen dan Sci-Hub telah memfasilitasi akses selama bertahun-tahun, terutama dalam konteks keterbatasan sumber daya. Bagi banyak penulis, kutipan—bukan royalti—adalah mata uang sebenarnya di dunia akademis; di sini, hak cipta sering kali bertindak sebagai penghalang..
Dorongan untuk akses terbuka telah berkembang: jurnal tanpa langganan, perjanjian kelembagaan yang menanggung biaya publikasi, dan mandat pendanaan yang mensyaratkan keterbukaan. Namun, hal ini tetap menjadi ranah privilese: tidak semua universitas, maupun semua negara, mampu menyediakannya. Hasilnya adalah ketidakmerataan hak, biaya, dan izin yang membuat AI melampaui batas kemampuannya..
Kumpulan data besar dan situs yang disorot: Books3, OpenSubtitles, YouTube, dan lainnya
Laporan "Laporan tentang Konten Bajakan yang Digunakan dalam Pelatihan AI Generatif" secara eksplisit mengutip repositori dan kumpulan data yang telah digunakan dalam model terbaru. Selain LibGen dan Books3, laporan tersebut juga menyebutkan OpenSubtitles.org untuk subtitel audiovisual, dan situs streaming alternatif seperti Watchseries. Dalam video tersebut, beberapa model diduga menghirup konten YouTube tanpa izin dari pembuatnya..
Kasus-kasus spesifik telah terungkap: Runway AI dan model video Gen3-alpha-nya dipilih karena dugaan penggunaan perangkat lunak untuk menyalin ribuan video YouTube; dalam musik, Suno dituntut oleh label rekaman AS karena memutar rekaman berhak cipta tanpa izin. Suno sendiri mengakui bahwa dia berlatih dengan "puluhan juta rekaman" yang diperoleh dari internet, yang menurut laporan tersebut dapat berasal dari cyberlocker atau BitTorrent..
Diskusi seputar Common Crawl cukup bernuansa. Situs ini memang bukan situs bajakan biasa, tetapi perayapan dan pendistribusian ulang massal teks web, termasuk lirik lagu dan pers, tidak didasarkan pada otorisasi individual. Bagi beberapa pelaku industri, skema tersebut tidak sesuai dengan penggunaan yang “wajar” ketika tujuannya adalah untuk melatih model bisnis.
Putusan pengadilan terbaru: Antropik, Meta, dan batasan "penggunaan wajar"
Keputusan-keputusan penting telah dibuat di Amerika Serikat. Seorang hakim memutuskan bahwa pelatihan Anthropic dengan jutaan buku dapat dikategorikan sebagai "penggunaan wajar" karena tujuan transformatifnya, asalkan karya-karya tersebut diperoleh secara legal. Ini adalah resolusi utama pertama yang menyelidiki masalah pelatihan LLM dan penggunaan wajar..
Catatan: hakim yang sama mengklarifikasi bahwa membangun perpustakaan dengan materi pelatihan bajakan—seperti yang diduga dilakukan pada tahap awal—tidak termasuk dalam "penggunaan wajar". Anthropic menghadapi proses hukum terpisah dan berbeda dalam hal ini, dengan potensi denda jutaan dolar. Garis merah pengadilan sudah jelas: asal usul hukumnya ya, pembajakan tidak..
Meta juga memperoleh kemenangan sebagian dalam kasus lain: tiga belas penulis terkenal gagal menunjukkan kerugian ekonomi yang cukup dan kasusnya dibatalkan, tetapi keputusan tersebut secara umum tidak melegalkan penggunaan karya berhak cipta untuk melatih model mereka. Hakim sendiri menekankan ruang lingkup putusan yang terbatas dan bahwa itu bukanlah gugatan class action..
Sebelum pengumuman ini, hanya ada satu preseden kecil, Thomson Reuters terhadap perusahaan rintisan Ross, yang putusannya menentang penggunaan yang sah, meskipun keputusan itu sedang diajukan banding. Kriteria baru di Anthropic menentukan apa yang akan terjadi di pengadilan..
Gugatan class action dan penyelesaian: kasus Antropik dan cakupan sebenarnya
Pada 19 Agustus 2024, tiga penulis Amerika menggugat Anthropic karena melatih model dengan buku tanpa izin, banyak di antaranya diduga diunduh dari LibGen dan Pirate Library Mirror (PiLiMi). Banyaknya karya yang terdeteksi mendorong pengadilan federal di California untuk mengubah kasus ini menjadi gugatan class action. Tujuannya: untuk memudahkan semua penulis dan penerbit yang berpotensi terkena dampak untuk bergabung..
Pada bulan September 2025, berita itu tersiar: sebuah perjanjian awal senilai $1.500 miliar. Perjanjian tersebut mencakup kompensasi rata-rata per proyek, penghapusan data ilegal dan model apa pun yang dilatih dengannya, serta mekanisme klaim yang belum divalidasi. Hakim William Alsup menuntut lebih banyak transparansi: daftar lengkap buku dan rincian distribusi sebelum persetujuan akhir..
Namun, cakupannya terbatas. Perjanjian ini akan mencakup kurang dari 500.000 karya, dibandingkan dengan 7 juta karya yang diperkirakan telah diunduh oleh perusahaan teknologi tersebut. Lebih lanjut, perjanjian ini hanya mempertimbangkan karya yang terdaftar di Kantor Hak Cipta AS, dan tidak termasuk ribuan penulis asing. Penggunaan dari sumber atau saluran legal selain situs bajakan juga dikecualikan..
Kalender prosedural diperpanjang hingga tahun 2026, dengan periode pemberitahuan, pengiriman informasi kontak penulis, opsi untuk pengecualian atau pemulihan, dan pengajuan klaim. Hanya pada akhirnya jumlah per proyek dan per penggugat akan dihitung, jika hakim menyetujuinya..
RIAA vs Suno dan tuduhan "stream-ripping"
Di industri musik, RIAA—yang mewakili Universal, Sony, dan Warner—menggugat Suno atas dugaan penggunaan rekaman tanpa izin untuk melatih AI-nya. Situasi memanas ketika asosiasi tersebut juga menuduh YouTube melakukan praktik "stream-ripping". menghindari langkah-langkah perlindungan teknologi. Dengan amandemen tersebut, kompensasi dapat meroket: hingga $2.500 untuk setiap tindakan penghindaran dan $150.000 untuk setiap karya yang dilanggar..
Pembelaan Suno berkisar pada "penggunaan wajar", tetapi tuduhan penghindaran teknologi memperumit situasi. Dalam kasus seperti ini, banyak perusahaan mempertimbangkan penyelesaian untuk membatasi kerugian dan ketidakpastian. Pengalaman Anthropic dan kesepakatannya yang bernilai jutaan dolar menjadi kisah peringatan bagi sektor ini.
Condé Nast, surat kabar, dan gugatan terhadap Cohere
Perselisihan relevan lainnya: Condé Nast dan beberapa penerbit surat kabar telah membawa Cohere ke pengadilan atas dugaan penggunaan konten mereka yang tidak sah dalam pelatihan dan hasil sistem mereka. Penerbit berupaya memperoleh pengakuan atas nilai inventaris editorial mereka dan menghentikan eksploitasi tanpa izin..
Jenis tuntutan hukum ini memperkuat gagasan bahwa teks jurnalistik bukanlah "materi gratis" untuk memberi makan model komersial, dan bahwa perusahaan AI harus menegosiasikan perjanjian dan membayar lisensi. Hal ini memperkuat sebuah tren: beralih dari apa pun menuju manajemen hak proaktif.
Politik dan pengawasan: episode "pejabat Trump"
Iklim politik juga tidak netral. Dilaporkan bahwa pejabat pemerintahan Trump mengunjungi sebuah badan pemerintah beberapa hari sebelum memecat pimpinannya, yang baru saja menerbitkan laporan tentang penggunaan materi berhak cipta untuk melatih AI. Episode ini menggambarkan bahwa mendefinisikan batasan pelatihan tidak terjadi dalam ruang hampa, tetapi di tengah kepentingan dan tekanan..
Evolusi regulasi akan sangat bergantung pada dinamika ini: laporan teknis, pengaruh politik, sensitivitas hakim, dan kapasitas negosiasi antara perusahaan teknologi besar dan pemegang hak. Apa yang menjadi yurisprudensi yang muncul saat ini mungkin menjadi kerangka kerja yang stabil di masa mendatang..
Hak Kekayaan Intelektual: dari monopoli sementara menjadi saham biasa
Perlu diingat tujuan dari Hak Kekayaan Intelektual: hak ini merupakan hak yang sifatnya khusus, terbatas dalam el tiempo, yang bertujuan untuk mendorong penciptaan dan memberikan kompensasi yang adil kepada penulis untuk jangka waktu yang wajar (seumur hidup dan 70 tahun). Setelah periode tersebut, karya tersebut memasuki domain publik dan berkontribusi terhadap warisan budaya umum..
Tidak ada kreator yang bekerja dalam ruang hampa: penulis, pembuat film, atau pelukis "berlatih" dengan membaca, mengamati, dan mempelajari karya-karya pendahulu mereka. Persamaan dengan pembelajaran AI memang jelas, tetapi poin krusialnya adalah akses yang sah terhadap karya-karya tersebut. Perbedaannya terletak pada batasannya: penggunaan apa yang masuk akal, imbalan apa yang pantas, dan kapan batasnya dilanggar menjadi pembajakan..
Dalam kasus "Antropik", pengadilan mencatat bahwa pelatihan dengan buku-buku yang diperoleh secara legal dan didigitalkan secara manual mungkin merupakan penggunaan yang sah, tetapi menggunakan salinan bajakan tidak. Batasan tersebut membantu memandu kebijakan bisnis dan membentuk keputusan hukum di masa depan..
Kasus New York Times vs. OpenAI dan preseden Thomson Reuters vs. Ross
Litigasi antara The New York Times dan OpenAI (bersama dengan Microsoft), di mana diputuskan apakah konsumsi besar-besaran artikel surat kabar untuk melatih model seperti ChatGPT melanggar hak atau sesuai dengan "penggunaan wajar". Penyelesaian kasus ini akan menentukan bagi pers dan pasar AI..
Sebagai latar belakang, perselisihan Thomson Reuters vs Ross yang pada awalnya diputuskan melanggar penggunaan wajar, meskipun sedang dalam proses banding. Lanskap hukum tidaklah monolitik; setiap sektor (buku, pers, musik, audiovisual) mendorong doktrinnya sendiri.
Stabilitas AI, Midjourney, DeviantArt dan Getty: perspektif seni visual
Seni visual berada di garda terdepan dalam konflik ini. Gugatan class action yang diajukan oleh Sarah Andersen, Kelly McKernan, dan Karla Ortiz terhadap Stability AI, Midjourney, dan DeviantArt menuduh perusahaan-perusahaan ini melakukan pelanggaran langsung dan tidak langsung karena menggunakan jutaan gambar dalam pelatihan. Sementara itu, Getty Images menggugat Stability AI karena menyalin lebih dari 12 juta foto, beserta keterangan dan metadata, tanpa izin..
Selain Getty, diduga miliaran gambar diambil dari situs web untuk membangun kumpulan data pelatihan. Dampak ekonomi dan moral pada kreator dan bank gambar telah menghadirkan pertanyaan yang belum pernah ada sebelumnya kepada para juri..
Dampak ekonomi, prestise, dan biaya “tidak membayar”
Dari perspektif ekonomi kreatif, penggunaan besar-besaran karya tanpa izin mengalihkan nilai dari pengarang dan pemegang hak ke platform teknologi yang memonetisasi hasil dan layanan. Pengembang memperoleh keunggulan kompetitif; pembuat, di sisi lain, menderita kerugian dan kehilangan kendali..
Penyelesaian awal sebesar 1.500 miliar dalam kasus Antropik bersifat historis dan merupakan suatu pencegah: penyelesaian ini mengirimkan pesan yang jelas bahwa "murah" (menghindari lisensi) dapat berakhir menjadi sangat mahal. Hakim dan lembaga manajemen seperti CEDRO memperingatkan bahwa model bisnis yang didasarkan pada salinan bajakan tidak dapat dinormalisasi..
Ditekankan juga bahwa bagi perusahaan teknologi besar mungkin lebih murah untuk membayar denda satu kali daripada mengintegrasikan pemegang hak ke dalam rantai nilai mereka. Bila logika ini mengakar, ia akan menghambat kreativitas dan mengikis keberlanjutan budaya..
Apa yang harus dilakukan perusahaan teknologi dan pemegang hak?
Dari sisi AI: mengaudit sumber data, mendokumentasikan proses, memisahkan dengan jelas materi yang sah dari jejak pembajakan, dan menegosiasikan lisensi—individu atau kolektif—dengan penerbit, label rekaman, outlet media, dan bank gambar. Transparansi, keterlacakan, dan perjanjian proaktif kini menjadi masalah kepatuhan, bukan sekadar reputasi..
Dari sisi pemegang hak: memperkuat registri dan sistem identifikasi untuk membuktikan kepemilikan dan memfasilitasi manajemen lisensi, mempromosikan repertoar terbuka jika sesuai, dan berpartisipasi dalam tindakan kolektif ketika terjadi kerusakan besar. Hal ini juga penting untuk mempromosikan model akses terbuka yang berkelanjutan jika masuk akal.
Beberapa firma hukum dan asosiasi profesional menyarankan pengembangan mekanisme opt-in/opt-out yang jelas, label data untuk pelatihan, dan klausul kontrak khusus tentang AI dalam perjanjian penerbitan dan perekaman. Rekayasa hukum preventif ini menyelamatkan tuntutan hukum dan mempercepat inovasi yang bertanggung jawab..
Singkatnya, sektor ini bergerak menuju koeksistensi antara pelatihan yang sah dan penghormatan terhadap hak asasi manusia. Inovasi tidak membutuhkan pembajakan; ia membutuhkan aturan yang jelas, data yang bersih, dan perjanjian yang adil..
Situasi ini mengungkap beberapa kepastian: asal data berada di garis merah, "penggunaan wajar" tidak melindungi dari pembajakan, hakim menuntut transparansi, dan penyelesaian bernilai jutaan dolar sudah tersedia. Siapa pun yang ingin melatih AI yang kompetitif dan berkelanjutan harus mengatur repositori mereka, memberi lisensi yang sesuai, dan menerima bahwa bakat orang lain—buku, pers, musik, gambar, video—memiliki harga dan hak untuk dihormati..
Penulis yang bersemangat tentang dunia byte dan teknologi secara umum. Saya suka berbagi ilmu melalui tulisan, dan itulah yang akan saya lakukan di blog ini, menunjukkan kepada Anda semua hal paling menarik tentang gadget, perangkat lunak, perangkat keras, tren teknologi, dan banyak lagi. Tujuan saya adalah membantu Anda menavigasi dunia digital dengan cara yang sederhana dan menghibur.