- Sodišča ločijo med usposabljanjem s pravnimi deli in uporabo piratskih kopij.
- Ključni primeri: Meta (descargas (iz korporativnih intelektualnih lastnin), Anthropic (milijonski posel) in Suno (obtožba o prekinitvi pretoka podatkov).
- Izpostavljeni nabori podatkov: uporaba LibGen, Books3, OpenSubtitles in YouTuba; Common Crawl sproža razpravo.
- Sektor se usmerja k licenciranju, sledljivosti in preglednosti, da bi se izognil sankcijam in škodi za ugled.
Razprava o "nezakonitem piratstvu za usposabljanje umetne inteligence" je postala ena najbolj vročih tem v sodobni tehnologiji. V samo nekaj letih smo prešli od fascinacije nad ustvarjalno močjo generativnih modelov do spoznanja, da se za njihovimi osupljivimi zmožnostmi skriva množična uporaba dela drugih ljudi, pogosto brez dovoljenja in v mnogih primerih iz očitno nezakonitih virov. Spopad med inovacijami, avtorskimi pravicami in poslovno etiko je že v polnem teku..
Onkraj hrupa se začenjajo kristalizirati podatki, primeri in sodne odločbe, ki v ekosistem vnašajo red – in tudi pritisk. Na eni strani tehnološka podjetja zatrjujejo »transformativno« naravo usposabljanja; na drugi strani pa avtorji, založniki, založbe in medijske hiše opozarjajo na sistematične prakse kopiranja, včasih s piratskih spletnih mest, ki spodbujajo večmilijonske izdelke. Trenutne razmere so zapletene: obstajajo delne oprostilne sodbe, večmilijonske poravnave in več tožb v teku..
Zakaj se na usposabljanju za umetno inteligenco razpravlja o "piratstvu"?
Ključ se skriva v izvoru podatkov. Ko se model usposobi na milijonih besedil, slik, videoposnetkov ali glasbe, vir označuje pravno mejo: uporaba legalno pridobljenih del ni enaka njihovemu prenosu iz piratskih repozitorijev. Sodišča so začela izrecno razlikovati med zakonitimi viri in nezakonitimi kopijami.
Nedavna poročila kažejo na ogromne nabore podatkov, ki prihajajo s spletnih mest, kot so LibGen, Anna's Archive in Books3 – v primeru knjig veliko preneseno prek Torrenta—, OpenSubtitles za podnapisi avdiovizualne vsebine ali celo obsežne kompilacije s spleta, kot je Common Crawl. Čeprav Common Crawl sam po sebi ni "piratstvo", je njegova vključitev sprožila zaskrbljenost, ker ni dovoljenja za kopiranje in ponovno distribucijo velikih količin avtorsko zaščitene vsebine..
Vodilno podjetje – vključno z Appleom, Anthropicom, Meto in Microsoftom – je bilo povezano z uporabo teh naborov podatkov v različnih novinarskih in sodnih preiskavah. Nabor podatkov Books3 z več kot 196.000 knjigami, pridobljenimi iz Bibliotik.me, je postal študija primera..
Primer Meta: prenosi s korporativnih IP-naslovov in senca vsebin za odrasle
Eden najbolj presenetljivih incidentov se nanaša na Meto. Žvižgači trdijo, da je bilo iz omrežij P2P z uporabo korporativnih IP-naslovov prenesenih na tisoče pornografskih filmov in da so bile te kopije morda uporabljene za učenje notranjih modelov. Podjetje to zanika, češ da njihovi predpisi prepovedujejo uporabo pornografije pri usposabljanju in navajajo "osebno uporabo" s strani zaposlenih ali pogodbenikov..
Tožba, ki so jo vložile produkcijske hiše, kot sta Strike 3 Holdings in Counterlife Media, zahteva več sto milijonov dolarjev odškodnine zaradi domnevnega prenosa 2.369 filmov. Omenja tudi "skrivno omrežje" približno 2.500 skritih IP-naslovov, kar bo moralo presoditi sodišče. Po mnenju tožnikov bi obseg prenosov in njihov časovni vzorec razkrila nekaj več kot le zasebno porabo..
Meta je priznala, da so se z IP-naslovov podjetij prenašale vsebine za odrasle, vendar jih pripisuje individualni uporabi: majhna količina, približno 22 naslovov na leto na IP-naslov, dejavnost pa je bila razpršena med zaposlenimi in zunanjimi ponudniki. V enem primeru so izsledili izvajalca, ki naj bi kopije pošiljal na očetovo hišo, kar podjetje navaja kot dokaz za osebno uporabo..
Ozadje je še posebej občutljivo, ker to ni prvi Metin stik z obtožbami o uporabi piratskega gradiva za usposabljanje. IAUporaba velikih korpusov knjig, prenesenih prek Torrenta, je bila v preteklosti že obsojena, na kar se je podjetje odzvalo nedosledno, odvisno od postopkov. V vsakem primeru dejstvo, da se kot vir prenosov pojavljajo korporativni IP-ji, podjetje postavlja v kompromitiran položaj..
LibGen, Sci-Hub in akademska slabost: dostop, etika in posledice
Medtem se akademska skupnost sooča s svojimi lastnimi napetostmi. Nekateri raziskovalci, ki so celo naklonjeni odprtemu dostopu – in ki poznajo platforme, kot sta Sci-Hub in LibGen – so izrazili nezadovoljstvo, ker so njihovo piratsko delo vključeni v učne nabore podatkov velikih tehnoloških podjetij. Paradoks je jasen: tisti, ki kritizirajo tradicionalni model založništva, ne gledajo naklonjeno na to, da se njihovo delo uporablja brez dovoljenja za ustvarjanje lastniških umetnih inteligenc..
Osnovna težava je dobro znana: niti najboljše knjižnice nimajo vsega; en sam članek lahko stane več deset dolarjev, akademska knjiga pa več sto. Zato LibGen in Sci-Hub že leta omogočata dostop, zlasti v kontekstih z omejenimi viri. Za mnoge avtorje so citati – ne avtorski honorarji – prava valuta akademskega sveta; tukaj avtorske pravice pogosto delujejo kot ovira..
Prizadevanja za odprt dostop so se okrepila: revije brez naročnine, institucionalni sporazumi, ki krijejo stroške objavljanja, in mandati financerjev, ki zahtevajo odprtost. Vendar pa ostaja to področje privilegijev: ne morejo si ga privoščiti vse univerze niti vse države. Rezultat je neenakomeren mozaik pravic, stroškov in dovoljenj, ki ga umetna inteligenca razteza do svojih meja..
Obsežni nabori podatkov in označena spletna mesta: Books3, OpenSubtitles, YouTube in druga
Poročilo »Poročilo o piratskih vsebinah, uporabljenih pri usposabljanju generativne umetne inteligence« izrecno navaja repozitorije in nabore podatkov, ki so bili uporabljeni za novejše modele. Poleg LibGen in Books3 omenja tudi OpenSubtitles.org za avdiovizualne podnapise in alternativna spletna mesta za pretakanje, kot je Watchseries. V videoposnetku naj bi nekatere manekenke brez dovoljenja ustvarjalcev vdihavale vsebino z YouTuba..
Na dan so prišli konkretni primeri: Runway AI in njegov video model Gen3-alpha sta bila izpostavljena zaradi domnevne uporabe programske opreme za kopiranje tisočih videoposnetkov na YouTubu; na področju glasbe so ameriške založbe tožile Suno zaradi predvajanja avtorsko zaščitenih posnetkov brez dovoljenja. Suno je sama priznala, da je trenirala z "desetinami milijonov posnetkov", pridobljenih z interneta, za katere poročilo pravi, da bi lahko prišli iz spletnih omaric ali BitTorrenta..
Razprava o Common Crawlu je niansirana. Ne gre za klasično piratsko spletno mesto, vendar njegovo iskanje po spletu in množična distribucija spletnega besedila, vključno s tiskom in besedili pesmi, ne temelji na individualnih dovoljenjih. Za nekatere akterje v industriji ta shema ne ustreza "pošteni" uporabi, kadar je cilj usposabljanje poslovnih modelov..
Nedavne sodne odločbe: Anthropic, Meta in meje "poštene uporabe"
V Združenih državah Amerike so bile sprejete ključne odločitve. Sodnik je razsodil, da lahko Anthropicovo usposabljanje z milijoni knjig zaradi svojega transformativnega namena spada pod "pošteno uporabo", če so bila dela pridobljena zakonito. To je prva večja resolucija, ki se poglobi v vprašanje usposabljanja za LLM in poštene uporabe..
Opomba: isti sodnik je pojasnil, da gradnja knjižnice s piratskim učnim gradivom – kot naj bi bilo storjeno v začetnih fazah – ni zajeta v "pošteni uporabi". Anthropic se v zvezi s tem sooča z ločenim in različnim pravnim postopkom, z morebitnimi večmilijonskimi globami. Rdeča črta sodišča je jasna: zakonit izvor da, piratstvo ne.
Meta je delno zmagala tudi v drugem primeru: trinajst priznanih avtorjev ni uspelo dokazati zadostne ekonomske škode in primer je bil zavržen, vendar odločitev na splošno ne legalizira uporabe avtorsko zaščitenih del za učenje njihovih modelov. Sodnik sam je poudaril omejen obseg sodbe in da ne gre za skupinsko tožbo..
Pred temi izjavami je obstajal le en manjši precedens, Thomson Reuters proti zagonskemu podjetju Ross, v katerem je bila sodba proti zakoniti uporabi, čeprav je ta odločitev v postopku pritožbe. Nova merila pri Anthropicu določajo ton za to, kaj se bo zgodilo na sodišču..
Skupinske tožbe in poravnave: primer Anthropic in njegov pravi obseg
19. avgusta 2024 so trije ameriški avtorji tožili Anthropic zaradi učenja modelov s knjigami brez dovoljenja, od katerih naj bi bile mnoge prenesene z LibGen in Pirate Library Mirror (PiLiMi). Obseg odkritih del je zvezno sodišče v Kaliforniji spodbudil, da je primer preoblikovalo v skupinsko tožbo. Cilj: olajšati pridružitev vsem morebitnim prizadetim avtorjem in založnikom..
Septembra 2025 je prišla novica: predhodni sporazum v vrednosti 1.500 milijarde dolarjev. Vključeval je povprečno nadomestilo na projekt, odstranitev nezakonitih podatkov in vseh modelov, usposobljenih z njimi, ter mehanizem za uveljavljanje odškodninskih zahtevkov, ki še ni bil potrjen. Sodnik William Alsup je zahteval večjo preglednost: popoln seznam knjig in podrobnosti o distribuciji pred kakršno koli končno odobritvijo..
Vendar je obseg omejen. Sporazum bi zajemal manj kot 500.000 del v primerjavi s 7 milijoni, ki jih je tehnološko podjetje po ocenah preneslo. Poleg tega upošteva le dela, registrirana pri ameriškem uradu za avtorske pravice, izključuje pa tisoče tujih avtorjev. Izključene so tudi uporabe iz legalnih virov ali kanalov, ki niso piratska spletna mesta.
Postopkovni koledar se podaljša do leta 2026, vključno z roki za obvestila, pošiljanje kontaktnih podatkov avtorjev, možnostmi za izključitev ali ponovno vključitev in vlaganjem zahtevkov. Šele na koncu bodo izračunani zneski na projekt in na tožnika, če sodnik to odobri..
RIAA proti Suno in obtožba o "prevzemanju tokov"
V glasbeni industriji je RIAA – ki zastopa Universal, Sony in Warner – tožila Suna zaradi domnevne nepooblaščene uporabe posnetkov za učenje njegove umetne inteligence. Stvari so se zaostrile, ko je združenje obtožilo tudi YouTube praks "kopiranja posnetkov". izogibanje tehnološkim zaščitnim ukrepom. S to spremembo bi se lahko odškodnina močno povečala: do 2.500 dolarjev za vsako dejanje izogibanja in 150.000 dolarjev za vsako kršeno delo..
Sunova obramba se vrti okoli "poštene uporabe", vendar obtožba o tehnološkem obhodu situacijo še bolj zaplete. V takšnih primerih mnoga podjetja razmišljajo o poravnavi, da bi omejila škodo in negotovost. Izkušnja podjetja Anthropic in njegovega večmilijonskega posla je za ta sektor opozorilna zgodba..
Condé Nast, časopisi in tožba proti Cohereju
Še en relevanten spor: Condé Nast in več založnikov časopisov so tožili Cohere zaradi domnevne nepooblaščene uporabe njihove vsebine pri usposabljanju in rezultatih njihovih sistemov. Založniki zahtevajo priznanje vrednosti svojega uredniškega inventarja in ustavitev njegovega nelicenciranega izkoriščanja..
Tovrstne tožbe krepijo idejo, da novinarsko besedilo ni "brezplačno gradivo" za podporo komercialnim modelom in da se morajo podjetja, ki se ukvarjajo z umetno inteligenco, pogajati o sporazumih in plačevati licence. To krepi trend: prehod od česar koli gre k proaktivnemu upravljanju pravic.
Politika in nadzor: epizoda "Trumpovi uradniki"
Tudi politično ozračje ni nevtralno. Poročali so, da so uradniki Trumpove administracije obiskali vladno agencijo nekaj dni pred odstavitvijo njenega vodje, ki je pravkar objavil poročilo o uporabi avtorsko zaščitenih gradiv za usposabljanje umetne inteligence. Ta epizoda ponazarja, da se opredeljevanje meja usposabljanja ne dogaja v vakuumu, temveč sredi interesov in pritiskov..
Razvoj predpisov bo v veliki meri odvisen od teh dinamik: tehničnih poročil, političnega vpliva, občutljivosti sodnikov in pogajalske sposobnosti med velikimi tehnološkimi podjetji in imetniki pravic. Kar je danes nastajajoča sodna praksa, lahko jutri postane stabilen okvir..
Intelektualna lastnina: od začasnega monopola do navadnih delnic
Velja si zapomniti namen intelektualne lastnine: gre za pravico posebne narave, omejeno v čas, ki si prizadeva spodbujati ustvarjanje in avtorja pravično nadomestiti za razumno obdobje (življenje in 70 let). Po tem obdobju delo postane javno last in prispeva k skupni kulturni dediščini..
Noben ustvarjalec ne deluje v vakuumu: pisatelji, filmski ustvarjalci ali slikarji se "usposabljajo" z branjem, gledanjem in preučevanjem svojih predhodnikov. Vzporednica z učenjem umetne inteligence je očitna, vendar je ključna točka legitimen dostop do del. Razlika je v mejah: katere uporabe so razumne, kakšno plačilo je primerno in kdaj je meja prestopljena in pomeni piratstvo..
V primeru "Anthropic" je sodišče ugotovilo, da je usposabljanje z zakonito pridobljenimi in ročno digitaliziranimi knjigami lahko legitimna uporaba, uporaba piratskih kopij pa ne. Ta meja pomaga usmerjati poslovne politike in oblikovati prihodnje sodne odločitve.
Primer New York Times proti OpenAI in precedens Thomson Reuters proti Rossu
Pravdni spor med časopisom New York Times in OpenAI (skupaj z Microsoftom), kjer se odloča, ali je množično vnašanje časopisnih člankov za učenje modelov, kot je ChatGPT krši pravice ali spada v okvir "poštene uporabe". Rešitev tega primera bo odločilna za tisk in za trg umetne inteligence..
Kot ozadje, spor med Thomson Reuters in Ross se je na prvi stopnji končal zoper pošteno uporabo, čeprav je zoper njo vložena pritožba. Pravna krajina ni monolitna; vsak sektor (knjige, tisk, glasba, avdiovizualni sektor) uveljavlja svojo doktrino.
Stabilnost umetne inteligence, Midjourney, DeviantArt in Getty: perspektiva vizualnih umetnosti
Vizualna umetnost je bila v ospredju spora. Skupinska tožba, ki so jo vložile Sarah Andersen, Kelly McKernan in Karla Ortiz proti podjetjem Stability AI, Midjourney in DeviantArt, ta podjetja obtožuje neposrednih in posrednih kršitev zaradi uporabe milijonov slik pri usposabljanju. Medtem je Getty Images tožil podjetje Stability AI, ker je brez dovoljenja kopiralo več kot 12 milijonov fotografij skupaj z napisi in metapodatki..
Poleg Gettyja naj bi bile milijarde slik postrgane s spletnih strani za izdelavo učnih naborov podatkov. Ekonomski in moralni vpliv na ustvarjalce in slikovne banke je sodnikom postavil vprašanja brez primere..
Ekonomski vpliv, ugled in stroški "neplačila"
Z vidika kreativne ekonomije množična uporaba nelicenciranih del prenaša vrednost od avtorjev in imetnikov pravic na tehnološke platforme, ki monetizirajo rezultate in storitve. Razvijalci pridobijo konkurenčne prednosti; ustvarjalci pa utrpijo izgube in izgubljajo nadzor..
Predhodna poravnava v višini 1.500 milijarde v primeru Anthropic je zgodovinska in odvračilna: jasno sporoča, da se lahko "poceni" (izogibanje licencam) izkaže za zelo drago. Sodniki in upravni subjekti, kot je CEDRO, opozarjajo, da poslovnega modela, ki temelji na piratskih kopijah, ni mogoče normalizirati..
Poudarja se tudi, da je za velika tehnološka podjetja morda ceneje plačati enkratne globe kot pa imetnike pravic vključiti v svojo vrednostno verigo. Če se ta logika utrdi, odvrača od ustvarjalnosti in spodkopava kulturno trajnost..
Kaj naj storijo tehnološka podjetja in imetniki pravic?
Z vidika umetne inteligence: revidiranje virov podatkov, dokumentiranje procesov, jasno ločevanje legitimnega gradiva od kakršnih koli sledi piratstva in pogajanja o licencah – individualnih ali kolektivnih – z založniki, založbami, medijskimi hišami in bankami slik. Preglednost, sledljivost in proaktivni dogovori so zdaj stvar skladnosti, ne le ugleda..
S strani imetnikov pravic: okrepiti registre in identifikacijske sisteme za dokazovanje lastništva in olajšanje upravljanja licenc, spodbujati odprte repertoarje, kjer je to primerno, in sodelovati v kolektivnih ukrepih, kadar pride do velike škode. Ključnega pomena je tudi spodbujanje trajnostnih modelov odprtega dostopa, kjer je to smiselno..
Nekatere odvetniške pisarne in poklicna združenja priporočajo razvoj jasnih mehanizmov za privolitev/odjavo, označevanje podatkov za usposabljanje in posebne pogodbene klavzule o umetni inteligenci v sporazumih o objavi in snemanju. Ta preventivni pravni inženiring prihrani tožbe in pospeši odgovorne inovacije..
Skratka, sektor se premika k sobivanju med legitimnim usposabljanjem in spoštovanjem pravic. Inovacije ne potrebujejo piratstva; potrebujejo jasna pravila, čiste podatke in poštene sporazume..
Razmere razkrivajo več gotovosti: izvor podatkov je rdeča črta, "poštena uporaba" ne ščiti pred piratstvom, sodniki zahtevajo preglednost, na mizi pa so že večmilijonske poravnave. Vsak, ki želi usposobiti konkurenčne in trajnostne umetne inteligence, bo moral organizirati svoje repozitorije, licencirati tisto, kar je primerno, in sprejeti, da ima talent drugih ljudi – knjige, tisk, glasba, slike, videoposnetki – svojo ceno in pravico do spoštovanja..
Strasten pisec o svetu bajtov in tehnologije nasploh. Rad delim svoje znanje s pisanjem in to je tisto, kar bom počel v tem blogu, saj vam bom pokazal vse najbolj zanimive stvari o pripomočkih, programski opremi, strojni opremi, tehnoloških trendih in še več. Moj cilj je, da vam pomagam krmariti po digitalnem svetu na preprost in zabaven način.