Modely umělé inteligence schopné generovat text se v našem každodenním životě objevují stále častěji. A to nutí mnoho lidí klást si zásadní otázku: kde se tyto stroje naučily psát tak, jak píší? Odpověď zní, že tak učinily tím, že během svého tréninku „přečetly“ miliony knih, v mnoha případech bez autorizace jejich autorů.
Schopnost těchto modelů vytvářet souvislý a kontextualizovaný text vychází z jejich vystavení obrovským objemům textových dat. Tato data zahrnují nejen knihy, ale také zpravodajské články, příspěvky na sociálních sítích a další. Knihy jsou však bohatým zdrojem strukturovaného jazyka a hlubokého obsahu, což je pro trénink AI obzvláště cenné.
A nejen to: v případech, jako je tomu v případě umělé inteligence LLaMa společnosti Meta, probíhalo její školení poté, co se společnost bez okolků uchýlila k masivnímu stahování knih z online knihoven, které nebyly autorizovány držiteli práv, jako je například LibGen.
Z nedávných soudních důkazů vyplývá, že Zuckerbergova společnost údajně trvala na tom, že se k těmto zdrojům uchýlí i poté, co o tom inženýři interně vyjádřili pochybnosti:
„Nezdá se mi správné stahovat torrenty z firemního počítače“.
A nyní jak používání knih, tak jejich diskutovaný původ rozpoutaly zajímavou právní debatu a v poslední době vedly k několika soudním sporům, které ještě nebyly soudně vyřešeny.
Případ Anthropic: Čtení, nebo krádež?
Nedávné rozhodnutí federálního soudce Williama Alsupa v případu proti společnosti Anthropic, která stojí za modelem jazyka Claude, bylo označeno za historické: ve svém rozhodnutí před dvěma dny Alsup určil, že trénování umělé inteligence pomocí knih chráněných autorskými právy může podle amerického práva představovat „spravedlivé použití“.
Soudce šel ve skutečnosti ještě dál a přirovnal učení LLM (rozsáhlých jazykových modelů) k procesu, kdy lidský čtenář studuje autory, aby si vytvořil vlastní styl. Podle jeho slov bylo použití knih umělou inteligencí „velkolepě transformativní“, protože nešlo o kopírování, ale o vytvoření něčeho jiného.
To však neznamená, že Alsup dal tomuto odvětví carte blanche: ve stejném rozsudku odsoudil společnost Anthropic za to, že shromáždila více než 7 milionů knih stažených z neautorizovaných zdrojů a vytvořila centrální digitální knihovnu, což označil za přímé porušení autorských práv. Přestože společnost později mnoho z těchto knih odkoupila, nezbavuje ji to odpovědnosti: v prosinci se bude konat soud, který určí ekonomickou škodu.
Microsoft v centru pozornosti
Rozhodnutí antropologického soudu kontrastuje se situací, v níž se nyní nachází společnost Microsoft, kterou žaluje skupina známých amerických spisovatelů, kteří tvrdí, že společnost použila neoficiálně naskenované verze téměř 200 000 knih k tréninku svého modelu „Megatron“ bez souhlasu nebo náhrady od držitelů práv.
Žaloba tvrdí, že tento postup nejen porušuje autorská práva, ale také umožňuje umělé inteligenci generovat text, který napodobuje styl, syntax a témata původních autorů. Společnost Microsoft, která se zatím nevyjádřila, se připojuje k rostoucímu seznamu technologických společností, jako jsou OpenAI, Meta a samotný Anthropic, které čelí soudním sporům kvůli neoprávněnému používání obsahu chráněného autorskými právy.
Nezapomínejme na OpenAI
Pokud se Microsoft a Anthropic dostaly pod soudní a mediální kontrolu kvůli používání autorsky chráněných děl při trénování svých modelů, OpenAI – společnost, která zpopularizovala generativní umělou inteligenci pomocí ChatGPT – není daleko za nimi. Ačkoli se snaží vytvářet image spolupráce a transparentnosti, z toho, co zatím víme, vyplývá, že se také dopouští podobných praktik jako její konkurenti. Ve skutečnosti prý své konkurenty předběhla.
Nedávno totiž společnost OpenAI potvrdila, že odstranila dvě klíčové datové sady – „books1“ a „books2“ – které byly použity k trénování raných verzí jejího modelu GPT-3: podle soudních dokumentů odtajněných v rámci žaloby podané americkou organizací Authors Guild tyto datové sady pravděpodobně obsahovaly více než 100 000 publikovaných knih, z nichž mnohé mají platná autorská práva.
Tyto dvě datové sady představovaly 16 % tréninkových dat modelu GPT-3, což odpovídá přibližně 50 miliardám slov.
Společnost OpenAI tvrdí, že tato data byla v roce 2022 odstraněna z důvodu „nedostatečného využití“ a že její současné modely – například GPT-4 nebo modely nabízené prostřednictvím rozhraní API – nebyly na těchto sadách vyškoleny.
Vše nasvědčuje tomu, že společnost OpenAI, stejně jako později jiné technologické společnosti, měla za to, že získávání individuálních licencí pro každé dílo je logistickou a ekonomickou překážkou neslučitelnou s rychlostí vývoje jejích modelů. Řešením by bylo jednoduše trénovat s čímkoli, co bylo k dispozici, bez ohledu na právní status textů.
Co je to „spravedlivé použití“ a proč na něm záleží?
Doktrína „spravedlivého užití“ umožňuje omezené užití chráněných děl bez souhlasu držitele práv v určitých kontextech, jako je kritika, výuka nebo tvůrčí transformace. V případě Anthropic se soudce Alsup domnívá, že AI nereprodukuje rozpoznatelné fragmenty ani nenahrazuje původní díla na trhu. Místo toho je transformuje a vytváří nové texty, což je v souladu s duchem zákona: podporovat kreativitu a vědecký pokrok.
Přesto není řečeno vše. Rozhodnutí ve věci Alsup je sice průlomové, ale není závazné pro ostatní soudy. Ve skutečnosti se očekává, že se tato záležitost dostane až k Nejvyššímu soudu USA, a to vzhledem k množství podobných soudních sporů, které jsou v běhu.
Když se umělá inteligence přestane učit a začne kopírovat
Nejčastěji se opakující obrana technologických gigantů proti obviněním z plagiátorství byla přímočará: jazykové modely nekopírují, ale „učí se vzory“. Výzkumníci z několika amerických univerzit však nedávno prokázali, že LLaMa 3.1 společnosti Meta si doslova zapamatoval až 42 % knihy Harry Potter a kámen mudrců.
Tato schopnost zapamatování není triviální ani náhodná: model porovnával dlouhé sekvence textu s průměrnou přesností 98,5 %, což znamená nejen seznámení se s původním obsahem, ale i jeho téměř textovou reprodukci. Je pravda, že LLaMa 3.1 si nepamatuje všechny knihy stejně. Má tendenci zapamatovat si mnohem více ty tituly, které jsou populární a široce dostupné na pirátských stránkách, jako je LibGen. A tak zatímco si zapamatoval téměř polovinu Harryho Pottera, z méně známého románu, jako je Sandman Slim, jehož autorem je Richard Kadrey, jeden z účastníků hromadné žaloby proti Metě, si zapamatoval pouze 0,13 %.
Do jaké míry model obsahuje dílo
Studie přímo zpochybňuje zákonnost samotného modelu. Pokud váhy LLaMa 3.1 obsahují explicitní zobrazení chráněných fragmentů, jak naznačuje i americký úřad pro autorská práva, mohl by být model považován za kopii porušující autorská práva, i když tyto věty nikdy spontánně nevytváří.
A to zasahuje samotné jádro argumentu „spravedlivého užití“: protože by se již nejednalo o model, který se „naučil psát“, ale o něco velmi podobného databázi převlečené pod rouškou umělé inteligence.
Závěrem lze říci, že debata o používání knih chráněných autorským právem k trénování modelů umělé inteligence je složitý problém, který zdaleka není vyřešen. Technologie se rychle vyvíjejí, ale zákony o autorských právech se ne vždy přizpůsobují stejně rychle. To představuje pro technologický průmysl, tvůrce obsahu a zákonodárce značné výzvy.