Suggerimenti di lettura: Pamela Samuelson, Legally Speaking: Does Using In-Copyright Works as Training Data Infringe?
1. Introduzione e contesto
Samuelson, eminente studiosa di diritto d’autore presso UC Berkeley, analizza il dibattito in corso sulla liceità dell’impiego di opere protette da copyright quali dati di addestramento per sistemi di intelligenza artificiale generativa. Alla base della riflessione vi sono i profili legali emergenti in numerosi procedimenti giudiziari negli Stati Uniti, tra cui casi significativi come Bartz v. Anthropic e Kadrey v. Meta
2. Problema centrale
Il quesito centrale affrontato dall’autrice riguarda se la riproduzione di opere protette per fini di training — ossia altro rispetto alla pubblicazione o distribuzione — possa costituire una violazione del diritto di riproduzione del titolare del copyright. Samuelson esamina come tali utilizzi siano attualmente contestati, soprattutto sulla base del doctrine del fair use negli Stati Uniti.
3. Fair Use e trattamento trasformativo
Samuelson argomenta che, sotto il quadro statunitense, l’uso di opere per il training può essere considerato un’operazione trasformativa, essendo destinato alla produzione di modelli statistici piuttosto che alla fruizione dell’opera originale. In tal senso, cita precedenti giurisprudenziali che hanno valutato analoghe attività (es. Google Books) come non invasive dei diritti d’autore.
4. Evoluzione giurisprudenziale recente
Nel contesto dei casi Bartz v. Anthropic e Kadrey v. Meta, alcune decisioni hanno espresso dubbi sulla compatibilità automatica del training di opere protette con il fair use. In particolare, alcuni giudici federali hanno sollevato perplessità relative alla potenziale eliminazione del mercato per le opere originarie prodotto dai modelli generativi, attenendosi alla valutazione dei quattro fattori del fair use. Tuttavia, nelle decisioni di sintesi per Meta, è stata accolta la tesi secondo cui l’utilizzo non comporta violazioni significative, allineandosi allo standard di fair use solo in assenza di danni evidenti ai titolari dei diritti.
5. Analisi comparata e prospettive normative
Samuelson presenta un confronto tra sistemi legali, rilevando che gli Stati Uniti, grazie al fair use, offrono un margine di flessibilità rispetto a ordinamenti come l’Unione Europea, dove le eccezioni-nel contesto del text and data mining (TDM) sono più circoscritte e spesso subordinati al consenso del titolare (opt-out). L’autrice segnala che alcune giurisdizioni europee (come la Germania) hanno già riconosciuto eccezioni specifiche per la ricerca e addestramento di modelli in applicazione di direttive UE recenti.
6. Conclusioni e implicazioni politiche
Samuelson conclude che, pur rimanendo un’area giuridica in evoluzione, l’impiego di opere protette come dati di training non sembra di per sé costituire un’infrazione, purché rientri in limiti trasformativi ragionevoli e non comporti utilizzi sostituivi del mercato delle opere originarie. L’esito dei contenziosi pendenti sarà cruciale per stabilire confini più precisi, come pure lo sviluppo di standard normativi espliciti (per esempio nel contesto dell’AI Act europeo o di codici di condotta), volti a garantire trasparenza e bilanciamento tra tutela della creatività e progresso tecnologico.