Home Politiek Openai’s Modellen ‘Memorized’ auteursrechtelijk beschermde inhoud, suggereert nieuwe studie

Openai’s Modellen ‘Memorized’ auteursrechtelijk beschermde inhoud, suggereert nieuwe studie

28
0

Een nieuwe studie lijkt geloofwaardigheid te geven aan beschuldigingen dat Openai ten minste enkele van zijn AI -modellen op auteursrechtelijk beschermde inhoud heeft getraind.

Openai is verwikkeld in pakken die worden gebracht door auteurs, programmeurs en andere rechtenhouders die het bedrijf beschuldigen van het gebruik van hun werken-boeken, codebases, enzovoort-om zijn modellen zonder toestemming te ontwikkelen. Openai heeft al lang een verdediging van redelijk gebruik geëist, maar de eisers in deze gevallen beweren dat er geen carve-out is in de Amerikaanse auteursrechtwetgeving voor trainingsgegevens.

De studie, die co-auteur was van onderzoekers van de Universiteit van Washington, de Universiteit van Kopenhagen en Stanford, stelt een nieuwe methode voor voor het identificeren van trainingsgegevens “onthouden” door modellen achter een API, zoals die van Openai.

Modellen zijn voorspellingsmotoren. Getraind op veel gegevens, ze leren patronen – zo kunnen ze essays, foto’s en meer genereren. De meeste uitgangen zijn geen letterlijke kopieën van de trainingsgegevens, maar vanwege de manier waarop modellen ‘leren’, zijn sommige onvermijdelijk. Er is gebleken dat beeldmodellen screenshots uit films opsplitsen waarop ze zijn getraind, terwijl taalmodellen zijn waargenomen, effectief plagiaatnieuwsartikelen.

De methode van de studie is gebaseerd op woorden die de co-auteurs ‘high-surprisal’ noemen-dat wil zeggen woorden die opvallen als ongewoon in de context van een groter oeuvre. Het woord ‘radar’ in de zin ‘Jack en ik zaten nog steeds nog steeds met de radar zoemen’, zou als high-surprisaal worden beschouwd omdat het statistisch minder waarschijnlijk is dan woorden zoals ‘motor’ of ‘radio’ om te verschijnen vóór ‘zoemen’.

De co-auteurs onderzochten verschillende OpenAI-modellen, waaronder GPT-4 en GPT-3.5, op tekenen van onthouden door het verwijderen van high-surprisale woorden uit fragmenten van fictieboeken en stukken van de New York Times en de modellen proberen te “raden” welke woorden waren gemaskeerd. Als de modellen erin geslaagd zijn om correct te raden, is het waarschijnlijk dat ze het fragment tijdens de training onthouden, de co-auteurs afgerond.

Openai Copyright Study
Een voorbeeld van het hebben van een model een ‘high-surprisaal woord’ raden ‘.Afbeelding credits:Openai

Volgens de resultaten van de tests vertoonde GPT-4 tekenen van het hebben van onthouden delen van populaire fictieboeken, waaronder boeken in een dataset met voorbeelden van auteursrechtelijke e-boeken genaamd Bookmia. De resultaten suggereerden ook dat het model delen van de artikelen van de New York Times onthouden, zij het met een relatief lagere snelheid.

Abhilasha Ravichander, een doctoraatsstudent aan de Universiteit van Washington en een co-auteur van de studie, vertelde TechCrunch dat de bevindingen licht werpen op de modellen “Contenty Data” mogelijk zijn opgeleid.

“Om grote taalmodellen te hebben die betrouwbaar zijn, moeten we modellen hebben die we kunnen onderzoeken en controleren en wetenschappelijk onderzoeken,” zei Ravichander. “Ons werk is bedoeld om een ​​hulpmiddel te bieden om grote taalmodellen te onderzoeken, maar er is een reële behoefte aan meer gegevenstransparantie in het hele ecosysteem.”

OpenAI heeft al lang bepleit voor lossere beperkingen op het ontwikkelen van modellen met behulp van auteursrechtelijk beschermde gegevens. Hoewel het bedrijf bepaalde contentlicensieverbruik heeft en opt-outmechanismen biedt waarmee auteursrechteigenaren de inhoud kunnen markeren die ze de voorkeur geven aan het bedrijf dat niet wordt gebruikt voor trainingsdoeleinden, heeft het verschillende regeringen gelobbyd om “fair use” -regels rond AI-trainingsbenaderingen te codificeren.

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in