Auteur: Legal Counsels Paul Bex en Machiel Takens.
ChatGPT van OpenAI is populair, dat is inmiddels wel duidelijk. Wie heeft er niet een vrije middag besteed aan het stellen van random vragen aan de chatbot (‘Schrijf een privacyblog in de stijl van ICTRecht’, ‘Waarom is Limburgse vlaai het beste’ of ‘Ben jij de voorganger van Skynet’)? Grote techbedrijven volgen deze ontwikkelingen op de voet en ontwikkelen tegelijkertijd eigen chatbots. Zo kwam Microsoft met Bing Chat en is inmiddels Google Bard wereldwijd gereleaset. Deze chatbot van Google probeert zich te onderscheiden van zijn concurrenten door gebruik te maken van een door Google zelf ontwikkeld taalmodel genaamd LaMDA (Language Model for Dialogue Application).
Maar de AI-hype brengt ook problemen met zich mee. Zo kreeg OpenAI in Italië tijdelijk een verbod om persoonsgegevens te verwerken vanwege privacyproblemen in ChatGPT. En de release van Google Bard in de Europa liep tegen soortgelijke problemen aan. Google wilde hun chatbot eigenlijk al begin juni uitbrengen, maar heeft de release een maand op moeten schorten na klachten van de Ierse toezichthouder, de Data Protection Commission (DPC). In deze blog schrijven wij over de ontwikkelingen rondom Google Bard en leggen we uit waarom ook Google privacyproblemen heeft ondervonden in de EU aan de hand van het black box-probleem.
Wat is Google Bard?
Google Bard is Google’s antwoord op de AI-hype, want een van de grootste spelers op de markt kan natuurlijk niet achterblijven. Waar OpenAI’s ChatGPT en Microsoft’s Bing Chat het GPT-4-taalmodel gebruiken, werkt Google Bard op basis van het LaMDA-taalmodel. In tegenstelling tot GPT-4 is het taalmodel van Google Bard in eerste instantie getraind op alleen gesprekken en heeft daarna verder geleerd met grote datasets met teksten en documenten. Volgens Google zorgt dit ervoor dat chatten met Bard natuurlijker voelt. De antwoorden van Bard zijn zelfs zo realistisch dat een softwareontwikkelaar van Google’s Responsible AI divisie onlangs claimde dat de chatbot bewustzijn had ontwikkeld. Google ontkrachtte deze claim alleen vrij snel weer. Een eigen bewustzijn gaat misschien een wat ver, maar dit taalmodel heeft wel degelijk een grote mate van autonomie. Dit is een onderdeel van een groter probleem binnen AI-modellen, namelijk het zogenaamde black box-probleem.
Wat is die black box?
Taalmodellen zoals het LaMDA-model bestaan uit neurale netwerken die tekst kunnen genereren op basis van patronen die ze zelf hebben geleerd met behulp van grote hoeveelheden trainingsdata. De gebruiker stelt een vraag, het AI-model doet zijn ding en er rolt een antwoord uit. Bij dit type AI-model kan men simpelweg niet precies achterhalen hoe en waarom zo’n model tot een bepaalde keuze komt. Ook de aanbieder van zo’n model weet dit doorgaans niet. Over de data waarop taalmodellen zoals het LaMDA getraind zijn blijven aanbieders geheimzinnig. Alleen de input (de vraag) is voor de gebruiker bekend. Het is dus een black box. Je ziet niet wat er aan de binnenkant gebeurt. Zo’n black box kan problematisch worden wanneer er persoonsgegevens worden verwerkt.
Uit onderzoek is gebleken dat de trainingsdata verkregen wordt door middel van webscraping (makkelijk gezegd: het kopiëren van delen van het internet). Hiermee ontstaan databases waarin gigantische hoeveelheden informatie van het web is opgeslagen. Een groot deel van die data bestaat uit sites waarop illegaal verkregen informatie staat, waaronder ook persoonsgegevens. Als gevolg verzamelen aanbieders voor het trainen van de AI-modellen op grote schaal persoonsgegevens zonder grondslag. Dit is volgens de AVG onrechtmatig. Evenals het eventuele verdere gebruik van deze persoonsgegevens in het taalmodel. Daarnaast is het in sommige gevallen onduidelijk voor gebruikers wat er precies gebeurt met de persoonsgegevens die gebruikers zelf invoeren in de chat. Alles bij elkaar genomen zorgt het dus voor grote AVG complianceproblemen voor Google en andere aanbieders van AI-modellen.
OpenAI zingt ook een toontje lager
Zo is ChatGPT eerder dit jaar uit de lucht gehaald in Italië. Volgens de Italiaanse toezichthouder (GPDP) was OpenAI onder andere onduidelijk over wat het taalmodel met verzamelde persoonsgegevens deed, verwerkte OpenAI persoonsgegevens op basis van een verkeerde grondslag en werden mensen niet geïnformeerd over het feit dat hun persoonsgegevens werden verzameld.
Nadat OpenAI maatregelen had genomen waarmee de bezwaren van de GPDP werden weggenomen was ChatGPT weer toegestaan in Italië. OpenAI heeft onder andere in de privacyverklaring meer duidelijkheid gegeven over welke persoonsgegevens ze gebruikten voor specifieke doeleinden. Ook hebben ze voor bepaalde verwerkingsdoeleinden verwezen naar een andere grondslag (gerechtvaardigd belang) met een opt-out mogelijkheid. Verder kan men via een formulier aangeven dat ingevoerde persoonsgegevens onjuist zijn en OpenAI verzoeken om persoonsgegevens te verwijderen.
Na GPDP zijn ook andere Europese toezichthouders aangespoord om ChatGPT en soortgelijke generatieve AI-modellen goed onder de loep te nemen. Zo heeft de Autoriteit Persoonsgegevens (AP) OpenAI een brief gestuurd met de vraag om verschillende aspecten van het AI-model te verduidelijken. De AP wil weten of, en hoe de input van gebruikers gebruikt wordt om het algoritme te trainen. Ook heeft de AP gevraagd om te verduidelijken hoe OpenAI gegevens van het internet verzamelt en gebruikt. Daarnaast heeft de AP met andere privacytoezichthouders, binnen hun samenwerkingsverband de European Data Protection Board (EDPB), een taskforce opgericht om informatie uit te wisselen en acties te coördineren.
Release van Google Bard in Europa
Google had naar aanloop van de release van Bard nagelaten een DPIA uit te voeren kon het niet aantonen dat Bard voldeed aan de AVG. Dat Google vervolgens problemen heeft gekregen met de Ierse toezichthouder DPC is daarom niet verrassend.
Om de zorgen van de DPC gedeeltelijk weg te nemen en Bard op de markt te kunnen brengen heeft Google, net als OpenAI, meer inzicht gegeven in het verwerken van persoonsgegevens en gebruikers hierover meer iets controle gegeven. Google heeft een privacyhub toegevoegd aan Bard. Hierin kunnen gebruikers lezen hoe persoonsgegevens worden gebruikt en kunnen ze via een formulier toestemming geven of intrekken voor verschillende verwerkingen. Verder kunnen gebruikers aangeven dat hun Bard-activiteiten maximaal drie maanden bewaard mogen worden door Google. Hoe de gegevens uit de chat precies worden gebruikt om het model te verbeteren blijft nog altijd onduidelijk.
Ondanks de genomen maatregelen kan Google nog niet achteroverleunen. Ze moeten namelijk in oktober opnieuw rapporteren aan de Ierse toezichthouder over de voortgang.
Hoe verder?
Google en OpenAI lijken de eerste stappen te hebben om meer AVG-compliant te zijn met hun chatbots. De verbeteringen die zijn gedaan zijn zeker een stap in de goede richting, maar zijn nog verre van perfect. Hoe het black box-probleem en het gebruik van webscrapers aangepakt moeten worden is nog onduidelijk en verdient nog de nodige aandacht van de Europese toezichthouders en de aanbieders.
Privacyproblemen bij AI?
Wij krijgen regelmatig vragen over hoe AI AVG-compliant gebruikt kan worden. Het hebben van een grondslag en informeren van betrokkenen zijn goede eerste stappen, maar de AVG gaat natuurlijk verder dan dat. Heb je hier hulp bij nodig, laat het ons weten!
Benieuwd naar de laatste updates op het gebied van AI? Schrijf je dan vooral in voor onze AI nieuwsbrief.
https://www.ictrecht.nl/blog/google-bard-is-ook-nog-niet-uitgezongen-in-europa