Tools als ChatGPT zijn een krachtige business enabler maar vormen tegelijkertijd een serieus security-risico. Wie het gebruik van generatieve ai binnen een organisatie in goede banen wil leiden, houdt rekening met drie risico’s (en evenveel praktische adviezen).
Artikelen schrijven, broncode checken, suggesties geven: ondanks alle bekende tekortkomingen is het razend populaire ChatGPT een krachtige tool om het (werkende) leven een stuk efficiënter te maken. Tegelijkertijd moet ik als chief information security offer ook waarschuwen voor de informatiebeveiligingsaspecten van dit soort large language models (llm’s).
Risico’s en adviezen
- Risico 1: niet geverifieerde data
Voor de bekende llm’s (denk ook aan Bard) zijn gigantische hoeveelheden via internet verzamelde trainingsdata nodig. Hoe imposant de trainingssets ook zijn, de inhoud van de content die wordt gegenereerd is niet altijd te vertrouwen. Llm’s blijven veredelde autocorrecties die op basis van statistiek woorden achter elkaar zetten. Wat ook niet helpt: de trainingsdata van bijvoorbeeld ChatGPT is twee jaar oud.
De gevolgen zijn bekend. De gegenereerde content is in een aantal gevallen (deels) onjuist. Berucht zijn de problemen op het gebied van logisch redeneren, content met een bias en ‘hallucinaties’ (het genereren van plausibel klinkende content die feitelijk onjuist is of totaal geen verband houdt met de gegeven context).
Mijn advies? Hoe krachtig en intelligent de tools ook lijken, het motto luidt: verifiëren, valideren en nog eens verifiëren.
- Risico 2: data die gebruikers toevoegen
Gebruikers nemen in prompts vaak hele lappen tekst op. Denk aan een arts die een andere kijk op een patiëntendossier verlangt, een advocaat die een echtscheidingsconvenant laat checken of een developer die fouten in softwarecode wil opsporen.
Wat gebeurt er vervolgens met deze input? Worden de gegevens alleen bewaard of ook weer als trainingsdata gebruikt? En wordt de data dan uitsluitend voor jezelf gebruikt of voor álle gebruikers van het systeem? Nu tools als ChatGPT en AutoGPT geïntegreerd worden met andere applicaties, wordt het risico dat je informatie op oneigenlijke wijze wordt gebruikt – of wordt buitgemaakt bij een hack – ook groter.
Italië stelde dat ChatGPT niet AVG-proof is omdat niet duidelijk omschreven was wat er met persoonsgegevens in de prompts gebeurt (dit probleem is inmiddels opgelost). En Samsung kwam erachter dat grote hoeveelheden van zijn broncode waren geüpload, waarop ChatGPT en andere generatieve ai-tools aan banden werden gelegd.
Mijn advies? Wees voorzichtig bij het geven van prompts en wijs medewerkers op deze risico’s. Vermijd gevoelige en persoonlijke data en upload nooit hele stukken code of volledige documenten zonder de gevoelige delen te ‘blurren’. Het gebruik wordt hierdoor niet minder effectief, maar je vermijdt de kans op data- en/of intellectuele eigendomslekken.
- Risico 3: output die beschermd wordt door rechten
Llm’s en andere ai-tools zijn dus gevoed met gigantische trainingssets. Hoe ziet de set er precies uit? Zijn de data gemodereerd en zo ja, hoe? Welke criteria worden gehanteerd? Het is een grote black box. En dat is risicovol.
Niet alleen omdat de output feitelijk onjuist kan zijn, maar ook omdat de bijeen geharkte data persoonsgegevens kan bevatten of juist content die wordt beschermd door intellectuele eigendoms- of auteursrechten. Dit betekent dat je output kunt krijgen die – als het te letterlijk is terug te voeren op de bron – strijdig is met deze rechten.
Een duidelijk teken dat er beschermd materiaal wordt gescrapet: ai-tools als Midjourney en Dall-E genereren afbeeldingen waarin copyrighttekentjes voorkomen.
Mijn advies? Ook hier is verifiëren van de output een must. Vermeld dat er gebruik is gemaakt van ai-tooling. En overweeg tools te gebruiken waarbij de input geverifieerd rechtenvrij is én waarbij rechtenvrij gebruik van de output wordt gegarandeerd.
Bedrijfsbreed, iteratief beleid
Inmiddels is het ai-gebruik binnen elk bedrijf in gang gezet. Wacht met het opstellen van beleid of gedragscodes daarom vooral niet tot de overheid met wetgeving en/of regulering komt, want dat duurt te lang. Wacht ook niet tot de context volledig duidelijk is, aangezien de ontwikkelingen daarvoor te snel gaan. Het opstellen van bedrijfsbreed – maar vooral iteratief – beleid is daarom key voor het omgaan met deze mooie, nieuwe ontwikkelingen.
(Auteur Dennis Pieterse is chief information security officer bij Conclusion Enablement.)