Een blogpost van OpenAI over hun indrukwekkende taalmodel GPT-2 veroorzaakte ophef. Volgens OpenAI is het taalmodel in staat samenhangende en opvallend realistische tekstdocumenten te produceren zonder specifieke training. Het tumult ontstond niet alleen door de indrukwekkende resultaten, maar veeleer door het besluit van OpenAI om het taalmodel geheim te houden.
Zoals ze ook in hun blog vermelden, heeft OpenAI slechts een kleinere versie van GPT-2 vrijgegeven. Het grotere model zou namelijk bezorgdheid opwekken over kwaadwillende toepassingen van de technologie, zoals het op grote schaal genereren van misleidende, bevooroordeelde of beledigende taal. Met deze keuze hoopten ze binnen de ai-gemeenschap een discussie te starten over de implicaties van dergelijke systemen. En dat deden ze. De blogpost leidde tot een heftig debat met meningen die ver uit elkaar lagen. Veel onderzoekers vinden het vreemd dat juist een bedrijf als OpenAI kiest voor geheimhouding. Dit past toch niet bij hun naam?
Pijlers
Sommige vakgenoten menen dat geheimhouding, angst voortbrengt en voor overdreven publiciteit zorgt, terwijl de reproduceerbaarheid en wetenschappelijke controle worden belemmerd. Ze beschouwen opensourcecode en het open delen van kennis als belangrijke pijlers voor de grote vooruitgang van ai. OpenAI doet nu het tegenovergestelde.
Volgens critici probeert OpenAI een ethisch verantwoord standpunt in te nemen zonder expliciet aan te tonen dat hun model daadwerkelijk in staat is de kwaadwillende inhoud te genereren die zij beweren te vrezen. Toch kun je je afvragen waarom OpenAI een discussie over potentiële gevaren van ai start en daarnaast een model beschrijft dat deze gevaren voedt. Door te vermelden hoe het model opgebouwd en getraind is, hebben ze het recept voor het reproduceren van het model gedeeld. Met een handjevol ai-ingenieurs, tijd en voldoende rekenkracht is dit zelfs relatief eenvoudig. OpenAI’s waarschuwing zou dus zomaar het gevaar kunnen zijn waar ze juist voor waarschuwen.
Hoewel deze kritiek niet misplaatst is, mist het een belangrijk argument dat OpenAI onlangs naar voren bracht. Jack Clark, beleidsdirecteur bij OpenAI, verklaarde tegenover The Verge dat het slechts een kwestie van tijd is totdat iemand synthetische video, beeld, audio of tekst gaat gebruiken. GPT-2 is hierdoor bijvoorbeeld in te zetten als een geautomatiseerde trolling-machine, die eindeloze gal of haat uitspuwt. Medeoprichter van Fast.AI, Jeremy Howard, is het hier mee eens en zegt dat hij al enige tijd waarschuwt dat de technologie in staat is internet te vullen met geloofwaardige, context-specifieke teksten. Hierdoor is nepnieuws straks niet meer te onderscheiden van écht nieuws.
Cultuur
Dit is natuurlijk een ontwikkeling waar de ai-gemeenschap voor op haar hoede is en moet zijn, maar dit betekent niet dat de gemeenschap het eens hoeft te zijn met de beslissing van OpenAI. De opensourcecultuur van de ai-gemeenschap is juist één van de redenen waarom de ai-industrie groeit. Door deze cultuur te veranderen kan ai net zo gevaarlijk worden als dat het wordt gevreesd. We kunnen dit bekrachtigen door de beslissing van OpenAI te vergelijken met de beslissing om een zero day geheim te houden in cybersecurity.
Een zero day is een softwarelek dat de ontdekker niet heeft gedeeld met de maker van de software. Als de ontdekker beslist dit lek te misbruiken, heet het een zero day exploit. Deze exploits worden zo genoemd omdat de makers ‘zero days’ de tijd krijgen het lek te dichten.
Zero days zijn interessant voor drie groepen. Cybercriminelen gebruiken zero day-exploits om apparaten van individuen, bedrijven of organisaties te kraken. Beveiligingsbedrijven hebben interesse in zero days, omdat kennis hiervan helpt om de beveiligingssoftware van het bedrijf te verbeteren. Bovendien willen regeringen van sommige landen graag zero days hebben om ongezien apparaten van verdachten te kraken of zelfs te bespioneren. De vrees voor dergelijke praktijken werd twee jaar geleden reëel toen WikiLeaks aankondigde dat ze informatie hadden verkregen over CIA-hacktools waarvan werd vastgesteld dat ze vele zero day exploits bevatten.
Het is duidelijk dat zero days een gevaar vormen voor cybersecurity. Als een instelling ze kent, dan kunnen personen met verkeerde intenties dat ook. Om de privégegevens van nietsvermoedende gebruikers veilig te stellen, mogen zero days niet worden misbruikt. Integendeel, het zou beter zijn als organisaties, zoals de CIA, zero days delen met de bedrijven in plaats van ze geheim te houden. Alleen de makers van de software kunnen de lekken immers dichten.
Publiekelijk
Bij GPT-2 zou dit ook het geval kunnen zijn. Hoewel volledige openheid te veel gevraagd is van instellingen als de CIA, is het niet verkeerd dit van OpenAI te vragen wat hun GPT-2 betreft. Door het model publiekelijk te delen, zou de bredere ai-gemeenschap kunnen leren omgaan met de mogelijke bedreiging die het vormt. In plaats daarvan is de wereld nu bang voor de gevaren en niet in staat om een manier te vinden die zich tegen deze gevaren beschermd.
Ai-innovatie groeit op veel fronten in een snel tempo door. Gezien kwaadwillende partijen zeer waarschijnlijk een werkend GPT-2-model gaan ontwikkelen, is het onverstandig om ai-technologie geheim te houden – want het brengt wel degelijk de nodige risico’s met zich mee.