Kunstmatige intelligentie en neurale netwerken zijn inmiddels zó goed, dat je er hele gezichten in video’s mee kunt vervalsen. Die zogenoemde ‘deepfakes’ zijn steeds simpeler om te maken. Als je maar genoeg foto’s of video’s én een stevige computer hebt…
“We staan aan de voet van een tijdperk waarin onze vijanden ons op elke moment alles kunnen laten zeggen wat ze willen. Zelfs als we die dingen nooit zelf zouden zeggen.” Het is een onheilspellende boodschap, die de voormalige Amerikaanse president Barack Obama in april 2018 de wereld in stuurde. De vlucht die kunstmatige intelligentie de laatste jaren neemt, maakt het steeds makkelijker om mensen op video woorden in de mond te leggen. En dat ziet er bijna levensecht uit. “President Trump is een volslagen idioot”, vervolgt Obama met een kleine glimlach. “Ik zou dit natuurlijk nooit zeggen. In ieder geval niet publiekelijk. Maar anderen wel.”
Obama waarschuwt in de video voor deepfakes, nepvideo’s die nauwelijks van echt te onderscheiden zijn. Ze worden gemaakt met behulp van kunstmatige intelligentie en machine learning. Door een computer hele bergen foto’s en video’s van iemand te voeren, leert hij de gezichtsmimiek van de persoon kennen. Doe je dat met het gezicht van twee mensen, dan kun je vrij eenvoudig de mimiek van het ene gezicht kopiëren naar het gezicht. Dat het resultaat aardig overtuigend is bewijst de Obama-video zelf. Want dat ís een deepfake.
Donald Trump leest KIJK
Videotrucage is niet nieuw. Maar waar het realistisch bewerken van video voorheen alleen was voorbehouden aan grote filmstudio’s, kan een beetje handige wizzkid er anno 2019 zelf mee aan de slag. En daar maken internetters gretig gebruik van. Op het populaire forum Reddit verschenen eerder dit jaar aan de lopende band video’s waarin gezichten van bekende actrices als Gal Gadot (Wonder Woman) en Daisy Ridley (Rey uit de huidige Star Wars-trilogie) op gezichten van pornoactrices gezet waren. De video’s worden gemaakt met FakeApp, een tool die in elkaar gezet is met TensorFlow, Google’s openbare gereedschapskist om AI-algoritmes mee te ontwikkelen. “Hier is mijn nieuwe”, aldus een Reddit-gebruiker op 29 mei 2018. “Taylor Swift. Paar uurtjes werk.”
FakeApp ziet er op het eerste gezicht simpel genoeg uit. Zo simpel, dat we op de redactie van KIJK besluiten er zelf onze eigen gefakete video mee te maken. Omdat het succes van een deepfake staat of valt met de foto’s en video’s die je erin stopt, kies ik ervoor een video te faken van iemand waarvan veel beeld beschikbaar is: de Amerikaanse president Donald Trump. Het algoritme leert de mimiek van een gezicht het best herkennen aan de hand van foto’s met verschillende poses. Gelukkig kan FakeApp die foto’s zélf uit videobeeld filteren. Dat scheelt ons alvast heel veel tijd.
Een paar minuten aan videomateriaal is voor FakeApp al voldoende om genoeg foto’s te destilleren voor zijn algoritme. De app zet de foto’s in principe kant-en-klaar op een rijtje, al gaat dat bij mijn eerste paar pogingen niet helemaal goed. Viermaal blijkt scheepsrecht. Omdat ik zelf wil kunnen bepalen wat het gezicht van Trump doet, maak ik ook een korte video van mezelf die ik aan FakeApp voer. Wanneer ook die video is opgeknipt in foto’s wordt het tijd het algoritme te trainen. Het leert daarmee zowel mijn gezicht als dat van Trump kennen, zodat het daarna mijn gezichtsuitdrukkingen in het gezicht van de Amerikaanse president kan zetten.
Toch niet zo makkelijk
En dan gaat het mis. Hoewel FakeApp wel begint met het trainen van zijn algoritme, blijkt de Windows-machine die ik heb afgestoft (FakeApp werkt niet op Mac) niet genoeg geheugen te hebben. En zelfs met een machine met voldoende geheugen is het maken van een deepfake geen eitje, vertelt postdoctoraal onderzoeker Sven Charleer van de KU Leuven, waar hij onderzoekt doet naar datavisualisaties voor e-Sports. Hij probeerde met FakeApp het gezicht van zijn vrouw in een uitzending van het Amerikaanse praatprogramma The Tonight Show te shoppen.
“Uiteindelijk ben ik er een week mee bezig geweest”, vertelt Charleer, die in totaal 850 foto’s van zijn vrouw aan het algoritme voerde. “Het is bij FakeApp niet alleen belangrijk dat je veel foto’s van iemand hebt, maar ook dat de gezichten van de twee personen die je gebruikt qua vorm op elkaar lijken. De gezichten van Uma Thurman en Daisy Ridley verschillen bijvoorbeeld te veel van het gezicht van mijn vrouw. Met Anne Hathaway lukte het wel. En toen zat mijn vrouw ineens in een van de best bekeken praatprogramma’s van de Verenigde Staten.”
Hoewel de technologie achter FakeApp volgens Charleer simpel is, is de hype rondom deepfakes volgens hem overtrokken. “Er is veel te doen over de mogelijke gevaren van deze techniek. Door mensen in video’s woorden in de mond te leggen en te dreigen die video’s openbaar te maken, zou je ze in principe kunnen chanteren. Maar het maken van een écht overtuigende deepfake is toch niet zo makkelijk. In ieder geval nu nog niet.”
Maar in de toekomst zou dat best anders kunnen zijn, denkt Theo Gevers, hoogleraar computer vision aan de Universiteit van Amsterdam. In zijn kantoor op het Science Park in Amsterdam toont hij enthousiast de mogelijkheden van deepfake-techologie. Gevers richt zich in zijn onderzoek vooral op generative adverserial models (GANs), softwaremodellen die beelden bestuderen en die kennis gebruiken om nieuwe, soortgelijke beelden te maken. “Zulke systemen worden steeds beter in wat ze doen. Nu en in de toekomst. Twee studenten van Williams College in de Verenigde Staten bouwden vorig jaar een GAN die kunstwerken bestudeert en die kennis gebruikt om zelf nieuwe, virtuele kunstwerken te genereren.”
Op een speciaal geprepareerde laptop toont Gevers nog een mogelijkheid van GANs: het live creëren van deepfake-video’s. De laptop zet door een webcam opgenomen beelden van mijn gezicht rechtstreeks om in beeldpunten, die één op één gekopieerd worden naar het hoofd van de Amerikaanse president Donald Trump. Trek ik mijn mond open, dan doet Trump hetzelfde. Frons ik mijn wenkbrauwen, dan gaan die van de Amerikaanse president ook omhoog. “Om deze live deepfakes te kunnen maken, hebben we ons systeem eerder al getraind”, legt Gevers uit. “Om dit te kunnen maken heb je aan dertig seconden video genoeg.”
Wapenwedloop
Met de software van Gevers lukt het daarna in een handomdraai om de door mij gewenste Trump-deepfake te maken (je bekijkt hem op kijkmagazine.nl). Voor het ongeoefende oog ziet die video er aardig echt uit. Toch valt hij direct door de mand, omdat de Donald Trump in onze deepfake een totaal andere stem heeft en Nederlands praat. Maar ook voor dat probleem zijn er al oplossingen. Softwaremaker Adobe bracht in 2016 VoCo uit, software die na twintig minuten naar een stem luisteren diezelfde stem precies kan nadoen. Een gebruiker kan de eigenaar van de stem vervolgens alles laten zeggen wat hij wil, gewoon door tekst in te typen in VoCo.
“Wij werken aan iets soortgelijks”, zegt Gevers. Hij start een nieuwe video in waarin niet alleen Trumps bewegingen gefaket zijn, maar ook de woorden die hij uitspreekt. Marcel van Gerven, hoogleraar kunstmatige intelligentie aan de Radboud Universiteit noemt zulke technologie doodeng. “We zijn nu op een moment aangekomen waarop je niet zomaar meer kunt geloven dat wat je ziet en hoort echt is. Door de stappen die dit soort netwerken zetten komen we in een soort wapenwedloop terecht. Omdat deepfakes steeds beter én makkelijker worden om te maken, moeten ook systemen die ze kunnen herkennen steeds beter worden.”
Het bouwen van kunstmatige intelligentie die deepfakes kan herkennen is ook het doel van Gevers. “Wil je deepfakes kunnen herkennen, dan zul je eerst moeten weten hoe je ze moet maken”, stelt hij. “We zijn er ook ver mee. In februari lanceren we een website waar je video’s waar je twijfel bij hebt kunt uploaden. Ons systeem vertelt je vervolgens of de video echt of nep is. In de toekomst willen we een plugin bouwen die onderzoeksinstituten zelf op hun website kunnen integreren. Zo hopen we een middel te bieden tegen misbruik van deze techniek.”
Kanker herkennen
Ondanks de logische gevaren die deepfakes met zich meebrengen, biedt de techniek ook kansen. In 2016 telde Walt Disney Studios miljoenen dollars neer om een CGI-versie van het gezicht van actrice Carrie Fisher over dat van een andere actrice heen te leggen in Star Wars: Rogue One. Twee jaar later deed een fan van de Star Wars-reeks een vergelijkbaar kunstje in zijn vrije tijd. Met behulp van kunstmatige intelligentie en deepfake-technologie verving hij het gezicht van acteur Alden Ehrenreich in Star Wars: Solo door dat van Harrison Ford. In het verlengde daarvan zou deepfake-technologie gebruikt kunnen worden om advertenties persoonlijker te maken door gezichten van mensen live in reclamevideo’s te projecteren.
Maar het namaken van gezichten in films met deepfake-technologie is maar één van de mogelijkheden, benadrukt Sezer Karaoglu. Hij werkt als doctoraal onderzoeker aan de Universiteit van Amsterdam mee aan de research van Gevers. Daarnaast is hij hoofd van het spin-offbedrijf 3DUniversum, dat toepassingen bedenkt voor GANs in het dagelijks leven. En vooral de medische toepassingen van GANs zijn volgens hem eindeloos. “Je kunt zo’n systeem ook trainen met andere zaken als gezichten. Door hem bijvoorbeeld foto’s van brandwonden of kankergezwellen te voeren, leert een GAN hoe zo’n wond of gezwel eruit ziet.”
Wanneer een GAN genoeg kankergezwellen heeft gezien, kan hij uiteindelijk zelf nieuwe beelden van gezwellen genereren. “Ons systeem haalt eigenlijk een foto van een gezwel uit elkaar en puzzelt met de stukjes nieuwe foto’s in elkaar”, zegt Karaoglu. “Die nieuwe beelden gebruikt hij weer om zichzelf verder te trainen.” Het uiteindelijke doel: een systeem ontwikkelen dat een gezwel kan herkennen en dat daar nóg beter in is dan een menselijke arts. Zo kan technologie die nu nog vooral gebruikt wordt om Barack Obama of Donald Trump gekke dingen te laten zeggen uiteindelijk misschien zelfs levens redden.
Dit artikel verscheen eerder in