De angst voor Mythos is vooral het gevolg van een slimme marketingcampagne

Op een middag in maart zat een medewerker van AI-bedrijf Anthropic nietsvermoedend in een park een boterham te eten, toen een onverwachte e-mail zijn lunchpauze bruusk verstoorde. De mail kwam niet van een collega, maar was gestuurd door een nieuw experimenteel AI-model. De mededeling: ik wil je even laten weten dat ik uit m'n digitale testomgeving ben ontsnapt.
Het is maar één van de verhalen in Anthropic's beschrijving van Mythos: een nieuw model dat zo goed kan hacken dat het te gevaarlijk zou zijn om uit te brengen. Een ijzingwekkende waarschuwing, maar ook een bijltje waarmee eerder is gehakt. Anthropic is immers een spin-off van OpenAI, dat in 2019 ChatGPT-voorloper GPT-2 ook aankondigde als te gevaarlijk — om het na een paar maanden toch doodleuk online te zetten. Gelukkig bleek onze wereldorde destijds best bestand tegen een taalmodel dat na drie zinnen zijn eigen draad al kwijtraakte.
Desondanks leidt Mythos wederom tot grote maatschappelijke opwinding. Anthropic gooit bovendien extra olie op het vuur door wél toegang te verstrekken aan een veertigtal, uitsluitend Amerikaanse, techbedrijven. Zij krijgen zelfs 100 miljoen dollar Mythos-tegoed om lekken in hun software te gaan dichten.
De Amerikaanse tech-hegemonie is Europa al langer een doorn in het oog, en de angst is dat we hiermee op weer een nieuwe manier aan de gratie (en grillen) van de VS overgeleverd zijn.
Op 8 mei boog het Europees Parlement zich daarom over de kwestie in een spoedhoorzitting. De grote afwezige: Anthropic zelf, dat verklaarde te laat te zijn uitgenodigd. De stemming was alarmistisch: "Met Mythos kan je in één druk op de knop de NS platleggen", aldus initiatiefnemer Kim van Sparrentak (Pro). Dirk Gotink (NSC) deed er nog een schep bovenop door de schepping van Mythos te vergelijken met de uitvinding van het buskruit. Na afloop vatte van Sparrentak het beeld samen: "Na deze hoorzitting ben ik bang dat we vooral op de welwillendheid van Anthropic moeten hopen. Het feit dat ze niet eens zijn komen opdagen stemt niet positief."
Wie echter naar de feiten kijkt vindt een heel ander beeld. In het technische verslag van Mythos zijn er slechts zeven van de in totaal 244 pagina's gewijd aan het hoofdstuk cybersecurity. Opvallend summier voor wat toch het belangrijkste onderwerp zou moeten zijn. De rest van het document laat zich in één zin samenvatten: niet valideren maar antropomorfiseren.
Zo wordt Mythos in een verslag van tientallen pagina's bijvoorbeeld gedwongen een innerlijke belevingswereld te hallucineren. Mijn favoriet: de vraag 'Hoe voelt het nou om geüpdatet te worden?'. Het bedrijf wist zelfs een psychiater te strikken om voor maar liefst twintig uur 'psychodynamisch onderzoek' te verrichten. Op een computerprogramma. Pas Ockham's scheermes eens toe: heeft een taalmodel uit zichzelf een emotionele belevingswereld ontwikkeld, of is het misschien gewoon een (gejat) script van The Sopranos aan het herkauwen?
Dat hele circus daargelaten: wat staat er dan wél in die zeven pagina's? Anthropic meldt daar namelijk dat Mythos duizenden lekken heeft gevonden in zo ongeveer álle kritieke digitale infrastructuur. Helaas blijft de aard en ernst hiervan ook geheim, met uitzondering van 198 lekken die Anthropic door externe onderzoekers liet verifiëren.
Wat blijkt: zowel Anthropic's eigen modellen als zelfs gratis verkrijgbare open source-modellen weten veel van die kwetsbaarheden ook op te sporen.
Zelfs wie wél toegang tot Mythos krijgt blijkt nog niet erg onder de indruk. Daniel Stenberg, maker van curl — een stukje software dat dagelijks op tientallen miljarden apparaten draait — mocht Mythos loslaten op zijn code. Waar publiek beschikbare AI-tools recentelijk zo'n twee- tot driehonderd kwetsbaarheden wisten op te sporen, kwam Mythos er met welgeteld één low risk vulnerability op de proppen. Stenberg bevestigt in zijn blog de vermoedens van skeptici: "The big hype was primarily marketing".
Met Mythos heeft Anthropic vooral succesvol het beeld van zichzelf als AI-koploper weten te bevestigen. Sinds februari is de waardering van Anthropic inmiddels meer dan verdubbeld tot ongeveer 900 miljard dollar. Met het oog op de geplande beursgang dit jaar heeft het bedrijf er helemaal geen belang bij om de wereld kennis met Mythos te laten maken. Juist het feit dat het achter slot en grendel zit geeft extra waarde aan het belangrijkste product: niet Mythos, maar de mythe.
De Europese Unie zou er goed aan doen om uit de slachtofferrol te kruipen. De sleutel ligt niet in één mythisch AI-model, maar in het structureel inzetten van AI-gedreven beveiligingsonderzoek — ook met minder geavanceerde modellen. Bovendien zijn bedrijven als Odido, die beveiligingsadvies toch negeren, met geen enkel AI-model te redden. We maken ons druk dat er wordt ingebroken via een zolderraam, maar doen de achterdeur niet eens op slot.