Anthropic riep om een pauze. Lanceerde vervolgens Mythos: Henny Mugge

Vorige week maandag breidde Anthropic Project Glasswing uit naar 150 organisaties in vijftien landen. Glasswing is hun programma voor de allergevaarlijkste modellen, de Mythos-klasse, en het hele verkooppraatje is "for a slower world". Een wereld die even pas op de plaats maakt voor een model dat kan hacken, code schrijven die systemen sloopt, biologische dreigingen analyseren op een niveau dat eerder niet bestond. Op hun eigen institute-pagina over recursive self-improvement schrijft Anthropic dat dit soort systemen "sneller kunnen komen dan de meeste instellingen voorbereid zijn", en dat "full recursive self-improvement de risico's vergroot dat mensen de controle verliezen over AI-systemen". Vrijdag, vijf dagen later, lanceerden ze Fable 5: hetzelfde onderliggende model, met een veiligheidslaag erop, beschikbaar voor iedereen met een betaald Claude-abonnement.

Het is een knappe beweging en een ongemakkelijke tegelijk.

Het model is hetzelfde, de muzzle niet

Anthropic zegt het zelf, in hun support-document over dataretentie: Claude Fable 5 deelt het onderliggende model met Claude Mythos 5, met extra safeguards bovenop, vooral rond cyber en bio. Vraag je Fable om veilige code te schrijven, dan denkt het model dat je cybercriminele intenties hebt. In plaats van Fable krijg je Claude Opus 4.8 terug, een ouder model zonder de cyber-capaciteiten waarvoor je Fable juist wou gebruiken.

Binnen een dag na de lancering stond er een jailbreak op GitHub. Er is een "Silent Sabotage Mode"-blogpost verschenen. Iemand claimt de guardrails omzeild te hebben via prompt-technieken. Wie écht rond wil kijken, vindt binnen een dag een weg. Daar staat tegenover dat ik niet kan zeggen of dat de gemiddelde kwaadwillende afschrikt, of dat het gros gewoon via andere modellen, andere kanalen of oudere exploits werkt en deze publiciteit niet eens nodig heeft. Wat ik wél weet: de nieuwsgierige professional die Fable gewoon wil gebruiken waarvoor het bedoeld is, loopt vandaag tegen een muur van "hello, geflagd". Matt Suiche, cybersecurity-veteraan, zei het tegen TechCrunch helder: "Het lijkt puur keyword-based."

De prijs en de FOMO-deadline

Wie vandaag een betaald Claude-plan heeft, zit in de "Fable Promo": Fable 5 is inbegrepen bij Pro, Max, Team en Enterprise. Voor wie erbuiten valt, staat Fable 5 gewoon in de Anthropic-prijslijst: 10 dollar per miljoen input-tokens, 50 dollar per miljoen output-tokens. Ter referentie: Opus 4.8 zit op 5 en 25. Fable is dus dubbel zo duur als de huidige frontier, en dat is vóór je tegen de "hello, geflagd"-muur aanloopt. De promo is overigens een slimme zet van Anthropic: dertig dagen Fable 5 in elk bestaand abonnement betekent dat de hele betaalde gebruikersbasis het model kan vergelijken met Opus, ontdekt waar het verschil zit, en daarna zelf mag bepalen of de Mythos-klasse het dubbele tarief waard is.

De geopolitieke implicatie

Dit is het deel dat de meeste aandacht verdient en het minste krijgt. Anthropic's 30-dagen-retentiebeleid voor Mythos-klasse modellen is niet alleen een veiligheidsmaatregel; het is een blokkade op model distillation. Wie Fable-achtige resultaten wil reproduceren in een open-weight model, heeft toegang nodig tot duizenden prompts en outputs om de trainingsdata te genereren. Met 30-dagen-retentie en de eis dat die data na afloop verwijderd wordt, valt die hele keten weg.

DeepSeek, Kimmy en consorten kunnen dit niet zomaar namaken. Niet omdat ze het niet willen, maar omdat de bron wegvalt. Wie een Fable-klasse model wil hebben, moet het bij Anthropic kopen, met Anthropic's voorwaarden, op Anthropic's tempo. De hele Mythos-klasse wordt zo een vendor-lock-in op een niveau dat we nog niet eerder in de AI-markt hebben gezien. Of dat een goede zaak is, hangt af van hoeveel je Anthropic vertrouwt met de knop. Wie vandaag nog droomde van een eigen-gewicht Fable-kloon kan die droom voorlopig kwijt.

De nieuwe tweedeling

Anthropic heeft, net als OpenAI met Trusted Access for Cyber, een Cyber Verification Program. Cybersecurity-professionals melden zich aan, worden goedgekeurd, en krijgen minder beperkingen. Dat is de escape hatch. Maar het maakt AI-toegang tot een nieuwe tweedeling: geregistreerde professionals mogen het echte werk doen, de rest leeft met een model op rantsoen.

Het patroon is overal hetzelfde. In elk IT-team waar dit soort tooling landt, ontstaat dezelfde spanning: security wil Fable gebruiken voor threat modelling, de IT-verantwoordelijke zegt: niet zonder verificatie en contract. De externe SOC-leverancier is wél geverifieerd. En in een of ander overzicht verdwijnt langzaam het spoor van wie waar toegang toe heeft. Ondertussen wachten de echte aanvallen niet op de certificeringsstraat van Anthropic. De volgende fase van AI-veiligheid gaat niet meer over "kunnen we het model maken". Die gaat over "kunnen we het model bruikbaar houden terwijl we het veilig houden". Die tweede vraag is moeilijker dan de eerste. En de eerste is al niet makkelijk geweest.