Weer een model: Henny Mugge

Claude Opus 4.8 is uit. Ik keek vanochtend naar de benchmarks. Dit is écht goed. Anthropic heeft het weer voor elkaar. State of the art. Multi-step reasoning die een PhD-student beschaamt. Agentic workflows die zelfstandig door codebases navigeren. Dit is het spul waar ik vijftien jaar geleden sciencefiction over las. En nu is het een product.

En toen ging ik naar m'n werk.

Daar heeft een klant (accountantskantoor, veertien man) net ontdekt dat Copilot z'n facturen kan samenvatten. Dat is de stand van AI in het MKB. Een factuursamenvatting. Hij was er blij mee, terecht. Maar tussen "ik heb een factuur laten samenvatten" en "ik heb een agentic workflow die autonoom door drie legacy-systemen navigeert" zit een kloof waar je met geen mogelijkheid overheen springt.

En dat is het rare aan mijn werk. Ik leef in twee werelden. In de ene kijk ik 's ochtends naar wat Anthropic, OpenAI en Google hebben gebouwd en denk: we zijn echt iets aan het ontgrendelen hier. In de andere zie ik bij Hallo elke dag de realiteit van onze klanten. Bedrijven die moeten kiezen tussen een CRM-migratie, een nieuwe firewall, en "iets met AI". Dat "iets met AI" is niet Claude versus GPT versus Gemini. Het is: beginnen of uitstellen.

Het een maakt het ander niet onwaar.

De technische sprongen zijn écht. Wie zegt dat modelreleases alleen maar marketing zijn, heeft niet opgelet. De dingen die Claude 4.8 kan met reasoning, tool use, en context windows: dat kon twee jaar geleden geen enkel model, van niemand. Elke release schuift de grens op van wat mogelijk is. En wat nu "frontier" is, is over achttien maanden een commodity. Zo werkt het.

Tegelijkertijd: voor het MKB maakt het nu niet uit of het 4.8 of 5.0 of 7.3 is. De LLM's van een jaar geleden zijn al goed genoeg voor 90% van de gebruikscases. Facturen categoriseren, mails beantwoorden, offertes opstellen: dat kon Claude 3.5 ook al. En Copilot. De bottleneck is niet het model; de bottleneck is dat mensen niet weten wat ze kunnen vragen, de output niet vertrouwen, en geen tijd hebben om te experimenteren.

Zoals ik schreef in AI voor het MKB werkt anders: de mensen die verschil maken zijn niet degenen met de beste modellen. Het zijn degenen die kunnen vertalen tussen wat tech kan en wat een bedrijf met veertien man nodig heeft. Dat is geen afkraken van de modelbouwers; het is een vaststelling dat er twee banen zijn. En iemand moet die tweede ook doen.

Dus ja, ik word enthousiast van Claude 4.8. Echt. De nerd in mij leest de release notes en wil meteen dingen bouwen. Maar de realist in mij weet: voor de klant die vrijdag z'n offertes sneller de deur uit wil, is 4.8 niet het antwoord. Die klant heeft Claude 3.5 niet eens geprobeerd. En die gaat 4.8 ook niet proberen. Tot iemand 'm laat zien wat 'ie mist.

De modelrace duwt de techniek vooruit, en dat is goed. De adoptierace (mensen leren wat ze kunnen vragen, ze de output laten vertrouwen, ze over de drempel helpen) is minstens zo belangrijk. En daar wordt minder over geschreven. Misschien omdat het minder sexy is dan een benchmark-grafiek. Maar het is wél waar het verschil gemaakt wordt. Een model dat niemand gebruikt, hoe goed ook, heeft nul impact.