1 op de 25 boeken op Bol.com is geschreven door AI en dat zorgt voor gekkigheid
Tijd voor weer een AI-media-update. In deze editie: Hoe AI-geschreven middelmatigheid de boekenmarkt betreedt, waarom klokkenluiders nodig zijn en slimme kijkjes in de blackbox van AI.
Om te beginnen..
Na geillustreerde nieuwsartikelen, muziekstukken en AI-presentatoren betreden ook door AI geschreven boeken de markt. En niet zo zuinig ook. De Groene Amsterdammer ontdekte dat ruim 1 op de 25 boeken op Bol.com door AI gegenereerd is.
Dat soort boeken staat vaak vol vreemde uitspraken. Een boek over Anne Frank eindigt met: “Nu komen we aan het eind van onze reis door Anne Franks opmerkelijke leven.” En een boek over misbruik in de Katholieke kerk besluit: “Een van de belangrijkste lessen [..] van de misbruikcrisis is het cruciale belang van transparantie en verantwoordelijkheid.” Op zijn zachtst gezegd opmerkelijk. Toch staan AI-geschreven boeken opvallend vaak bovenaan in het zoekaanbod, want generatieve AI houdt desgevraagd natuurlijk rekening met SEO.
De auteurs van de Groene kwamen tot hun conclusies door zelf een classificatiemodel te trainen. Ze trainden het model op AI- en mens-geschreven teksten en leerden het die eerste categorie flaggen. Een redacteur bekeek vervolgens alle verdachte gevallen om tot een eindoordeel te komen. De Groene Amsterdammer gaat uitgebreid in op de gevolgen van AI-gegenereerde boeken: van shitification en platformverval tot model collapse. De moeite waard.
Klokkenluiders
Verschillende (voormalig) werknemers van OpenAI trokken aan de bel sinds het bedrijf het volledige team voor verantwoorde AI eind mei opdoekte. Twee opgestapte boardmembers van OpenAI waarschuwen dat we niet kunnen vertrouwen op zelfregulatie van het bedrijf. Zij vinden wetgeving hard nodig. Een groep van negen (ex-)medewerkers van OpenAI noemt het bedrijf in New York Times bovendien ‘roekeloos’. Ze beschrijven een cultuur van valse beloften rondom veiligheid, waarin de race om marktdominantie allesoverheersend is.
Een iets grotere groep, met ook (ex-)werknemers van Google DeepMind en Anthropic, roepen in een open brief op tot ‘a right to warn’: (Ex-)werknemers van AI-bedrijven die zich kritisch uitlaten over AI verdienen volgens de briefschrijvers bescherming. Want alleen zij hebben zicht op de technische werking van modellen en de effectiviteit van veiligheidsmaatregelen. Dat soort informatie is essentieel en bijzonder schaars.
Jouw privéfoto’s en -gesprekken als trainingsmateriaal
Herinner je je de rechtszaak die o.a. NYT aanspande tegen OpenAI? De krant beroept zich op haar copyright en wil dat content niet ongevraagd in AI-trainingssets belandt. De strijd speelt ook op individueel niveau: Facebook en Instagram kondigden namelijk aan jouw gegevens te gaan gebruiken om hun AI-modellen te trainen. Als je daar niet blij mee bent, kun je hier bezwaar aantekenen. (Of dat wat uithaalt, is de vraag.) De actiegroep Non Of Your Business (NOYB) diende tot nu toe elf bezwaren in bij Europese privacybewakers.
Lezen, luisteren, kijken..
..als je vijf minuten hebt:
Persoonlijk ben ik fan van journalisten die slimme manieren vinden om black boxed AI-systemen te onderzoeken. Afgelopen week stelde Data Harvest (een jaarlijkse onderzoeksjournalistieke conferentie) op dat gebied niet teleur. Zo onderzocht Bayerischer Rundfunk een model dat sollicitanten beoordeelt en zoomde Algorithm Watch voor ZDF Magazine in op smart borders. Welke rol speelt AI bij grensbewaking?
Ook Knowing Machines is een mooi voorbeeld. Als je wil begrijpen hoe generatieve AI-modellen werken, moet je kijken naar de data waarop ze getraind zijn. Het enige probleem: dat soort sets zijn nogal eh.. GROOT. Onderzoekers wilden de dataset achter beeldgeneratoren Midjourney en Stable Diffusion onderzoeken, maar rekenden uit dat je 781 jaar nodig hebt als je acht uur per dag, vijf dagen per week, één seconde zou kijken naar iedere afbeelding. ‘Hoe onderzoek je iets dat zo groot is dat je meerdere mensenlevens nodig hebt om ernaar te kijken?’, vragen de onderzoekers zich af. Nou, zo dus. Ook de moeite waard is de podcast Knowing Machines van dezelfde makers.
‘AI now beats humans on basic tasks’, kopte Nature onlangs. Deze hoogleraar legt uit waarom je die bewering met een korreltje zout moet nemen.
We weten inmiddels wel dat we tools niet klakkeloos moeten inzetten op de nieuwsvloer. Veel redacties hebben dan ook richtlijnen. Maar volgens onderzoeker Tomás Dodds (Leiden Universiteit) werken die vaak niet optimaal, omdat ze van boven opgelegd zijn en geen rekening houden met de journalistieke gut feeling. Hoe moet je tools dan wel evalueren? Deze AI-expert geeft een blueprint.
Democracy Base houdt voor lokale journalisten in Noorwegen bij wat er precies gebeurt in de politiek. Wie stemt wat? Welke verbondjes worden gesmeed? ‘De tool verzamelt documenten per onderwerp, highlight relevante mensen of bedrijven en linkt aan de juiste databases.’ Als de pilot deze week succesvol blijkt, wordt hij binnenkort opgeschaald. (Tip als je Noors wat roestig is: klik even op ‘vertalen’ in je browser).
Het was een plechtige belofte die big tech bedrijven deden in februari: ze zouden ervoor zorgen dat generatieve AI niet misbruikt kan worden in verkiezingstijd. Was getekend, zesentwintig grote jongens, waaronder Google, OpenAI, X, Snapchat en Meta. Algorithm Watch testte in hoeverre de bedrijven zich aan hun belofte houden en ontdekte dat twee van de grootste dat in ieder geval niet doen.
..als je iets langer hebt:
Interesse in de basis van datajournalistiek? Dan is de gratis online cursus van Media Numeric Academy (Stichting Beeld & Geluid en InHolland) misschien iets voor jou. In acht modules leer je data verzamelen, analyseren en in pakkende verhalen gieten. Speciaal gericht op mensen in creatieve beroepen.
Als je meer de diepte in wil, kijk dan is naar deze vijfdaagse cursus van Bellingcat over digital investigation.
Tooltips tot slot
Een handige Osint-tool is Shadow Finder van Bellingcat. Stel, je hebt een foto en weet het tijdstip waarop het genomen is, maar niet de locatie. Wat doe je dan? Deze tool berekent op basis van de schaduwen op de afbeelding op welke geografische locaties hij genomen kan zijn. Dat verkleint je zoekgebied aanzienlijk. Deze tutorial is ook fijn.
Met de Rolli Information Tracer (International Center For Journalists) kun je (des)informatiestromen op sociale media volgen. Wat je daar concreet mee kunt? Bijvoorbeeld hate speech tegen mensenrechtenactivisten in kaart brengen, fake nieuws in verkiezingstijd tracken of achterhalen hoe een anti-Oekrainecampagne op X op gang kwam. De tool achterhaalt hoe een narratief zich verspreidt op verschillende socials, wat op ieder platform de sentimenten zijn en wie opinieleiders zijn.
Behoefte aan een chatbot, maar bezorgd wat er met je inputdata gebeurt? Dan moet je Llama File hebben: een chatbot die vanaf jouw computer werkt, zelfs offline. Jouw eigen, lokale versie van een Large Language Model dus. Hier lees je hoe je Llama File werkend krijgt.
En last but not least: GPT Excel spuugt zonder moeite de meest ingewikkeld Excelformules voor je uit. Dat scheelt tijd!