Skip to content
Home » Over racistische machines

Over racistische machines

  • by
  • 7 min read

In het boek Outnumbered gaat auteur David Sumpter op zoek naar de beperkingen van de algoritme-hype. In het hoofdstuk Impossibly unbiased beschrijft hij hoe algoritmes fouten kunnen maken. Hij kwam terecht bij justitie, in de VS. Zo publiceerde ProPublica in 2016 een artikel dat een gevoelige snaar raakte bij data scientists. De boodschap: uw algoritmes zijn racistisch.

“The algorithm made mistakes with black and white defentants at roughly the same rate, but in very different ways.

Angwin et al. in “Machine Bias

Onschuldige afro-Amerikanen achter de tralies

In de VS werkt justitie met algoritmes die beoordelen of beklaagden zullen recidiveren (hervallen in het plegen van een misdrijf) na een bepaalde tijd, of niet. Het algoritme produceert een score voor elke beklaagde, die de rechter kan gebruiken om de strafmaat te bepalen en om andere correctionele keuzes te maken. Eén van de meest gebruikte algoritmes is COMPAS, ontwikkeld door het bedrijf Northpointe.

Om te kijken hoe goed die algoritmes het doen gingen de journalisten op zoek naar de daadwerkelijke recidivismecijfers in Broward County, Florida. Die vergeleken ze met de cijfers die voorspeld waren door het algoritme van Northpointe.

Het resultaat: zwarte mensen worden vaker verkeerd geclassificeerd als een potentieel risico voor de maatschappij dan blanke mensen. Zwarten die niet recidiveerden hadden twee maal zoveel kans om als risico bestempeld te worden dan blanken — 45% tegenover 23%.

De auteurs refereren hierbij naar de false positive rate. Dat beantwoordt welk aandeel van beklaagden die niet recidiveerden verkeerd geclassificeerd werd als een hoog risico. Om dat verder te verduidelijken halen we er mijn tekentalent en de confusion matrix bij. Dat laatste is een veel gebruikt middeltje om algoritmes te beoordelen.

De analyse van ProPublica focust zich op de kolom die in het geel staat aangeduid. In deze kolom bereken je namelijk de false positive rate (de false negative rate is volledig analoog).

FP / (FP + TN)

Die is voor blanken lager dan voor zwarten:

  • Blank: 349 / (349 + 1139) of 23.5%
  • Zwart: 805 / (805 + 990) of 44.9%
Cijfers uit Anwin et al. (2016) “How We Analyzed the COMPAS Recidivism Algorithm

Kortom, moesten er geen rechters meer zijn om die score in een bredere context te beoordelen, als we de algoritmes hun gang laten, dan zouden er meer onschuldige Afro-Amerikanen dan onschuldige blanken achter de tralies komen te zitten.

Holy shit of wait a minute?

Voorspellingen die voor elk ras even correct zijn

Het stuk van ProPublica zorgde voor een heus maatschappelijk en wetenschappelijk debat. Zo kunnen verschillende argumenten opgeworpen worden die aantonen dat het algoritme net niet racistisch is.

Anthony Flores haalt in zijn paper tal van argumenten aan die steekhouden. Er bestaan gestandaardiseerde tests om Actuarial Risk Assessment Instruments (ARAIs) te beoordelen, iets waar de auteurs bij ProPublica zich niet van bewust lijken te zijn. Tevens geven ARAIs een score; een opdeling naar hoog & laag is eigenlijk niet de bedoeling. Ook werkt de studie met beklaagden tijdens een voor-proces terwijl het algoritme eigenlijk bedoeld is om te beoordelen of er opvolging nodig is na een proces.

Maar eigenlijk zijn al die argumenten naast de kwestie. Het was een paper van Kleinberg, Mullainathan (van het geweldige boek Schaarste) & Raghavan die de discussie uitklaarde.

“We have formalized three fundamental conditions for risk assignments to individuals, each of which has been proposed as a basic measure of what it means for the risk assignment to be fair. […] Except in highly constrained special cases, it is not possible to satisfy these three constrants simultaneously.”

Kleinberg et al. in “Inherent Trade-Offs in the Fair Determination of Risk Scores

Er zijn eigenlijk drie manieren om te beoordelen of een algoritme eerlijk is.

  1. De gemiddelde score voor recidivisten moet even hoog zijn. Blanken en zwarte recidivisten moeten dezelfde kans hebben om als “hoog risico” bestempeld te worden.
  2. De gemiddelde score voor niet-recidivisten moet even hoog zijn. Blanke en zwarte niet-recidivisten moeten dezelfde kans hebben om als “laag risico” bestempeld te worden.
  3. Algoritmes moeten goed gecalibreerd zijn. Als een voorspelling van “hoog risico” inhoudt dat x% zal recidiveren, dan moet uit tests blijken dat dit ook effectief zo is. Meer nog: deze voorwaarde moet gelden over verschillende groepen heen.

De eerste twee definities van fair worden gehanteerd door de auteurs in het ProPublica-stuk. De laatste definitie wordt gehanteerd door Northpointe, die het algoritme ontwikkelde. Meer nog, ze beweren dat dit ook een wettelijke vereiste is. We staan even stil bij hun argument.

Waar Northpointe op aandringt is dat de positive predictive value (PPV) en de negative predictive value (NPV) juist zitten. Die eerste speelt zich af in de rij die ik in het rood arceerde. Je berekent het als volgt (de NPV is analoog):

TP / (TP + FP)

Ras is niet opgenomen in het model en wordt niet in achting genomen om te bepalen of iemand zal recidiveren of niet — ook dat is wettelijk verboden. Het is echter belangrijk dat die over verschillende groepen ongeveer gelijk is. De score die het algoritme produceert moet namelijk voor iedereen gelijk zijn. Als het iemand als bestempelt “hoog risico”, bv. x% kans om te recidiveren, dan moet dat percentage ook kloppen, ongeacht ras.

Bon, wat is dan het probleem, eigenlijk?

Dilemma

De onderzoekers wisten te bewijzen waar velen reeds een buikgevoel over hadden, namelijk dat je de verschillende definities van eerlijkheid niet tegelijk kan nastreven, tenzij één van de volgende twee voorwaarden voldaan is:

  • De voorspelling is perfect. Elke recidivist wordt gedetecteerd en elke niet-recidivist wordt niet gedetecteerd.
  • De base rates of de prevalentie zijn identiek voor beide groepen die je vergelijkt. Zwart en blank hebben dezelfde recidivismeratio’s.

Dat eerste is in dit geval niet gelukt, en het lijkt mij niet realistisch dat dit ooit zal lukken voor maatschappelijke problemen als deze. Maar ook de tweede voorwaarde is niet gehaald: Afro-Amerikanen recidiveren namelijk meer dan blanken.

  • Recidivisme bij blanken: 1901 / 3696 of 40%
  • Recidivisme bij zwarten: 966 / 2454 of 51%

Kortom: blank en zwart worden niet anders behandeld in het algoritme, ze worden anders behandeld in de samenleving.

De onderzoekers hebben het wiskundig stevig onderbouwd, maar er is ook een intuïtieve manier om het te vatten.

Bij het bouwen van een algoritme bepaal je op het einde welke threshold (grenswaarde) je hanteert om iemand te classificeren als positive of negative. Elk object (hier, beklaagden) krijgt namelijk een waarde tussen 0 en 1 om tot positive te behoren. Door een grenswaarde te verlagen (verhogen is analoog) zorg je ervoor dat er meer objecten in positive vallen. Bij zwarten zal de verhouding tussen false positives en true negatives toenemen, bij blanken zal die verhouding net omgekeerd zijn. Gevolg: de false positive rate bij zwarten stijgt, en bij blanken daalt ze.

Ja, maar wie heeft er dan gelijk?

Welja, eigenlijk heeft iedereen gelijk. In dit debat praatte iedereen naast elkaar tot iemand er abstractie van maakte en tot de vaststelling kwam dat het eigenlijk een keuze is. Welke vorm van eerlijkheid vinden we het belangrijkst?

Om dat evenwicht te bepalen wordt in een andere context vaak gebruik gemaakt door de kosten in rekening te brengen die een verkeerde voorspelling met zich meebrengt. Een false positive kan het leven ruïneren van een beklaagde, een false negative kan iemand in de maatschappij loslaten die het leven van anderen kan verwoesten. Maar dat is niet altijd even gemakkelijk te kwantificeren.

Moeten we stoppen met zulke algoritmes in te zetten?

Misschien wel? Als we enkel naar performantie kijken vonden Dressel & Farid in hun onderzoek dat groepen mensen, zonder juridische ervaring, collectief het bijna even goed deden als de beslissingen van COMPAS.

Misschien niet? Want mensen maken blijkbaar dezelfde fout. Een rechter kan zich laten leiden door subjectiviteit. Verder, hoe complex algoritmes ook mogen zijn, een menselijke beslissing is nog minder transparant.

Food for thought.