Federated Learning: Een einde aan het privacydebat?

Toen Roger McNamee in maart 2019 in zijn podcast-interview met Sam Harris verkondigde dat Android, het mobiele besturingssysteemvan Google, een stofzuiger is voor jouw data, had hij niet kunnen voorzien wat 2 maand later op Google IO aangekondigd zou worden: federated learning. Binnenkort moet de tech-gigant jouw data niet meer opslaan om te voorspellen waar jij op zal klikken.

Samengevat

Federated learning is een veelbelovende nieuwe techniek die op een privacyvriendelijke manier algoritmes kan trainen die ons leven net iets makkelijker kunnen maken. Maar is het ook echt een golden bullet die een einde aan het privacydebat zal maken? Google zit alvast in een gepriviligeerde positie om dit te realiseren. We mogen echter sceptisch zijn: zullen andere tech-bedrijven dezelfde weg kunnen en willen ingaan?

In dit artikel:

De link tussen AI en privacy
Wat is federated learning
Een einde aan het privacydebat?

In het laatste IMEC-rapport over digitalisering in Vlaanderen staat te lezen dat slechts 20% aangeeft ooit een AI-applicatie gebruikt te hebben. Waarschijnlijk is de doorsnee Vlaming er zich niet van bewust dat AI zich soms subtieler voordoet dan ze denken — ook al zegt 53% van hen dat ze weten wat het is.

Wie op Zalando, Coolblue, Amazon of Bol.com zijn aankopen doet, komt namelijk in aanraking met recommendation engines: “Dit zou je misschien ook kunnen interesseren” of “Wordt vaak samen gekocht met”, dat zijn geen regeltjes die door een software-ontwikkelaar zijn geschreven. Daar komt veelal geen mens meer aan te pas. Uit het gedrag van miljoenen gebruikers leert een computeralgoritme patronen herkennen. Maar ook het volgende zoekwoord dat voorspeld wordt in de Google-zoekmachine, het volgende woord in je WhatsApp bericht, de advertentie in Facebook of LinkedIn of het groeperen van foto’s in je foto-app: het zijn allemaal subtielere vormen van AI die minder tot de verbeelding spreken dan zelfrijdende wagens.

Privacy: de olifant in de kamer

Met technieken die onder de noemer machine learning vallen wordt door gigantische data sets gegaan die gegenereerd worden door duizenden, miljoenen of miljarden gebruikers gegenereerd worden. Daaruit ontstaan patronen, een lijstje van regeltjes — ook wel modellen genoemd. “Als iemand blauwe schoenen koopt, dan is de kans groot dat die klant ook wel een rode broek wilt.¨ of “Als iemand Coca tikt, dan is de kans heel reëel dat daar Cola achter hoort.”

In de meeste gevallen maakt het ons leven een beetje gemakkelijker en worden bedrijven en tech-giganten er een beetje rijker van. Een eerlijke ruil, als we privacy-bezorgdheden buiten de vergelijking houden. Want elke letter die je tikt, elke link die je klikt en elke swipe die je doet wordt wel ergens in een datacenter opgeslaan — GDPR of niet. Elke scheet die je laat kan voorspellen welke schoenen bij jou passen: de één zijn vroot is de ander zijn brood.

Presentation of the Intel Nervana neural network processor

Daar wil Google een einde aan maken. Ten eerste: In de nieuwste generaties telefoons vind je intussen al een soort van AI accelerator, een extra chip in jouw telefoon. Hoe werkt dat? Vroeger moest eerst het woord coca naar een server gestuurd worden, en die antwoordde met het woord cola (zie boven). Tegenwoordig kan die voorspelling echter op jouw telefoon gebeuren. Daar zorgt die razendsnelle chip voor. Dat is niet alleen privacyvriendelijker, het is ook nog eens een pak sneller.

Maar het is voornamelijk de tweede innovatie die veelbelovend is. In plaats van alle data te aggregeren om daar patronen in te herkennen wilt Google het in de toekomst anders aanpakken. Elke nacht, als jouw GSM in het stopcontact zit, kan jouw GSM lokaal die patronen leren herkennen, waarop dat model — en niet langer de data — met Google gedeeld wordt. Al die modellen worden vervolgens samengebracht om tot een genuanceerde set van regels te komen. Die set van regels wordt dan met elk toestel gedeeld. Dit hele proces heet federated learning.

Een technologisch hoogstandje

Een recente paper die geschreven werd door onderzoekers bij Google verwoordt het als volgt: “Federated Learning is one instance of the more general approach of ‘bringing the code to the data, instead of the data to the code.’”

Bij federated learning kunnen we drie fases onderscheiden: (1) selectie, (2) configuratie en (3) rapportering.

In de selectiefase worden de toestellen geselecteerd die het model mogen verbeteren. Er zijn verschillende criteria. Zo haalt de Google-paper aan dat de eigenaars van geselecteerde toestellen geen negatieve impact mogen ondervinden wat betreft gebruikerservaring, batterijduur en datagebruik. Met andere woorden: toestellen dienen in het stopcontact te zitten, een wifi-verbinding te hebben en niet in gebruik te zijn.

Om het model te verbeteren wordt het meest recente model met de geselecteerde toestellen gedeeld. Deze toestellen gaan met de lokaal verzamelde data aan de slag en zullen hiermee het model herconfigureren, om het een fractie te verbeteren.

Eenmaal dat proces rond is wordt die update gerapporteerd aan de centrale server, die de verschillende updates aggregeert. Dit nieuwe, verbeterde model wordt weggeschreven naar een server, waardoor alle toestellen ze kunnen gebruiken en het trainingsproces zich later kan herhalen.

**Wat is het verschil tussen federated learning en distributed learning?**

In een eerder klassieke vorm van distributed learning bestaat er een parameter server die alle parameters op de working nodes beheert en monitort. Het gebeurt voornamelijk in een context waarbij modellen getraind worden met rekenkracht en op data over verschillende servers heen.

Bij federated learning is dat niet het geval. Er is geen parameter server. Federated learning is een vorm van distributed learning waarbij meer “macht” komt te liggen bij de deelnemende toestellen — de working nodes. Die hebben zelf autoriteit over de lokale data en hun context bepaalt of ze kunnen of willen deelnemen aan het trainingsproces. Federated learning opereert niet alleen in een meer complexe context, ook de bescherming van privacy staat er centraal.

Een goede analogie is het verschil tussen Frankrijk en Duitsland. De eerste is een unitaire staat waar wetten geschreven en uitgewerkt worden in Parijs. Berlijn moet echter rekening houden met de politieke autoriteit van de Länder (staten), die in verschillende domeinen wat in de pap te brokken hebben.

bron: https://www.fedai.org/

Een einde aan het privacydebat in de tech-industrie?

Image result for google io federated learning

Na de voorstelling van federated learning op Google IO was ik razend optimistisch. Federated learning zou wel eens het antwoord kunnen zijn op heel wat privacyvraagstukken die bij artificial intelligence komen kijken. Maar gezien de huidige stand van de adtech-industrie zie ik verschillende uitdagingen.

Precisie. Sommige modellen kunnen zeer zwaar zijn. Om het te trainen heb je rekenkracht nodig en om het delen heb je een (1) snelle internetlijn nodig. Voornamelijk dat laatste zou problematisch kunnen zijn, bedachten onderzoekers enkele jaren geleden al. Omwille van praktische problemen kunnen sommige geselecteerde toestellen (2) niet het hele trainingsproces meedoen. Ook hebben de individuele toestellen (3) geen toegang tot de volledige data set, die zich op de andere toestellen bevindt. Het resultaat is dat de modellen ofwel zeer lang moeten getraind worden alvorens ze convergeren tot een zinnig resultaat, of dat ze minder precies zijn.

De vraag is of tech-giganten bereid zijn om die afweging ook maar te maken. Stel dat de algoritmes van Google mensen onderverdelen in segmenten zoals heeft kinderen of heeft een hond en die algoritmes worden iets minder accuraat. Dan is de kans kleiner dat gebruikers op advertenties voor hondenvoer klikken en dan worden er minder advertentie-inkomsten gerealiseerd.

Tijd. Het zal nog even duren alvorens federated learning naar tal van toepassingen uitgerold zal worden. Het zal waarschijnlijk nóg langer duren alvorens ook kleinere tech-spelers deze methodes weten te hanteren en het trainen van modellen kunnen laten plaatsvinden in apps of in een browser.

Wil. Ik kan mij inbeelden dat heel wat data later een andere nut kan dienen dan voor datgene waar het eerst opgeslaan werd. Ook al wordt het door de GDPR verondersteld (zie onder): zal de tech-industrie bereid zijn om er zich bij neer te leggen niet langer preventief data op te slaan om er later toepassingen voor te verzinnen?

Artikel 13 van de GDPR

Wanneer persoonsgegevens betreffende een betrokkene bij die persoon worden verzameld, verstrekt de verwerkingsverantwoordelijke de betrokkene bij de verkrijging van de persoonsgegevens al de volgende informatie: […] de verwerkingsdoeleinden waarvoor de persoonsgegevens zijn bestemd, alsook de rechtsgrond voor de verwerking;

Geld. Heel wat bedrijven verdienen fortuinen aan het verkopen van data. Zo werkte Facebook samen met data-providers Acxiom en Experian om data te verkrijgen van haar gebruikers waar het bedrijf zelf niet achter kan komen. Dit verdienmodel lijkt mij niet snel te verdwijnen.

Niet enkel AI. Data wordt niet alleen opgeslaan om modellen te trainen. Vaak willen bedrijven voor marketingdoeleinden kunnen segmenteren op het gedrag van hun klanten of gebruikers. Maar ook voor rapporteringsdoeleinden wordt al die data bijgehouden.

Kost. Doordat het trainen van het model verplaatst wordt naar de eindgebruiker, zal ook de bijhorende kost op de eindgebruiker afgeschoven worden. Toestellen die in een stopcontact zitten zullen een klein beetje meer elektriciteit vragen. Op jaarbasis, in welke mate zal de financiële kost oplopen?

Fraude. De auteurs van de Google-paper omtrent het onderwerp halen kort aan dat er potentiële problemen kunnen ontstaan met content farms die het model, om eigen gewin, in een bepaalde richting willen sturen.

Federated Learning: Een einde aan het privacydebat?

Samengevat

Privacy: de olifant in de kamer

Een technologisch hoogstandje

Wat is het verschil tussen federated learning en distributed learning?

Een einde aan het privacydebat in de tech-industrie?

Artikel 13 van de GDPR

Related Posts

What digital professionals should know about recent privacy evolutions

Undersampling a Pandas DataFrame

Complicated bullsh*t is still bullsh*t

**Wat is het verschil tussen federated learning en distributed learning?**

Complicated bullsht is still bullsht