Deep Learning GWAS

Project MinE heeft al aangetoond dat de genetische opmaak van ALS complex is, en ook duidelijk anders dan vele andere, vaker voorkomende ziektes, zoals schizofrenie. In die ziektes hebben genoom-wijde associatie studies (GWAS) grote successen geboekt, daar waar bij ALS GWAS waarschijnlijk anders benaderd moet worden.

Standaard GWAS analyses kijken naar individuele genetische veranderingen in het DNA of naar de simpele optelsom van meerdere varianten, in relatie tot de ziekte. De genetische opmaak van ALS suggereert dat het nodig is om op een andere manier te kijken naar hoe genetische varianten gezamenlijk, met grote en kleine individuele effecten leiden tot ALS.

Deep learning (DL) is een techniek die in opkomst is in de genetica. Het is een totaal andere manier van analyseren van de data, waarbij rekening gehouden kan worden met de complexiteit en specifieke genetische opmaak.

De verwachting is dan ook dat door het toepassen van DL de bestaande genetische datasets nog beter in staat zullen zijn om het optreden en het beloop van ALS te voorspellen. Voorwaarden voor een succesvolle toepassing van DL zijn tweeërlei:

er bestaat een vermoeden op niet-additieve en niet lineaire verbanden tussen genetische variatie en de ziekte
de dataset moet voldoende groot zijn om de techniek te trainen en toe te passen.

Aan beide voorwaarden wordt voldaan inmiddels in Project MinE. De timing voor het gaan toepassen van deze veelbelovende techniek is dan ook perfect. De uitdaging is om een uniek team samen te brengen met expertise op het gebied van genetica, ALS, en DL, om zo synergie te genereren.

Het Deep Learning GWAS voor ALS wordt uitgevoerd door een multidisciplinair team vanuit de samenwerking tussen Centrum Wiskunde & Informatica, Amsterdam, het Theoretical Biology & Bioinformatics, Utrecht; 3 Hubrecht Instituut Utrecht; 4 Het ALS Centrum en het UMCU. Dit team heeft recent gezorgd voor een doorbraak op het gebied van Deep Learning en ALS door het ontwikkelen van een DL methode waarmee individuen in het Nederlandse cohort van Project MinE geclassificeerd kunnen worden in “ALS” versus “geen ALS”.

Hoewel we de genetische informatie van slechts vier chromosomen gebruikten, behaalde onze methode een classificatie nauwkeurigheid van 76%, veel hoger dan mogelijk was met andere methoden. Deze initiële resultaten zijn een duidelijke indicatie van de kracht van DL en moedigen ons aan om de methoden verder te ontwikkelen en toe te passen op alle 22 autosomen.

Het uiteindelijke doel is om met DL klinisch relevante uitkomsten te kunnen voorspellen, veel beter dan met standaard technieken, gebruik makend van de bestaande Project MinE data.

Update 30 juni 2020

Het project is op 1 januari 2020 van start gegaan. De afgelopen periode zijn we bezig geweest met de werving van een PhD student die het onderzoek gaat uitvoeren. We hebben een geschikte en enthousiaste studente gevonden die op 1 september gaat beginnen: Gizem Tas, afgestudeerd in Industrial Engineering aan Bogazici University.

Haar promotieonderzoek zal zich richten op het ontwikkelen van kunstmatige intelligentiemodellen die de genetische basis van ALS uit de Project MinE data kunnen gaan achterhalen. In de komende periode zal Gizem zich vooral gaan inlezen in de genetica. Daarnaast gaan we een start maken met het daadwerkelijke onderzoek.

Update 31 december 2020

Op 1 september is Gizem Tas, de PhD studente die dit project uitvoert, begonnen. Ze heeft zich in de afgelopen periode verdiept in bioinformatica, GWAS techniek – de momenteel meest gebruikte techniek om de relatie tussen genetica en ALS te achterhalen – en machine learning. Daarnaast heeft ze zich verdiept in de literatuur die kunstmatige intelligentie in het algemeen, en deep learning in het bijzonder, gebruikt om te ontdekken welke genetische eigenschappen en leiden tot persoonlijke eigenschappen, zoals uiterlijke kenmerken of aanleg voor bepaalde ziekten.

Vervolgens hebben we de richting van het onderzoek verder uitgewerkt en vastgesteld. Er zijn verschillende subonderwerpen geïdentificeerd die uitgewerkt moeten worden binnen dit project.

a) De kern van het onderzoek is het ontwikkelen van een deep learning model om aanleg voor ALS te kunnen voorspellen op basis van het DNA van een individu. Deep learning is oorspronkelijk ontwikkeld voor het analyseren van afbeeldingen of tekst. Genetische data heeft echter een totaal andere structuur. We zullen daarom deep learning aanpassen zodat het gebruik maakt van en geschikt is voor de specifieke structuur van genetische data.

b) Genetische data is enorm groot van formaat en daardoor lastig te analyseren. We gaan daarom methoden ontwikkelen om genetische data te comprimeren.

c) Deep learning modellen kunnen weliswaar goede voorspellingen geven, maar geeft geen inzicht in waarom het model een individu uiteindelijk classificeert als “wel aanleg voor ALS” of “geen aanleg voor ALS”. Deep learning laat namelijk niet zien welke genetische eigenschappen aanleg voor ALS veroorzaken. We gaan daarom methoden ontwikkelen om deep learning modellen beter te begrijpen, zodat we kunnen zien welke genetische eigenschappen het model gebruikt om iemand te classificeren als “aanleg voor ALS” of “geen aanleg voor ALS”.

d) De signalen in genetische data worden verstoord door verschillende factoren. Zo vertoont de genetische data van mensen met eenzelfde familiaire of etnische achtergrond gelijkenissen, maar ook de methode waarmee de data verkregen is zorgt voor een verstoring van informatie. Deze zogeheten populatiestructuren gaan we meenemen in het deep learning model, zodat het model deze niet verwart met daadwerkelijke factoren die een rol spelen bij ALS.

De afgelopen weken zijn we van start gegaan met het eerste onderwerp (a), het ontwikkelen van deep learning specifiek voor genetische data, dit wordt de focus voor het komende half jaar tot jaar.

Update 30 juni 2021

In de vorige update beschreven we de vier subonderdelen van het onderzoek. We zijn begonnen met onderdeel (a): het ontwikkelen van een deep learning model voor het voorspellen van ALS uit genetische data. Hierbij liepen we tegen twee uitdagingen aan. De eerste is het probleem van “verborgen cases”: mensen die in de database zijn opgenomen als “geen ALS” hebben mogelijk wel genetische aanleg voor ALS alleen is deze (nog) niet tot uiting gekomen. De tweede is het probleem van “overfitting”: het model leert goed hoe het ALS kan voorspellen uit de data die het te zien krijgt maar dat wil nog niet zeggen dat een voorspelling die het model maakt op basis van die elders is verzameld ook correct is. Dit kan komen doordat er factoren in de data zitten die toevalligerwijs in deze dataset gecorreleerd zijn met ALS maar in werkelijkheid niets met ALS te maken hebben.

Om deze twee problemen aan te pakken ontwikkelen we een zogeheten multi-task learning model. Standaard deep learning modellen hebben als taak één uitkomst te voorspellen, bijvoorbeeld of een individu wel of geen ALS heeft. Bij multi-task learning laten we het model meerdere uitkomsten tegelijk voorspellen. Hiervoor gebruiken we verschillende indicatoren voor de mate van agressiviteit van de ziekte, bijvoorbeeld de leeftijd waarop de eerste symptomen opkwamen, progressie van de ziekte en de tijd tussen diagnose en overlijden. Door een model te trainen meerdere uitkomsten te voorspellen verwachten we de ruis die ontstaat door toevallige correlaties te verminderen en daardoor het probleem van “overfitting” te verminderen.

De mate van agressiviteit van de ziekte kan uiteraard alleen gemeten worden bij ALS-patiënten. Voor dit model worden dus de mensen zonder ALS in de database niet meegenomen. Dit is een oplossing voor het probleem van “verborgen cases”: we kunnen een model ontwikkelen dat leert over de genetische aanleg voor ALS zonder de controlegroep mee te hoeven nemen. Het multi-task learning model zal later worden uitgebreid met de controlegroep om ALS alsnog te leren voorspellen uit genetische data, gebruik makend van hetgeen we hebben geleerd uit het multi-task model.