MinE Beyond NL 2

Achtergrond

Project MinE is in 2014 begonnen, met het doel om gedetailleerde genetische gegevens te verzamelen (‘whole genome sequencing’) bij minstens 15.000 patiënten met ALS en 7.500 gezonde controle personen. Sinds die tijd is het gelukt om, mede door grote crowdfunding projecten, om tot meer dan 10.500 DNA profielen te komen, ongeveer 50% van het beoogde doel. Zelfs met deze 50% is er in Project MinE de afgelopen jaren al een aantal belangrijke mijlpalen bereikt:

Er zijn 4 nieuwe ALS-genen ontdekt, wat een aanzienlijke versnelling van de ontdekkingen van het ALS-gen betekent;
Er zijn inmiddels 19 landen onderdeel van het Project MinE consortium, een ongekende schaal van internationale samenwerking;
Binnen het consortium zijn de partners onderverdeeld in 6 werkgroepen die al het werk verdeeld hebben;
Er is een centrale supercomputer beschikbaar voor Project MinE (SURFsara in Amsterdam), zodat alle partners bij dezelfde data kunnen, en de data veilig zijn;
Ook onderzoekers buiten het consortium kunnen toegang vragen tot (controle) data;
Er is een begin gemaakt met het systematisch verkrijgen van whole genome sequencing data vanuit andere projecten, tevens is de start gemaakt om die data vanuit de andere projecten te integreren met de Project MinE data.

De recente ontdekkingen betekenen dat inmiddels bij ongeveer 15% van alle patiënten een oorzakelijke genetische afwijking gevonden kan worden. Dit is cruciaal, omdat er een drastische verandering gaande als het gaat om het vinden van nieuwe therapieën. De afgelopen 150 jaar (in 1866 is ALS voor het eerst beschreven in de wetenschappelijke literatuur) is er gezocht naar nieuwe medicijnen met een ‘trial and error’ benadering, waarbij stoffen zijn gekozen zonder dat er veel harde aanwijzingen vooraf waren dat dit effect zou hebben. Dat heeft helaas geleid tot vele negatieve medicijnonderzoeken.

De laatste jaren wordt het mogelijk om DNA-afwijkingen gericht te behandelen. Het meeste bekende, en succesvolle voorbeeld is dat van spinale spieratrofie op de kinderleeftijd (SMA), dat ook een aandoening van de motorische zenuwcellen is. Binnen ALS zijn er nu concrete ontwikkelingen gaande voor patiënten met een SOD1 of een C9orf72 mutatie. De hoop is uiteraard dat alle genetische afwijkingen bij patiënten met ALS ooit gericht behandeld kunnen gaan worden. Om dit te bereiken moet Project MinE doorgaan, ook tot na 2019. Daarvoor is nu het Project MinE Beyond NL 2 gestart.

Doelen Project MinE Beyond NL 2

De belangrijkste doelen voor dit Project MinE Beyond NL 2 zijn:
1. Het systematisch verzamelen van externe whole genome sequencing data van ALS-patiënten en controles, wetende dat de grote crowdfunding acties van enkele jaren geleden zich niet zomaar doen herhalen. Dit is een grote uitdaging omdat er veel barrières zijn m.b.t. wet- en regelgeving, en ook technisch (grote data transfers) en analytisch (batch effecten). Het personeel dat wordt opgevoerd in deze aanvraag heeft hiermee veel ervaring en expertise.

2. Whole genome sequencing data komt in 2 vormen: de ruwe, grote data en een kleinere versie. Het laatste wordt door de meeste Project MinE partners gebruikt en is prima te hanteren op een gewoon computer cluster. De ruwe, grote data (.bam files) moeten op een supercomputer verwerkt worden. Het ALS Centrum in Utrecht is met name geïnteresseerd in deze data, aangezien hiermee gezocht kan worden naar specifieke genetische variatie zoals ‘repeat expansions’ en ‘structural variations’, wat niet met de kleine data variant kan. Ook C9orf72, de belangrijkste genetische afwijkingen bij ALS, is zo’n ‘repeat expansie’. Het personeel dat wordt opgevoerd in deze aanvraag heeft hier de unieke expertise.

3. Project MinE wordt gecoördineerd vanuit het ALS Centrum Utrecht. Dit betekent dat het ALS Centrum bijeenkomsten organiseert waar partners gegevens en ervaringen uitwisselen, de hosting en het onderhoud verzorgt van de website en de publieke databrowser, en de logistiek rond betalingen en opsturen van DNA-monsters voor het sequencen coördineert. Dit zal ook nodig zijn na 2019, en de kosten die hiermee gemoeid zijn, maken deel uit van deze aanvraag.

Update 30 juni 2020

Figuur 1: Verwerking van de MinE gegevens is 70% voltooid.

Een van de doelen voor het eerste jaar is om de DNA-profielen van externe partijen te downloaden naar de supercomputer van SURFsara. In januari hebben we daarom verschillende gesprekken georganiseerd met vertegenwoordigers van andere (grootschalige) DNA-projecten in de Verenigde Staten, SURFsara, Amazon web-services, en de Directie Informatietechnologie van het UMC Utrecht. Deze gesprekken zijn nog gaande, maar er is bijna een overeenkomst bereikt. In de tussentijd gaat het downloaden van gegevens van externe partijen door en heeft het totale aantal DNA-sequenties nu 35.838 bereikt (21.204 daarvan hebben al een kwaliteitscontrole gehad).

Een ander belangrijk doel is om de externe gegevens te integreren met de DNA-profielen van Project MinE. Deze integratie vereist enorm veel computerkracht, omdat alle data van zowel Project MinE als de externe profielen opnieuw moeten worden verwerkt. De verwerking hiervan ligt op schema (ongeveer ~70% van alle MinE profielen is nu verwerkt (zie ook figuur 1)). De verwerking van de externe data gaat van start zodra de eerdergenoemde gesprekken zijn afgerond. Door de integratie van de DNA-profielen kunnen we straks analyses doen van de volledige 3 miljard DNA-letters van elk profiel.

Ondertussen hebben we ook aanzienlijke voortgang geboekt met de integratie van “exome” data. “Exome”-data bevat alleen de 40 miljoen letters van het DNA waarvan de kans het grootst is dat ze afwijkingen bevatten met een hoge impact. Doordat de kosten voor “exome”-datasets daardoor goedkoper zijn, hebben we al data verzameld van ~50.000 mensen uit verschillende andere studies in Europa, Noord-Amerika, Azië en Australië.

Zoals we verwachtten, waren er tussen deze datasets behoorlijke verschillen in resolutie en kwaliteit. Het oplossen van deze verschillen is essentieel om te zorgen dat alle DNA-profielen ook echt vergelijkbaar zijn (waardoor “valse ontdekkingen” worden voorkomen). We hebben hiervoor nieuwe procedures geïmplementeerd en hebben nu een hoogwaardige integratie bereikt van 10.507 ALS-patiënten en 25.040 controles. Genetische analyses van deze gegevens zijn aan de gang.

Update 31 december 2020

Het tweede jaar van dit project heeft twee belangrijke doelstellingen die beide enorme hoeveelheden data nodig hebben en daarom een enorme computerkracht vergen. Beide doelstelling liggen nog op schema.

Het harmonisatieproces waarbij de data van externe DNA-databanken wordt opgeschoond en gestandaardiseerd zodat het vergeleken kan worden met de data uit Project MinE, loopt op schema. De grootste stap in het hele proces (het opnieuw ‘uitlijnen’ van de MinE genomen) wordt aan het einde van de maand afgerond. Daarnaast zijn 50.000 DNA profielen van de UKBiobank naar SURFsara geüpload en staan deze klaar voor integratie.

We zijn ook begonnen om de DNA-profielen voor te bereiden van >30.000 individuen die zijn geanalyseerd door verschillende projecten in de Verenigde Staten. In deze data zitten naast veel aanvullende profielen van ALS-patiënten, ook de zeer noodzakelijke profielen van controlepersonen.

De integratie van de enorme dataset uit de VS heeft verschillende technische en infrastructurele uitdagingen aan het licht gebracht. Deze uitdagingen hebben we onlangs opgelost. De belangrijkste stap daarin was de ontwikkeling van een cloud-based berekeningstool die noodzakelijke informatie tegen minimale kosten kon extraheren uit de dataset. Deze tool is ontwikkeld binnen een pilot-project geïnitieerd door SURF. Dankzij de berekeningstool ligt de verwerking van de data uit de Verenigde Staten nog steeds op schema.

Update 30 juni 2021

MinE has now harmonized 14,620 whole genome and 7,815 whole exome data alignment files under the functional equivalence pipeline (Figure 1a). This includes data generated both by the MinE consortium and other collaborators in the field of ALS research. These numbers include new data, extending the final target sample size described in the figure of our previous progress report by 12,497 additional subjects.

New data are predominantly exome sequencing of ALS patients obtained from other sequencing projects (cohort WXS in figure 1), but also include almost 4,000 genomes generated by the NYGC ALS sequencing consortium (cohort US-2 in figure 1). As already described in our previous progress report, MinE previously secured access to additional sequencing datasets for large numbers of healthy controls, including 30,000 whole genomes and 50,000 whole exomes. These large external control cohorts also remain in place with no need for additional reharmonization by MinE.

The next phase of the project, “variant calling”, is where the identification of individual DNA changes is performed. This phase has been completed for 12,822/ 14,620 genomes and 7,806/7,815 exomes harmonized by MinE (Figure 1b). This phase has also been completed for all 50,000 external control exomes and ~30% of the external control genomes. Quality control analyses of all generated data identified a small percentage of samples (<0.5%) where errors occurred and a second round of data reprocessing was needed.

Pilot checks of the final data integration phase completed as expected for tested subsets of samples. A new compute environment, “SPIDER”, is now being piloted for analysis of MinE data files. This environment also exists within the security of the SURFsara supercomputing facility at Amsterdam, but aims to facilitate additional use of MinE data files by simplifying the level of technical expertise required.

Grafiek Project Mine 2 NL

Figure 1: MinE Beyond NL2 progress update for Q3, 2021. A) Harmonization of “alignment” data files has now been completed for 22,435 samples. B) Variant calling, which refers to the identification of DNA sequence changes, has been completed for 20,628 samples.

Update 31 maart 2023

Project MinE is dankzij het project ‘Project Mine Beyond NL 2’ uitgegroeid tot een unieke internationale samenwerking van 20 landen. Het project wordt gecoördineerd vanuit het ALS Centrum Nederland en heeft mogelijk gemaakt dat alle genetische informatie toegankelijk is via SURFsara, de supercomputer in Amsterdam die groot genoeg is om alle gegevens die verzameld worden op te slaan.

De analyse van deze gegevens heeft een aantal belangrijke inzichten opgeleverd tot en met 2022:

ALS is een zogenaamde “rare variant” ziekte, wat betekent dat gezocht moet worden in genetische veranderingen die relatief weinig voorkomen in de algemene bevolking. Dit is in tegenstelling tot bijvoorbeeld hart- en vaatziekten of de ziekte van Alzheimer, waarbij veel voorkomende genetische variaties (zogenaamde “SNPs” (spreekuit ‘snips’), belangrijk zijn. Dit betekent dat genetisch onderzoek bij ALS bij voorkeur dient te gebeuren met zogenaamde whole genome sequencing waarbij alle delen van het DNA in kaart worden gebracht. Gelukkig wordt de prijs voor whole genome sequencing steeds lager, waardoor dit steeds vaker kan worden uitgevoerd.
Bij alle mensen met ALS speelt (zeldzamere) DNA variatie een rol bij het ontstaan van de ziekte, maar bij sommige mensen speelt het een zo grote rol dat het “familiaire ALS” wordt genoemd (ongeveer 10% van de mensen). Dit betekent dus niet dat familieleden bij de overige 90% van de mensen met ALS, de mensen met “sporadische ALS”, zich zorgen moeten maken. Maar het positieve hieraan is, dat het wel degelijk een ingang biedt voor therapie ontwikkeling bij ook de overige 90% van de mensen met ALS. Recent is bij een zeldzame vorm van familiaire ALS een therapie ontwikkelt (Tofersen), die voor die mensen met ALS voor stabilisatie van symptomen lijkt te zorgen. Dit is een vorm van gen-therapie. De technologie die hiervoor nu beschikbaar is, zou het dus ook mogelijk moeten maken om vormen van gen-therapie voor sporadische ALS te ontwikkelen. Dit vormt eigenlijk de belangrijkste drijfveer achter Project MinE.
Er zijn door het project een aantal nieuwe genetische oorzaken gevonden, die de aanknopingspunten geven voor de ontwikkeling van nieuwe behandelingen. Dit zijn TBK1, NEK1, C210rf2, en nog 4 andere genen. Dit geeft ook aan dat het landschap van genetische veranderingen heel divers is bij ALS, heel anders dan bij SMA, Duchenne, of Huntington bijvoorbeeld, waarbij er maar 1 gen afwijkend is. Bij ongeveer 20% van alle mensen met ALS kan nu een genetische variatie worden aangewezen, om dit percentage te verhogen zal hiermee verder worden gegaan in een vervolgproject (GoALS).
Genetische variatie die het risico op de ziekte ALS verhogen, lijken anders te zijn dan genetische variatie die de snelheid van de ziekte bepalen. Sterker nog: we weten nog niet goed welke genetische variatie de snelheid van de ziekte ALS bepaalt. Dit is ook belangrijk om te onderzoeken, omdat die genetische afwijkingen misschien wel meer invloed hebben op de behandeling. Dit zal in een groot vervolgproject (GoALS) gaan worden onderzocht.
Tot slot heeft dit project het mogelijk gemaakt om nu tot ‘datafreeze 3′ te komen, een dataset die ook door onderzoekers elders, ook voor niet-ALS onderzoek, gebruikt kunnen worden. Het opschonen, beschikbaar houden en maken van deze data is ook onderdeel van dit project. Datafreeze 3 bevat de genetische profielen van bijna 10.000 mensen met ALS en 4.000 gezonde mensen.