Project MinE Beyond NL 2

Achtergrond

Project MinE is in 2014 begonnen, met het doel om gedetailleerde genetische gegevens te verzamelen (‘whole genome sequencing’) bij minstens 15.000 patiënten met ALS en 7.500 gezonde controle personen. Sinds die tijd is het gelukt om, mede door grote crowdfunding projecten, om tot meer dan 10.500 DNA profielen te komen, ongeveer 50% van het beoogde doel. Zelfs met deze 50% is er in Project MinE de afgelopen jaren al een aantal belangrijke mijlpalen bereikt:

1. Er zijn 4 nieuwe ALS-genen ontdekt, wat een aanzienlijke versnelling van de ontdekkingen van het ALS-gen betekent;
2. Er zijn inmiddels 19 landen onderdeel van het Project MinE consortium, een ongekende schaal van internationale samenwerking;
3. Binnen het consortium zijn de partners onderverdeeld in 6 werkgroepen die al het werk verdeeld hebben;
4. Er is een centrale supercomputer beschikbaar voor Project MinE (SURFsara in Amsterdam), zodat alle partners bij dezelfde data kunnen, en de data veilig zijn;
5. Ook onderzoekers buiten het consortium kunnen toegang vragen tot (controle) data;
6. Er is een begin gemaakt met het systematisch verkrijgen van whole genome sequencing data vanuit andere projecten, tevens is de start gemaakt om die data vanuit de andere projecten te integreren met de Project MinE data.

De recente ontdekkingen betekenen dat inmiddels bij ongeveer 15% van alle patiënten een oorzakelijke genetische afwijking gevonden kan worden. Dit is cruciaal, omdat er een drastische verandering gaande als het gaat om het vinden van nieuwe therapieën. De afgelopen 150 jaar (in 1866 is ALS voor het eerst beschreven in de wetenschappelijke literatuur) is er gezocht naar nieuwe medicijnen met een ‘trial and error’ benadering, waarbij stoffen zijn gekozen zonder dat er veel harde aanwijzingen vooraf waren dat dit effect zou hebben. Dat heeft helaas geleid tot vele negatieve medicijnonderzoeken. De laatste jaren wordt het mogelijk om DNA-afwijkingen gericht te behandelen. Het meeste bekende, en succesvolle voorbeeld is dat van spinale spieratrofie op de kinderleeftijd (SMA), dat ook een aandoening van de motorische zenuwcellen is. Binnen ALS zijn er nu concrete ontwikkelingen gaande voor patiënten met een SOD1 of een C9orf72 mutatie. De hoop is uiteraard dat alle genetische afwijkingen bij patiënten met ALS ooit gericht behandeld kunnen gaan worden. Om dit te bereiken moet Project MinE doorgaan, ook tot na 2019. Daarvoor is nu het Project MinE Beyond NL 2 gestart.

Doelen Project MinE Beyond NL 2

De belangrijkste doelen voor dit Project MinE Beyond NL 2 zijn:
1. Het systematisch verzamelen van externe whole genome sequencing data van ALS-patiënten en controles, wetende dat de grote crowdfunding acties van enkele jaren geleden zich niet zomaar doen herhalen. Dit is een grote uitdaging omdat er veel barrières zijn m.b.t. wet- en regelgeving, en ook technisch (grote data transfers) en analytisch (batch effecten). Het personeel dat wordt opgevoerd in deze aanvraag heeft hiermee veel ervaring en expertise.
2. Whole genome sequencing data komt in 2 vormen: de ruwe, grote data en een kleinere versie. Het laatste wordt door de meeste Project MinE partners gebruikt en is prima te hanteren op een gewoon computer cluster. De ruwe, grote data (.bam files) moeten op een supercomputer verwerkt worden. Het ALS Centrum in Utrecht is met name geïnteresseerd in deze data, aangezien hiermee gezocht kan worden naar specifieke genetische variatie zoals ‘repeat expansions’ en ‘structural variations’, wat niet met de kleine data variant kan. Ook C9orf72, de belangrijkste genetische afwijkingen bij ALS, is zo’n ‘repeat expansie’. Het personeel dat wordt opgevoerd in deze aanvraag heeft hier de unieke expertise.
3. Project MinE wordt gecoördineerd vanuit het ALS Centrum Utrecht. Dit betekent dat het ALS Centrum bijeenkomsten organiseert waar partners gegevens en ervaringen uitwisselen, de hosting en het onderhoud verzorgt van de website en de publieke databrowser, en de logistiek rond betalingen en opsturen van DNA-monsters voor het sequencen coördineert. Dit zal ook nodig zijn na 2019, en de kosten die hiermee gemoeid zijn, maken deel uit van deze aanvraag.

Update 30 juni 2020

Figuur 1. Verwerking van de MinE gegevens is 70% voltooid

Een van de doelen voor het eerste jaar is om de DNA-profielen van externe partijen te downloaden naar de supercomputer van SURFsara. In januari hebben we daarom verschillende gesprekken georganiseerd met vertegenwoordigers van andere (grootschalige) DNA-projecten in de Verenigde Staten, SURFsara, Amazon web-services, en de Directie Informatietechnologie van het UMC Utrecht. Deze gesprekken zijn nog gaande, maar er is bijna een overeenkomst bereikt. In de tussentijd gaat het downloaden van gegevens van externe partijen door en heeft het totale aantal DNA-sequenties nu 35.838 bereikt (21.204 daarvan hebben al een kwaliteitscontrole gehad).

Een ander belangrijk doel is om de externe gegevens te integreren met de DNA-profielen van Project MinE. Deze integratie vereist enorm veel computerkracht, omdat alle data van zowel Project MinE als de externe profielen opnieuw moeten worden verwerkt. De verwerking hiervan ligt op schema (ongeveer ~70% van alle MinE profielen is nu verwerkt (zie ook figuur 1)). De verwerking van de externe data gaat van start zodra de eerdergenoemde gesprekken zijn afgerond. Door de integratie van de DNA-profielen kunnen we straks analyses doen van de volledige 3 miljard DNA-letters van elk profiel.

Ondertussen hebben we ook aanzienlijke voortgang geboekt met de integratie van “exome” data. “Exome”-data bevat alleen de 40 miljoen letters van het DNA waarvan de kans het grootst is dat ze afwijkingen bevatten met een hoge impact. Doordat de kosten voor “exome”-datasets daardoor goedkoper zijn, hebben we al data verzameld van ~50.000 mensen uit verschillende andere studies in Europa, Noord-Amerika, Azië en Australië. Zoals we verwachtten, waren er tussen deze datasets behoorlijke verschillen in resolutie en kwaliteit. Het oplossen van deze verschillen is essentieel om te zorgen dat alle DNA-profielen ook echt vergelijkbaar zijn (waardoor “valse ontdekkingen” worden voorkomen). We hebben hiervoor nieuwe procedures geïmplementeerd en hebben nu een hoogwaardige integratie bereikt van 10.507 ALS-patiënten en 25.040 controles. Genetische analyses van deze gegevens zijn aan de gang.

Looptijd
Januari 2020 - 2023 (3 jaar)
Begroting
€ 595.000,-