Im Datendickicht der biologischen Regulation

Forschungsbericht (importiert) 2019 - Max-Planck-Institut für molekulare Genetik

Autoren
Vingron, Martin; van Bömmel, Alena; Heinrich, Verena; Ramisch, Anna; Ballaschk, Martin
Abteilungen
Max-Planck-Institut für molekulare Genetik, Berlin
Zusammenfassung
Es sind grundlegende Fragen der Biologie, die wir verstehen wollen: Wie funktionieren Zellen, welche Prozesse laufen in ihnen ab und wie beeinflussen sie sich gegenseitig? Wechselwirkungen von Abermilliarden von Molekülen machen das Leben aus. Biologische Systeme sind daher derart komplex, dass wir sie anhand mathematischer Modelle und durch die Analyse von Massendaten besser verstehen können. Insbesondere die dynamische Steuerung der Gene sorgt dabei immer wieder für neue Überraschungen.

Bibliothek des Lebens

Mehr als 100 Bände mit jeweils 1000 eng bedruckten Seiten – so präsentieren sich die 3,4 Milliarden Buchstaben des menschlichen Genoms in der Wellcome Collection in London. Doch der Eindruck täuscht. Unser Erbgut ist kein statisches Gebilde wie ein Buch, sondern verändert sich fortlaufend und passt sich den jeweiligen Lebensbedingungen in der Zelle an. Nicht alle Gene arbeiten zu jeder Zeit: Je nach Zelltyp sind ganz verschiedene Gene aktiv. Während der Entwicklung eines Organismus beispielsweise verändert sich in jeder Zelle die Genaktivität dynamisch. Zahlreiche Steuermechanismen bestimmen, welche Gene zu welcher Zeit aktiv sind und beeinflussen sich gegenseitig in einem komplexen Netzwerk von Interaktionen. Auch die großen Bereiche der DNA, die nicht für Gene kodieren, sind keineswegs nur junk, sondern beinhalten komplizierte Regieanweisungen zur Aktivierung spezifischer Genmuster. Neben der räumlichen Organisation des DNA-Moleküls im Zellkern spielen dabei auch chemische Markierungen am Erbgutstrang selbst sowie an dessen Gerüstproteinen eine Rolle. Wir erforschen die epigenetische Regulation dieser Mechanismen der Genexpression mit den Mitteln der Bioinformatik.

Gewebespezifische Regulation der Genexpression

Gene werden angeschaltet, wenn Transkriptionsfaktor-Proteine an Promotor-Regionen auf der DNA binden, die sich vor jedem Gen befinden. Transkriptionsfaktoren rekrutieren wiederum weitere Proteine, die den Prozess der Transkription anstoßen, bei dem die Information eines Gens abgelesen wird. Enhancer dagegen sind DNA-Abschnitte im Genom, die Transkriptionsfaktoren zu bestimmten Promotoren dirigieren. Auf diese Weise „verbessern“ (engl.: enhance) sie das Ablesen eines Gens.

Dieses Zusammenspiel von regulatorischen DNA-Sequenzen und Proteinen kann für unterschiedliche Gewebe und Zelltypen sehr verschieden und charakteristisch sein. Welche Transkriptionsfaktoren gleichzeitig in der Zelle wirken und somit maßgeblich den Zelltyp gestalten, lässt sich experimentell im großen Maßstab kaum bestimmen. Daher haben wir ein bioinformatisches Verfahren entwickelt, das gemeinsam auftretende Transkriptionsfaktoren für verschiedene Zelltypen vorhersagt [1]. Wir haben untersucht, welche Bereiche der DNA in der Zelle komprimiert vorlagen und welche aufgelockert und damit für andere Moleküle zugänglich waren. Denn im Ruhezustand ist die fadenförmige DNA eng auf Histon-Proteinen aufgewickelt wie ein Wollfaden auf eine Reihe von Spulen. Koppelt die Zelle kleine Molekülgruppen an die Histone, spult sich der Faden ab, die DNA-Knäuel lockern sich und Teile des Erbguts werden frei. So wird die Aktivität der Gene und die der regulatorischen Regionen epigenetisch gesteuert, während die genetische Information selbst unverändert bleibt.

Ausgehend von experimentellen Daten zur Zugänglichkeit von DNA-Regionen konnten wir mit statistischen Verfahren mehr als 2.000 paarweise auftretende Transkriptionsfaktoren in 64 Zelltypen bestimmen. Damit konnten wir zum ersten Mal das zelltypspezifische Zusammenspiel von Transkriptionsfaktoren in den Enhancer-Regionen umfassend charakterisieren. Zudem haben wir in embryonalen Stammzellen mehrere unabhängig voneinander arbeitende Netzwerke identifiziert, die jeweils für verschiedene Aufgaben in diesem Zelltyp verantwortlich sind. Ausschlaggebend für diese Dekodierung war die Kombination von gemessenen Daten zur Zugänglichkeit von DNA-Regionen mit dem Basencode in diesen Regionen. Die Zugänglichkeit spiegelt die Dynamik der Zelle wider und lenkt so unseren Blick auf die verantwortlichen Sequenzmuster.

Analyse der epigenetischen Dynamik von Enhancer-Regionen – dank künstlicher Intelligenz

Abb. 1: Die Grafik vergleicht den Kontakt von Genregionen innerhalb des Chromosoms Nr. 1 in zwei verschiedenen Zelltypen (orange und blau) der Maus. Jedes Feld in der Matrix repräsentiert einen Kontakt zwischen zwei Genabschnitten in der DNA, wobei die Farbintensität die Stärke des Kontaktes widerspiegelt.

Eine wichtige Rolle in den regulatorischen Netzwerken der Zelle spielen Hunderttausende an Enhancer-Regionen. Wir haben ein Programmpaket namens Condition-specific Regulatory Units Prediction (CRUP) entwickelt, das die Analyse von Enhancern stark vereinfacht [2]. Die CRUP-Pipeline identifiziert Enhancer, indem sie Sequenz-Abschnitte mit Hilfe eines Machine Learning-Algorithmus klassifiziert. Der Algorithmus wurde mit Daten aus embryonalen Stammzellen von Mäusen trainiert und erkennt Enhancer-Regionen unabhängig von der Tierart oder dem Gewebe. Welche Erbgutabschnitte epigenetisch deaktiviert wurden, verrät wiederum die Analyse der Histon-Proteine durch Chromatin-Immunpräzipitation (ChIP) und die daran gekoppelte Erbgut-Sequenzierung. CRUP kann anhand dieser Daten bestimmen, welche Enhancer aktiv sind und damit Veränderungen und Unterschiede zwischen Datensätzen analysieren. So können bei der Auswertung von Messreihen oder dem Vergleich verschiedener Gewebe epigenetische Veränderungen von Enhancern über unterschiedlich lange Zeiträume oder Unterschiede zwischen gesundem oder erkranktem Gewebe zutage treten.

Einige Steuerelemente liegen im Genom auf dem langgestreckten DNA-Molekül weit von ihren Zielregionen entfernt. Welcher Enhancer wann welche Gene kontrolliert, lässt sich daher aus der bloßen Sequenz häufig nicht ableiten. CRUP ordnet solche Sequenzabschnitte erfolgreich einander zu, indem es die Enhancer-Analyse mit Genexpressionsdaten korreliert und prüft, welche Teile des DNA-Strangs sich im Erbgut-Knäuel berühren (Abb. 1). Mit dieser Methode konnten wir in einem Mausmodell für rheumatoide Arthritis mehr als 200 Enhancer-Regionen identifizieren, von denen einige mit der Erkrankung in Verbindung gebracht werden. Auch die Gene, die CRUP diesen Enhancern zugeordnet hat, sind laut anderen Studien an der Krankheitsentwicklung beteiligt.

Die Epigenetik erlaubt uns somit, langsam und Schicht für Schicht, die Geheimnisse der Kontrolle der Genaktivität aufzuklären. Mit ihr können wir verstehen, wie unterschiedliche Zelltypen entstehen, obwohl die DNA-Sequenz in allen Zellen gleich ist. Mit den Verfahren der künstlichen Intelligenz versuchen wir, die Zelltyp-spezifischen Informationen zu kategorisieren und daraus zu erkennen, welche Gene wann und wie aktiviert werden.

Literaturhinweise

1.
van Bömmel, A.; Love, M.I.; Chung, HR; Vingron, M.
coTRaCTE predicts co-occurring transcription factors within cell-type specific enhancers
PLoS Computational Biology. 2018;141006372
2.
Ramisch, A.; Heinrich, V.; Glaser, L.V.; Fuchs, A.; Yang, X.; Benner, P.; Schöpflin, R.; Li, N.; Kinkley, S.; Römer-Hillmann A.; Longinotto, J.; Heyne, S.; Czepukojc, B.; Kessler, S.M.; Kiemer, A.K.; Cadenas, C.; Arrigoni, L., Gasparoni, N.; Manke, T.; Pap, T.; Pospisilik, J.A.; Hengstler, J.; Walter, J.; Meijsing, S.H.; Chung, H.R.; Vingron, M.
CRUP: a comprehensive framework to predict condition-specific regulatory units
Genome Biology. 2019;227
Zur Redakteursansicht