Universität Paderborn bändigt Datenwachstum mit Isilon-Cluster

Bei der Concat AG ist der Artikel Universität Paderborn bändigt Datenwachstum mit Isilon-Cluster erschienen.

URL des Artikels auf der Unternehmenswebsite: https://www.concat.de/universitaet-paderborn-baendigt-datenwachstum-mit-isilon-cluster/

Die Ausgangssituation

Seit 2013 setzt die Universität Paderborn für die zentrale Speicherung von Daten Isilon-Systeme der Serie X400 ein. Nach erheblichen Anlaufschwierigkeiten folgten einige Konsolidierungen von dezentralen Speichersystemen auf das Isilon-System, nachdem sich dies im täglichen Betrieb bewährt und das Vertrauen von Usern und (dezentralen) Administrierenden gewonnen hatte. Die steigende Beliebtheit war dabei Fluch und Segen zugleich, da durch die Konsolidierungen ein sprunghaftes Wachstum stattfand, das die langfristige Planung erschwerte.

Es stellte sich ebenfalls heraus, dass die gemeinsame Nutzung eines Speichersystems durch Nutzer, Dienste und HPC-Systeme den Isilon-Cluster merkbar an seine Leistungsgrenzen bringen konnte. Entsprechend wurde 2018 der ehemalige Backup-Cluster, der ebenfalls aus Systemen der X400-Serie bestand, dem Speichersystem hinzugefügt, um sowohl 250 TB mehr Kapazität als auch einen separaten Pool für HPC-Daten – und damit auch eine Lasttrennung – bereitstellen zu können.

Als sich abzeichnete, dass bei gleichbleibendem Wachstum die Kapazität des Speichersystems trotz der Erweiterung zur Neige gehen und das System das Ende seines Support-Lebenszyklus erreichen würde, war den Verantwortlichen im Zentrum für Informations- und Medientechnologien (IMT) klar, dass es an der Zeit war, sich Gedanken um die Ablösung zu machen. Ziel war die Neuinvestition in ein geeignetes zentrales Storagesystem mit ca. 2 PB nutzbarer Kapazität. Das System sollte ebenfalls in der Lage sein, einen Speicherpool exklusiv für die Anwendungen des Paderborn Center for Parallel Computing (PC2) zur Verfügung zu stellen. Die dortigen Performanceanforderungen sollten einerseits per SLA zugesichert werden können, andererseits aber die Systemleistung für die restlichen Personen nicht beeinflussen.

Maximilian Wilhelm, als Senior Infrastructure Architect zuständig für Speicher für unstrukturierte Daten, führte mit seinem Kollegen Christopher Odenbach aus dem Bereich Server und Systeme eine umfangreiche Marktanalyse durch und fand fünf Hersteller, die potenzielle Lösungen im Portfolio hatten. Systeme von zwei Herstellern schieden bereits in der Vorauswahl aus, da sie die technischen Anforderungen nicht erfüllten; Systeme von drei verschiedenen Herstellern kamen in die engere Wahl. Nach intensiver Prüfung schieden zwei weitere Anbieter aus. Deren Systeme erfüllten die technischen Anforderungen nicht, waren zu teuer, hätten zu viel Platz benötigt oder waren nicht mehr am Markt verfügbar. Übrig blieb Isilon.

Die Herausforderung

Die Datenhaltung im Bereich unstrukturierter Daten ist für die Universität Paderborn wie für viele andere Hochschulen eine besondere Herausforderung. Hierzu gehören die klassischen Home-Verzeichnisse für Mitarbeitende und Studierende sowie die Verwaltung wissenschaftlicher Daten aus Forschung und Lehre. Vor allem letztere wachsen seit vielen Jahren stark und sprunghaft und stellen gleichzeitig das Kerngeschäft der Universität dar. Sicherheit, schneller Zugriff und ausreichend Kapazität müssen immer gewährleistet sein.

Für die Daten bzw. Caches einiger zentraler Anwendungen wie z. B. die eLearning-Plattform ist schneller Speicher mit niedrigen Latenzen erforderlich; hier kommt entsprechend Flash-Speicher zum Einsatz. Ein Speichersystem muss in diesem Umfeld also idealerweise drei Güteklassen bereitstellen: ein preiswertes hochkapazitives Archiv, einen sehr leistungsfähigen Tier-1-Bereich mit Flash-Speicher und eine Leistungsklasse dazwischen für das Brot- und Buttergeschäft.

Lösung

Die große Bandbreite an Funktionen und die Möglichkeit, die genannten Anforderungen an unterschiedliche Speicherpools zu erfüllen, war es dann auch, die das Team des IMT überzeugten, erneut Isilon-Systeme zu verwenden.

Bei der Planung des neuen Speicherkonzepts stand für Maximilian Wilhelm vor allem eine Frage im Mittelpunkt: Wie schnell und wie lange müssen welche Daten verfügbar sein? Das betrifft zum Beispiel Videodaten für Vorlesungen, die 2020 aufgrund der Auswirkungen der Corona-Pandemie stark zugenommen hatten. „In der Aufteilung der Speicherklassen stecken viele Überlegungen. Wir mussten nicht nur die Geschwindigkeit der Datenverfügbarkeit beachten, sondern auch die Kosten und die Kalkulation der Kapazitäten für die Pools im Auge behalten, damit diese nicht volllaufen“, so Wilhelm.

Das neue Speicherkonzept umfasst eine Architektur mit drei Tiers:

  • Tier 1 mit vier Isilon-Knoten der All-Flash-Serie F800 für Applikationen mit 142 TB Nettokapazität
  • Zwei Tier-2-Komponenten mit jeweils sechs H500-Knoten als Default-Pool für das Zentrum für Informations- und Medientechnologien sowie den PC2-Pool mit jeweils 316 TB Nettokapazität
  • Tier 3 mit acht A200-Systemen für das Archiv und kalte Daten mit 1.250 TB Nettokapazität.

Nachdem die Deutsche Forschungs-Gemeinschaft den Antrag bewilligt hatte, ging es ab Januar 2021 schnell. Innerhalb von vier Wochen nach Beauftragung setzte Maximilian Wilhelm, unterstützt durch Christopher Siebert, Senior-Systemingenieur der Concat, das Kernprojekt um: Vorbereitung des Netzwerks, Umzug vorhandener Knoten, Einbau der neuen Systeme, Verkabelung, Umbau des Cluster-Backend-Netzes, Inbetriebnahme der neuen Knoten mit einem Gesamtvolumen von zwei PB und schließlich die Abschaltung der alten Knoten. In Zahlen: Über 600 kg neue Hardware, sechs Chassis, zwei Switches, 192 Optiken und 96 LWL-Kabel.

Auch die Migration aller Daten für das Zentrum für Informations- und Medientechnologien sowie für das Institut PC2 war in einigen Tagen erledigt. Im April 2021 folgte der letzte Schritt: Nachdem das Upgrade des Betriebssystems abgeschlossen war, nahm das Team die Knoten für Tier 1 in Betrieb und überspielte danach die Applikationen. Die Anwendenden bemerkten davon nichts – außer einer deutlichen Steigerung der Kapazität.

Ergebnis & Nutzen

Der Isilon-Cluster ist die zentrale Speicherinstanz für die gesamte Universität Paderborn. Dort lagern sämtliche Daten der Mitarbeitenden und Studierenden: Alle Home-Verzeichnisse, die Daten wissenschaftlicher Arbeitsgruppen, Prüfungen und viele weitere Dateien.

Am meisten beeindruckt Maximilian Wilhelm die Einfachheit des Dateisystems und die Skalierbarkeit von Isilon: „Wir könnten innerhalb weniger Stunden den Archivspeicher um 700 TB erweitern, indem wir Knoten hinzufügen. Das ist bombastisch.“

Isilon stellt in einer parallelen Hardware-Architektur einen zentralen Speicher zur Verfügung, über dem das Filesystem OneFS liegt. Es kombiniert Dateisystem, Volume Manager und Sicherungsmechanismen in einer Schicht, die alle Knoten umspannt. Alle Funktionen (u. a. Datensicherheit, Tiering, Snapshots oder WORM) lassen sich bis auf Verzeichnis- oder Dateiebene individuell einstellen und im laufenden Betrieb ändern. Die größte Stärke von OneFS ist die Möglichkeit, dass sich Daten zwischen den drei Pools – auch für die Nutzenden – vollkommen transparent bewegen.

Die Ausfallsicherheit innerhalb des Clusters stellt Isilon durch Striping der Daten über alle Knoten eines Tiers bzw. Erasure Coding sicher. Tägliche bzw. wöchentliche Snapshots sorgen als doppelter Boden gegen versehentliches Löschen oder Überschreiben. Für Disaster-Recovery-Szenarien betreibt das IMT einen zweiten kleineren Cluster an einem entfernten Standort, auf den täglich alle wichtigen Daten noch einmal repliziert werden. Im Katastrophenfall kann dieser Backup-Cluster in kurzer Zeit zum Produktivsystem konfiguriert werden, so dass der Betrieb schnell wieder aufgenommen werden kann.

  • Zentraler Speicher-Cluster auf Basis von Isilon-Systemen

  • OneFS vereint drei Schichten traditioneller Speicherarchitekturen

  • Single Point of Management für schnell wachsende Datenmengen

  • Transparente Integration eines exklusiven Speicher-Pools für das HPC-Rechenzentrum PC2

  • Lineare Skalierbarkeit in Kapazität und Leistung

Der Cluster bietet lineare Skalierbarkeit bei Kapazität und Performance. Neue Knoten lassen sich im laufenden Betrieb hinzufügen, ohne dass eine Neukonfiguration oder anderweitige Anpassungen nötig wären. Damit hat es das IMT geschafft, das Datenwachstum zu bändigen und zugleich den besonderen Bedürfnissen des PC2 gerecht zu werden. Das Institut erhielt einen eigenen Pool zur exklusiven Nutzung, der aus Performancesicht getrennt vom restlichen Speicher ist und trotzdem Teil desselben Dateisystems. Diese elegante Lösung garantiert, dass Servicelevel eingehalten werden und niemand Leistungseinbußen erleben muss, nur weil ein Power-User seinen Speicherbereich unter Last setzt.

Das Fazit von Maximilian Wilhelm: „Die Zusammenarbeit mit den Concat-Spezialisten ist wunderbar: stets freundlich, kompetent und pragmatisch. Die Kommunikation ist völlig bullshit-frei: Wir bekommen die Fakten, die wir benötigen, sind auf Augenhöhe miteinander und werden ernst genommen.“

Die kurze Zusammenfassung

Die Herausforderung

  • Teilweise sprunghaftes Wachstum unstrukturierter Daten
  • Ablösung zahlreicher dezentraler Speichersysteme
  • Ansprüche an Datensicherheit waren nicht erfüllt

Die Lösung

  • Zentraler Speicher-Cluster auf Basis von Isilon-Systemen
  • OneFS vereint drei Schichten traditioneller Speicherarchitekturen
  • Single Point of Management für schnell wachsende Datenmengen
  • Transparente Integration eines exklusiven Speicher-Pools für das HPC-Rechenzentrum PC2

Die Vorteile

  • Drei Speicherklassen für diverse Performancevorgaben
  • Lineare Skalierbarkeit in Kapazität und Leistung
  • Schnelle, einfache Erweiterbarkeit im laufenden Betrieb