Resiliency und StorageSpaces

StorageSpaces werden von Microsoft gerne als DAS System der Zukunft angepriesen. Die Vorteile liegen auf der Hand. Es ist günstig, Features wie Auto-Tiering sind automatisch mit an Bord und mit dementsprechenden SAS- und Netzwerkverbindungen bekommt man aus so einem Konstrukt bis zu 1 Millionen IOPS und mehr heraus.

Aber was ist, wenn das System mal nicht ordnungsgemäß läuft? Was passiert wenn Komponenten ausfallen und wieder in Betrieb genommen werden? Hier versagen recht schnell die Hochglanzfolien und man steht mit einem Bein im Datenverlust. Wir haben den StorageSpaces mal etwas auf den Zahn gefühlt und das Verhalten im Falle eines Ausfalls getestet.

Unser Setup sah wie folgt aus:

Buildingblock

 

Das Konstrukt an sich ist super-performant. Gerade die 40 Gbit/s Netzwerkverbindungen lassen einen beim Livemigrationen schwindelig werden, aber hierzu werde ich mal in einem späteren Blogbeitrag berichten. Hier soll es vorerst um die Ausfallsicherheit gehen und dabei sind doch einige interessante Punkt aufgetreten. Ein paar Tests und deren Ergebnisse möchte ich gerne aufführen.

 

testfälle

 

Besonders auf den letzten Punkt möchte ich näher eingehen, da er  mich extrem verwundert hat. Ein JBOD hart auszuschalten verkraften die StorageSpaces wohl völlig problemlos, aber dieses JBOD dann wieder in Betrieb zu nehmen, scheint eine Herausforderung zu sein, die nicht zu meistern ist. Beim Versuch mit Powershell auf die Umgebung zuzugreifen um sich z.B. die offenen Jobs anzuzeigen bekommt man lediglich hängende Befehle, die erst nach bis zu 60 Minuten eine Rückmeldung liefern.

 

pscomandsfailed

 

In dieser Zeit fallen dann nach und nach alle Komponenten aus. Die virtuellen Maschinen bekommen Bluescreens. Der Hyper-V Cluster ist selbst auch nicht mehr zu bedienen und bekommt massenweise Fehlermeldungen.

 

clusterevents

 

Selbst der Scale-Out-Fileserver verliert die Kontrolle über sich selber und seine Knoten crashen. Irgendwann nach mehreren Stunden beruhig sich die Situation wieder und die StorageSpaces schwingen sich wieder ein. Zumindest auf die Powershell kann man wieder zugreifen und Befehle absetzen. Dort ist dann auch zu sehen, dass der Regeneration-Prozess läuft. Während dieser Zeit ist der Zugriff auf die virtuellen Maschinen wieder möglich.

 

pscomandsrebuild

 

Der Cluster sieht ebenfalls wieder gut aus.

 

clusterok

 

Irgendwann ist die Regeneration durch und man meint, dass wieder alles OK ist, aber dem ist leider nicht so. Auf den folgenden Screenshoots sieht man, dass sowohl die Enclosures als auch die physikalischen Platten “Healthy” sind.

 

physdisk

degraded

 

Wie man aber auch erkennen kann, ist eine der virtuellen Disks im Status “Degraded”. Dies sieht in erster Linie nach einem Bug aus, da sowohl Platten als auch Enclosure OK sind. Ich bin gespannt, was Microsoft hierzu zu sagen hat. Eine entsprechende Anfrage habe ich gestellt.

Mein bisheriges Fazit bzw. meine Meinung zu StorageSpaces ist sehr geteilt. Auf der einen Seite ist es ein günstiges und extrem performantes System – hier lügen die Hochglanzfolien von Microsoft also keineswegs. Auf der anderen Seite gibt es aber noch eine ganze Menge Verbesserungspotential im Falle eines Ausfalls. Was bringen einem ultraschnelle Systeme, wenn ich sie nicht zuverlässig betreiben kann?

One thought on “Resiliency und StorageSpaces

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.