Seite 1 von 1

Ausfall der TR-Freun.de Webseite

Verfasst: 22.10.2019, 12:43
von Berthold
Seit gestern kam es mehrfach zu Ausfällen unserer Webseite. Ursächlich hierfür sind noch nicht restlos geklärte Probleme bei unserem Provider. Zur Info hier die Mail des Providers.


------------------------ Mail von Artfiles --------------------
Artfiles New Media GmbH
Netzwerkausfall am 21.10.2019
Sehr geehrte Damen und Herren,

mit dieser Mail möchten wir Sie über die Hintergründe des gestrigen Netzwerkausfalls informieren.

Gegen ca. 10:35 Uhr kam es offenbar durch eine Verkettung zweier unabhängiger Fehlkonfigurationen, einmal auf Seiten eines Datacenter-Kunden und einmal auf Artfiles' Seite, zum Ausfall eines Verteilerswitches in Colo2 im Rechenzentrum W408.

Aus noch ungeklärter Ursache führte dies auf der Aggregationsebene zu sporadischen Ausfällen der redundanten Inter-Switch Links (LACP). Im Ergebnis war Colo2 effektiv offline.

Da auf der Aggregationsebene auch Storagetraffic verarbeitet wird, kam es nachgelagert zu Problemen mit einigen virtuellen Servern in der Artfiles Cloud.

Gegen 11:45 Uhr konnte das Problem isoliert werden. Im Nachgang mussten die betroffenen Webserver neugestartet werden, um die Integrität der Dateisysteme sicherzustellen. Dies hat leider in einigen Fällen bis ca. 16 Uhr gedauert.

Wir versuchen derzeit noch durch Reproduktion des auslösenden Fehlers auf einem Testsystem herauszufinden, warum ein an sich isoliertes Problem auf einem Verteilerswitch diese gravierenden Auswirkungen haben konnte.

Außerdem arbeiten wir an einer Lösung um im Falle ähnlicher Probleme betroffene Serversysteme schneller wieder online zu bringen.

Wir bitten um Entschuldigung für die entstandenen Unannehmlichkeiten. Bei Rückfragen stehen wir Ihnen selbstverständlich gerne zur Verfügung.

Das Artfiles Team
---------------------------------------------------------------

Durch die geschilderten Probleme kam es in unserer Datenbank zu einem Fehler den ich nun reparieren konnte. Ich hoffe damit ist die Webseite wieder wie gewohnt erreichbar.

Gruß Berthold

Re: Ausfall der TR-Freun.de Webseite

Verfasst: 22.10.2019, 14:34
von Triumphator
Berthold :top: :top: :top:

Re: Ausfall der TR-Freun.de Webseite

Verfasst: 22.10.2019, 15:01
von altana
Danke Berthold! Gruß Rainer

Re: Ausfall der TR-Freun.de Webseite

Verfasst: 23.10.2019, 04:43
von tr_tom
Gute Arbeit, Berthold!!!

Re: Ausfall der TR-Freun.de Webseite

Verfasst: 23.10.2019, 06:57
von philliseb
:top:

Ausfall der TR-Freun.de Webseite

Verfasst: 23.10.2019, 09:11
von DietmarA
Good Job Berthold :klatsch:

auch wenn ich von der ersten Hälfte des Providerbriefs Nullkommanix verstanden habe. :-?

Dietmar

Re: Ausfall der TR-Freun.de Webseite

Verfasst: 23.10.2019, 10:14
von seidelswalter
Berthold is the best! :blumen

Re: Ausfall der TR-Freun.de Webseite

Verfasst: 23.10.2019, 12:15
von TR6US76
Danke, Berthold ! :top:

Re: Ausfall der TR-Freun.de Webseite

Verfasst: 23.10.2019, 22:30
von Sinan
Geiler Brief, so richtig sachlich, um dem gemeinen Volk zu zeigen, das gar nichts von Internet weiß.



Gegen ca. 10:35 Uhr kam es offenbar durch eine Verkettung zweier unabhängiger Fehlkonfigurationen, einmal auf Seiten eines Datacenter-Kunden und einmal auf Artfiles' Seite, zum Ausfall eines Verteilerswitches in Colo2 im Rechenzentrum W408.

Aus noch ungeklärter Ursache führte dies auf der Aggregationsebene zu sporadischen Ausfällen der redundanten Inter-Switch Links (LACP). Im Ergebnis war Colo2 effektiv offline.

Da auf der Aggregationsebene auch Storagetraffic verarbeitet wird, kam es nachgelagert zu Problemen mit einigen virtuellen Servern



Jetzt aber alles wieder gut, was gibt es da nicht zu verstehen???? :punish

Dank an Berthold :erster

Re: Ausfall der TR-Freun.de Webseite

Verfasst: 25.10.2019, 10:07
von Mathias013
Hallo zusammen,
Durch den Ausfall des Verteilerswitches ist es im Netzwerk durch die Redundanzsysteme zu einem Loop gekommen und das Spanning-tree Protokoll hat dann die ports vom Etherchannel auf err-disabled geschaltet um den Loop zu unterbrechen.
Da ist das spanning-tree falsch oder gar nicht konfiguriert worden, und der Datenverkehr 'flappt' je nach Vlan auf dem redundanten Switch von port zu port da das SP neue Wege 'sucht'. Mit dem Storagetraffic meinen die vSAN und somit sind denen die virtuellen Server eingefroren oder abgestürzt da die Server plötzlich ihre Festplatten nicht mehr 'gesehen' haben. Also erst Netzwerk stabilisieren (mit Hilfe eines Management Servers der nicht virtuell ist) und dann die abgestürzten Server neu starten.
Aber diese Details versteht kein Kunde und somit wird das Ganze nett umschrieben.

Schönes Wochenende,
Mathias (013)

Re: Ausfall der TR-Freun.de Webseite

Verfasst: 26.10.2019, 19:42
von hrg
net gschimpft isch globt gnug, danke hans