kentoh - Fotolia

Management von Netzwerkfehlern in modernen komplexen Rechenzentren

Netzwerkdesigns und -technologien mögen sich ändern. Fehler zu identifizieren – und zu beseitigen – bleibt aber eine wichtige Aufgabe für Admins.

Es ist nie einfach gewesen, Netzwerkfehler zu erkennen, zu identifizieren und zu beheben. Die heutigen großen Data Center und Cloud-Netzwerke machen das Netzwerkfehler-Management sogar zu einer noch gewaltigeren Herausforderung. Dies ist ein fundamentaler Unterschied zur Vergangenheit, als die Client-Server-Architektur vorherrschte, Anwendungen auf einem designierten Server liefen und Endbenutzer entweder durch im Gebäude verlegtes Ethernet oder gemietete WAN-Verbindungen angebunden waren.

Technologien wandeln sich, aber was zählt, ist das Endergebnis. Es stellt sich die Frage: Erhalten User die erforderliche Dienstqualität? Die Antwort hängt sowohl von der Anwendungs- als auch der Netzwerk-Performance ab.

Heutzutage werden Anwendungen oft in einer Public Cloud, Private Cloud oder Hybrid Cloud ausgeführt. Anwendungen werden von Server zu Server verschoben, sobald sich die Auslastung verändert. Der Durchsatz zwischen Servern und Data Stores variiert je nach der Auslastung, die andere Anwendungen auf gemeinsam genutzten Verbindungen verursachen.

Die Netzwerk-Performance hängt vom Typ und der Kapazität des Netzwerks ab, das die Benutzer mit der Anwendung verbindet. Lokale User sind möglicherweise per Ethernet oder Wi-Fi verbunden. Remote-Anwender bauen eine Verbindung über verschiedene WAN-Technologien auf, zum Beispiel über das öffentliche Internet oder das Mobilfunknetz. Jeder Zugang erfordert spezielle Methoden, um die erforderliche Leistung zu erhalten. Fehler in jedem einzelnen dieser Bereiche – Anwendung oder Netzwerk – können die Zufriedenheit der Nutzer nachhaltig beeinträchtigen.

Fehlererkennung in der Cloud

Viele Topologien und Designs – unter anderem virtualisierte Server, verschiedene virtuelle LANs (VLANs) und Overlay-Netzwerke – erschweren die Fehlererkennung in der Cloud und das Management von Netzwerkfehlern. Ein Performance-Problem in der Anwendung eines Mandanten scheint vielleicht nicht in Verbindung mit einem Problem zu stehen, das einen anderen Mandanten betrifft. Dennoch kann beides auf die gleiche Quelle zurückzuführen sein. Möglicherweise werden alle Anwendungen der Mandanten auf dem gleichen überlasteten oder falsch konfigurierten Server ausgeführt. Es kann aber auch sein, dass das Overlay-Netzwerk beider Mandanten über die gleiche überlastete oder fehlerhafte Verbindung geroutet wird.

Allein schon die bloße Anzahl von Servern, Netzwerkkomponenten und Verbindungen bildet eine Fehlerquelle. Moderne Hardware ist extrem zuverlässig. Obwohl jede Komponente eine MTBF (Mean Time Between Failures) von mehreren Jahren besitzen kann, werden bei Tausenden von unterschiedlichen Geräten Hardwarefehler auftreten.

Konfigurationsfehler sind eine weitere Problemquelle, die sich mittels Netzwerkfehler-Management überwachen lassen. Server und Netzwerkgeräte werden kontinuierlich hinzugefügt, aktualisiert oder ausgetauscht. Eine umfangreiche Cloud enthält in der Regel Komponenten von etlichen Anbietern. Sogar identische Komponenten eines einzelnen Anbieters können einen unterschiedlichen Softwarestand haben. In dieser Umgebung stellt jede Änderung eine Möglichkeit für einen Fehler dar, und eine Änderung an einer Komponente kann sich wiederum auf andere auswirken.

Einfach Fehler zu erkennen und zu melden, ist nicht ausreichend. Jeder Fehler kann zu Dutzenden von Fehlerberichten führen. Ein sporadisch auftretender Verbindungsfehler kann Hinweise auf Hardwarefehler von Switches an beiden Enden der Verbindung generieren. Und beide erzeugen jedes Mal, wenn die Verbindung ausfällt und anschließend wieder funktioniert, einen neuen Report. Layer-2- und Layer-3-Protokolle melden Routenänderungen, genau wie Verbindungs-Traffic-Monitore, da sie signalisieren, wenn das Traffic-Aufkommen auf alternativen Routen sich dem Maximum nähert. Gleichzeitig meldet das Anwendungs-Performance-Monitoring (APM) Probleme von jeder Anwendung, die Traffic über diese Verbindung routet.

Fehlerkorrelation und ihre Rolle im Netzwerk

Kein menschlicher Netzwerk-Manager wäre in der Lage, die gewaltige Menge an Berichten durchzusehen, die als Ergebnis eines einzigen Fehlers erzeugt werden, und schnell die zugrunde liegende Ursache zu identifizieren. Software zur Fehlerkorrelation ist somit unerlässlich. Es handelt sich hierbei um eine wesentliche Komponente von Produkten für das Netzwerk-Management, die jeder namhafte Anbieter im Portfolio hat.

Programme für die Fehlerkorrelation nutzen eine Vielzahl von Mechanismen, um Probleme zu erkennen. Dazu zählen SNMP-Traps, TL1-Meldungen, Anwendungs-Logs und SYSLOG-Einträge. SNMP- und produktspezifische Polling-Monitore lassen sich für Server, Switches und Verbindungen verwenden. Korrelations-Tools überwachen auch Dinge wie die Gerätetemperatur, Stromversorgung und den freien Platz auf Speichermedien, um künftige Probleme vorherzusagen.

Software für das Management von Netzwerkfehlern muss ein genaues und aktuelles Bild des Netzwerks pflegen. Die Software muss – entweder manuell oder per Netzwerk-Mapping – upgedatet werden, um hinzugefügte, entfernte oder aktualisierte Komponenten und Verbindungen ausfindig zu machen und zu beobachten. Sie muss von jeder Komponente interne Modelle verwalten, die deren Konfiguration und Funktionen beschreiben, und Beschreibungen der Richtlinien für den Netzwerkbetreib enthalten. Sie muss ebenfalls mit Informationen wie Service Level Agreements (SLAs) aktualisiert werden, wenn Anwendungen ergänzt werden.

Darüber hinaus muss Software zur Fehlerkorrelation mit Software für die Cloud-Orchestrierung interagieren, um zu überwachen, welche Anwendungen ausgeführt werden und auf welchen Servern sie laufen, sowie um die den einzelnen Mandanten zugeordneten VLANs und Overlay-Netzwerke im Auge zu behalten. Software für das Management von Netzwerkfehlern muss außerdem anhand der SLAs das Niveau der Anwendungs-Performance kontinuierlich beobachten.

Wenn ein Problem auftritt, sammelt die Korrelationssoftware alle eingehenden Fehlerhinweise und nutzt ihre Informationen über die Netzwerktopologie sowie über die Datenbewegungen vor dem Fehler, um die zugrunde liegende Ursache festzustellen und Netzwerk-Managern einen kurzen, prägnanten Bericht zu liefern.

SDN-Netzwerke ändern die Gleichung

Mittels Software-defined Networking (SDN) verwaltete Clouds und Data Center sehen sich den gleichen potenziellen Problemen ausgesetzt wie ihre auf herkömmlicher Technik beruhenden Pendants. Beide Umgebungen benötigen Software für die Fehlerkorrelation, doch SDN-Architekturen erfordern, dass Korrelationssoftware entweder in den Netzwerk-Controller integriert oder eng mit ihm gekoppelt wird.

Der Grund für den Unterschied liegt darin, dass traditionelle Protokolle, zum Beispiel Spanning Tree und Open Shortest Path First (OSPF), innerhalb von Netzwerkgeräten implementiert werden. Sie leiten den Traffic nach Bedarf um, wenn ein Verbindungs- oder Portproblem den Datenverkehr blockiert. Bei SDN werden alle Routen im Controller festgelegt. Software zur Fehlerkorrelation muss den Controller über solche Probleme informieren, so dass dieser eine alternative Route bestimmen kann.

OpenFlow-kompatible White Box Switches unterstützen Betriebssysteme von vielen verschiedenen Anbietern, und jedes verfügt über seine eigene Methode, Fehler zu entdecken und zu melden. Die Betriebssysteme von Big Switch und Pica8 beispielsweise unterstützen SNMP. Aber das Controller- und Switch-OS von Big Switch verwendet die nicht angeforderten Meldungen von OpenFlow, sogenannte Unsolicited Messages, um mit Geräten zu kommunizieren. Korrelationssoftware kommuniziert über Schnittstellen mit dem Controller, um Meldungen von Geräten zu empfangen und ihren Status abzufragen.

Wi-Fi und WAN

Wi-Fi ist auf spezielle Tools angewiesen, um Probleme zu diagnostizieren. Die Wi-Fi-Konnektivität kann durch Probleme wie Signalstörungen, Wände oder massive Objekte beeinträchtigt werden, die das Signal blockieren, außerdem durch Sicherheitslücken. Es gibt eine Vielzahl von Produkten für das Troubleshooting. Die Palette reicht von Freeware bis hin zu professionellen Softwarepaketen. Um bestimmte WLAN-Probleme zu diagnostizieren, sind ebenfalls spezielle Hardwareprodukte erforderlich.

Falls ein Netzwerk-Service-Provider ihm gehörende WAN-Verbindungen zur Verfügung stellt und verwaltet, lauten die entscheidenden Parameter Durchsatz und Round-Trip-Zeit. Auch hier gilt: Es sind sowohl freie als auch professionelle Produkte auf dem Markt erhältlich.

Um die Erwartungen der Endbenutzer an die Performance zu erfüllen, müssen alle Aspekte der Anwendungs-Performance abgedeckt sein. Probleme werden mit Sicherheit irgendwann auftreten. Dann muss die Software für das Netzwerkfehler-Management und für die Fehlererkennung die zugrunde liegende Ursache identifizieren, damit sie beseitigt und der ordnungsgemäße Betrieb wieder hergestellt werden kann.

Folgen Sie SearchNetworking.de auch auf Twitter, Google+, Xing und Facebook!

Nächste Schritte

Anwendungs-Performance-Management in komplexen IT-Umgebungen.

So optimieren Sie die Anwendungs-Performance in einer Cloud-Umgebung.

Häufige auftretende Netzwerk-Fehler und die Gründe dafür.

Das können Tools für das Netzwerk-Performance-Monitoring.

Artikel wurde zuletzt im August 2016 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Netzwerk-Performance-Management

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchDataCenter.de

SearchEnterpriseSoftware.de

Close