4 Schritte zur Verbesserung der Netzwerkleistung | NETSCOUT
Technischer Anwendungsbericht
| Technischer Anwendungsbericht |

4 Schritte zur Verbesserung der Netzwerkleistung

Einleitung
Das IT-Netzwerk ist das Herz der meisten Unternehmen, das die geschäftskritischen Anwendungen unterstützt, die Daten bietet auf denen Geschäftsentscheidungen fallen und die Kommunikationen mit Kunden, Partnern, Lieferanten und Mitarbeitern ermöglicht. Mehr als je zuvor ist es ein strategisches Anlagegut für das Unternehmen und jede Ausfallzeit oder Minderung im Netzwerk oder in den Anwendungsleistungen wirken sich direkt die Bilanz des Unternehmens aus. Um die mit dem Unternehmen vereinbarten Serviceniveaus zu erreichen, sind gleich zwei Herausforderungen zu meistern. Erstens muss die Leistung proaktiv verbessert und optimiert werden, um sicherzustellen, dass das Netzwerk die für den Benutzer erforderliche Leistung erbringt, und zweitens müssen alle Probleme so schnell wie möglich gelöst werden, um Ausfallzeiten auf ein Minimum zu beschränken. Dieses Whitepaper betrachtet Methoden zur Lösung von Netzwerk- und Anwendungsleistungsproblemen und umreißt einen neuen Ansatz, um schneller zur Grundursache gelangen.

EINFÜHRUNG

Die Ermittlung der Grundursache von Netzwerk- und Applikationsproblemen wird in heutigen Unternehmensnetzwerken immer schwieriger und zeitraubender. Virtualisierung umfasst sowohl das Datenzentrum als auch den Desktop, Cloud-Services werden immer beliebter und das Arbeiten mit Privatgeräten, kurz BYOD (Bring Your Own Device), ist nicht mehr wegzudenken. All dies sind Zeichen für veränderte Arbeitsgewohnheiten und kulturellen Wandel.

Probleme können sich aus der Verbreitung von Wi-Fi-Geräten, der exzessiven Belegung von Bandbreite durch nicht autorisierte Applikationen, Konfigurationsfehler, eine schlechte Infrastruktur für die Applikationsbereitstellung und vielen anderen Gründen ergeben. Die zunehmende Einbindung von Sprach- und Videokomponenten führt zu mehr Komplexität und erreicht schnell die Grenzen der Bandbreite.

Es wird immer schwieriger und zeitraubender, Leistungsprobleme zu lösen, da nur schwer festzustellen ist, in welchen Zuständigkeitsbereich sie fallen, vor allem, wenn alle Gruppen grüne KPIs melden.


Der Umgang mit Problemen mit der Netzwerkleistung


Normalerweise wird ein aus vier Schritten bestehender Problembehandlungsprozess angewendet, um die Grundursache von Problemen mit der Netzwerkleistung zu finden:

Abbildung 1: Workflow zur Problemlösung.



Die Tools, die zur Unterstützung der Problemlösung verfügbar sind, können in zwei Kategorien eingeteilt werden: Netzwerkmanagementsysteme (NMS) und Datenpaketerfassungs- und Analysetools.

NMS sind besonders in der Überwachungs- und Alarmphase wichtig, da mit ihnen die Router und Server des Unternehmens überwacht werden und sie festzustellen versuchen, ob diese ordnungsgemäß funktionieren und reagieren. Die Einrichtung einiger NMS ist jedoch so kompliziert, dass mit ihnen nur Geräte bis Layer 3 verwaltet werden. Deshalb werden Switches in Layer 2 nicht überwacht. Die Abfragedaten werden über viele Minuten hinweg gesammelt und auf diese Weise gemittelt, sodass die Auswirkungen von Zugriffsspitzen verborgen bleiben. Da sich das NMS an einem zentralen Ort befindet, sind außerdem Messungen, die angestellt werden, um Endbenutzer-Antwortzeiten zu verstehen, ungenau, da für den Test ein anderer Teil des Netzwerks verwendet wird, um eine Verbindung mit dem untersuchten Gerät herzustellen.

Je weiter der Netzwerkingenieur im Problembehandlungsprozess voranschreitet, desto weniger nützlich ist das NMS, und es kann die detaillierten Informationen, die zur abschließenden Untersuchung des Leistungsproblems erforderlich sind, nicht bereitstellen.


Eine kürzlich von NETSCOUT® durchgeführte Umfrage unter etwa 3.000 Netzwerkexperten ergab, dass 82 % der Befragten die Probleme der Applikations- und Netzwerkleistung als besorgniserregend oder kritisch ansehen, wobei 52 % angaben, dass in den meisten oder sogar allen Fällen ein NMS für die Problemanalyse nicht ausreicht. 51 % der Teilnehmer erklärten, dass sie gelegentlich oder in den meisten Fällen gezwungen sind, ihren Schreibtisch zu verlassen, um ein Problem zu beheben.

Um detailliertere Informationen zu erhalten, muss der Techniker kostenlose oder kommerzielle Datenpaketerfassungs- und Analysetools verwenden. Diese Tools sind im Alarmstadium nicht besonders hilfreich, da mit ihnen nur ein einziger Punkt im Netzwerk untersucht wird. Bei der Erforschung der Ursachenanalyse sind sie dagegen umso nützlicher. Datenpaket-Analysetools sind aufgrund der hohen Komplexität nur für qualifizierte und erfahrene Techniker geeignet. Die Verwendung ist sehr zeitaufwändig, da zu viele Daten das Ergebnis sein können – Millionen Pakete, die durchforstet werden müssen und über verschiedene Benutzeroberflächen angezeigt werden. Dies erschwert den Problembehandlungsprozess und kostet viel Zeit.


Wo sich Probleme im Netzwerk verbergen


Die Lücke zwischen diesen Tools – ein NMS ohne umfassende Informationen und komplexe Datenpaket-Erfassungstools – führt zu einer längeren durchschnittlichen Reparaturzeit. Unterschwellige, zeitweilig auftretende Probleme können sich im Netzwerk „verstecken“, die Produktivität herabsetzen und die Glaubwürdigkeit der IT-Abteilung in Mitleidenschaft ziehen.

Der Techniker benötigt End-to-End-Transparenz im Netzwerk, um Leistungsprobleme schnell untersuchen und lösen zu können: eine dedizierte Lösung für die automatisierte Netzwerk- und Applikationsanalyse, mit der die Lücke zwischen einem herkömmlichen NMS und der Datenpaketerfassung geschlossen wird.

Diese Lösung muss folgende Bereiche abdecken:
  • Nicht verwaltete Geräte, die möglicherweise aufgrund ihres geringeren Preises erworben wurden, jedoch teurer bei der Fehlersuche sind, da sie keine Transparenz des Zustands der einzelnen Netzwerksegmente bieten und die Auslastungsgrade nicht überwacht werden können. Bei einem verwalteten Switch dagegen kann der Netzwerkingenieur einfach zum Switch-Port gehen, sich den Fehler ansehen und sich einen Überblick über den Nutzungsgrad und den Abnehmer des Ports verschaffen.
  • Nicht dokumentierte Netzwerke, ein ständiges Problem, da häufige Änderungen am Netzwerk jede Dokumentation nur kurz nach der Fertigstellung veralten lassen. Die physische Nachverfolgung des Pfades braucht sehr viel Zeit, doch ohne eine genaue Dokumentation kann der Techniker nicht wissen, welche Pakete wohin übertragen werden. Es muss eine Möglichkeit geben, den Echtzeitpfad durch das Netzwerk zu verfolgen.
  • Zu viele Daten, wenn das Problem an nur wenigen Paketen liegen kann. Die Problemlösung wäre wesentlich schneller, wenn es eine automatisierte Methode zur Sichtung der erfassten Pakete gäbe, um die fehlerhaften Elemente zu ermitteln – eine applikationszentrierte Analyse, die nach dem Top-Down-Prinzip vorgeht.
  • Probleme in der Vergangenheit, die dem Techniker erst Stunden nach ihrem Auftreten gemeldet werden. Es wird eine Methode benötigt, in der Zeit zurückzugehen, indem große granulare Datenmengen über einen längeren Zeitraum (etwa 24 Stunden) erfasst und analysiert werden, um zeitweilig auftretende Probleme zu finden.
  • Neue Technologie, die nicht überwacht wird, z. B. 10-GB-Ethernet oder 802.11n-Wi-Fi. Viele Unternehmen haben nicht in ein Instrumentarium für diese Technologien investiert, da sie der Meinung sind, dass etwaige Probleme aufgrund des bedeutenden Kapazitätszuwachses nicht ernst genommen werden müssen.
  • Wi-Fi-Geräte – der Techniker muss Wi-Fi-Geräte (einschließlich BYOD) identifizieren und überwachen sowie durch Wi-Fi und andere Ursachen entstandene Störungen durch Bluetooth-Geräte, tragbare Telefone, Mikrowellen usw. mit einer Spektralanalyse finden können.
  • Probleme außerhalb des Netzwerks, damit der Techniker diese identifizieren und das Leistungsproblem samt den zugehörigen Nachweisen an andere IT-Teams oder externe Service Provider weiterreichen und diesen genügend Informationen zur Verfügung stellen kann, um eine weitere Untersuchung und schnelle Lösung zu ermöglichen.

Ein neuer Ansatz für die Problembehebung

Es wird eine ganzheitliche Netzwerk- und Applikationsleistungslösung benötigt, mit der alle Daten im Netzwerk erfasst und intelligente Analysen bereitgestellt werden, damit Techniker Grundursachen schneller isolieren oder aber nachweisen können, dass das eigentliche Problem außerhalb des Netzwerks liegt. Diese Lösung muss alle Informationen mit einer Granularität von bis zu einer Millisekunde sammeln, zusammenfassen, korrelieren und mitteln, u. a. auch den Datenfluss und SNMP-Daten sowie Informationen, die von anderen Geräten erfasst wurden. Daten sollten über ein einziges, vom Benutzer konfigurierbares Dashboard angezeigt werden, damit zielgerichtete Workflows angewendet werden können, um die Grundursache des Problems schnell zu isolieren. Da keine Vermutungen mehr angestellt werden müssen und der Benutzer einem logischen Prozess folgen kann, bis das Problem identifiziert und gelöst ist, wird die durchschnittliche Reparaturzeit verkürzt, und der Netztechniker arbeitet effektiver.

Eine Netzwerk- und Applikationsleistungslösung erleichtert sämtliche Phasen des Problembehandlungsprozesses und stellt die Transparenz bereit, die zur Unterstützung der Netzwerkoptimierung erforderlich ist.


SCHRITT EINS: ÜBERWACHEN/WARNEN

Die erste Voraussetzung für die Behandlung und Lösung von Netzwerkproblemen ist ein System, das einen zeitnahen Alarm auslöst, wenn ein Problem auftritt. Im schlimmsten Fall erfährt der Techniker durch den Anruf eines Benutzers von einem Problem und befindet sich damit bereits in einer schlechten Ausgangsposition. Viele Alarme von Netzwerkmanagementtools müssen für jedes Netzwerk manuell konfiguriert werden, indem das System dazu aufgefordert wird, an alle Geräte in jeder Broadcast-Domäne ein Ping-Signal zu senden oder diese zu ermitteln. Mit einer stets aktiven Netzwerk- und Applikationsleistungslösung jedoch sind eine automatisierte Ermittlung und zielgerichtete Workflows möglich, mit denen die verbundenen Komponenten schnell und einfach sofort angezeigt werden können. Damit reduziert sich die erforderliche Zeit für die Einrichtung und Überwachung erheblich.

Leistungsdaten werden kontinuierlich erfasst, in einer Datenbank gespeichert und über eine GUI auf einem Leistungs-Dashboard angezeigt, das der Benutzer entsprechend seinen Anforderungen konfigurieren kann. Die Leistung wird im Vergleich mit einem benutzerdefinierten Referenzwert (z. B. dem SLA) überwacht. Alle Werte außerhalb des zulässigen Bereichs werden umgehend als Alarm angezeigt. Der Benutzer kann das Problem daraufhin in verschiedenen Detailstufen anzeigen, wenn er mit der Untersuchung beginnt.

Netzwerk- und Applikationsleistungssysteme können auch in vorhandene Netzwerkmanagementsysteme wie HP OpenView oder Tivoli Netcool integriert werden und Informationen und Alarme an Serviceverwaltungs- und operationale Dashboard-Lösungen weitergeben.


SCHRITT ZWEI: UNTERSUCHEN

Der Netzwerkingenieur muss nun den Umfang des Problems ermitteln. Um eine schnelle und genaue Untersuchung zu erleichtern, muss die Lösung alle relevanten Daten (z. B. SNMP, Datenströme, Pakete, Endbenutzer-Antwortzeiten usw.) sammeln und für die zukünftige Analyse speichern. Eine Netzwerk- und Applikationsleistungslösung stellt auch eine Echtzeitmethode zur Verfügung, mit der der Pfad vom Client zum Service oder zur Applikation erkannt und so die aufgewendete Zeit erheblich verkürzt werden kann. Der Pfad zwischen den zwei Geräten kann dann gefunden und im Hinblick auf Probleme in internen Netzwerken und den Geräten im Pfad überwacht werden. Die Ergebnisse werden grafisch dargestellt und erleichtern damit das Verständnis und eine schnelle Ursachenanalyse.

Eine optimale Effektivität wird erreicht, wenn das System Schnittstellen mit 1-Gbit/s- und 10-Gbit/s-Anbindung bereitstellt und Daten in der Leitung mit Übertragungsgeschwindigkeit erfassen kann. Einige Lösungen können einen Pfad von einem Client zu einem Server durch das Netzwerk nachverfolgen, Layer-2- und Layer-3-Geräte im Pfad identifizieren und die nötige Detailtiefe bereitstellen, um die Ursache des Problems zu erkennen.

Wenn sich das Problem auf einen Client oder eine Gruppe von Clients bezieht, muss der Techniker einen Test der Leistung oder Antwortzeit von Applikationen ausführen und auf diesem Wege feststellen, ob es sich um ein Problem mit dem drahtgebundenen Netzwerk oder WLAN handelt. Durch die Integration von drahtgebundenen und WLAN-Tools in eine Benutzeroberfläche ermöglicht das Netzwerk- und Applikationssystem einen einzigen Test, mit dem die Ursache des Problems gefunden werden kann.

Im Rahmen dieses Prozesses können auch Malware-Infektionen identifiziert werden (u. a. die Quell-IP-Adresse), sodass der Techniker die Grundursachen von Ausfallzeiten ermitteln kann – eine Funktion, die andere Tools nicht haben.


SCHRITT DREI: ISOLIEREN

An dieser Stelle wurde das Problem auf ein einziges Netzwerksegment, einen Switch, Router oder Server oder eine Applikation isoliert. Pfad, Geräte und Ports im Pfad wurden identifiziert. Nun muss der Pfad analysiert werden. Dazu sind Datenverkehrsstatistiken für jede Verkabelungsstrecke erforderlich, um zu bestimmen, ob das Problem durch ein fehlerhaftes Gerät, Verbindungsmedien, Störungen oder eine Datenverkehrsüberlastung verursacht wird.

Einer der wesentlichen Vorteile von SNMP (Simple Network Management Protocol) besteht in der Möglichkeit, fehlerhafte Domänen aufzuspüren. Mit SNMP kann eine Abfrage an jedem Verbindungspunkt entlang des Weges eine Antwort auf die Frage geben, ob ein Engpass im Netz für die Verlangsamung verantwortlich ist. Dies ist relativ einfach, wenn die Geräte im Pfad verwaltet werden und der Techniker über die Kennwörter oder Community-Strings verfügt, um die Geräte abzufragen. Andernfalls muss er ein Tool mit jeder Verkabelungsstrecke verbinden, ohne das Netzwerk zu stören, und auf diese Weise die Pakete und Datenverkehrsstatistiken anzeigen. Das kann sehr viel Zeit kosten, wenn eine große Zahl von Verkabelungsstrecken über ein großes geografisches Gebiet verteilt ist. Möglicherweise werden für verschiedene Orte auch mehrere Tools benötigt.

Mit einer automatisierten Statusprüfung der Netzwerkinfrastruktur über ein Netzwerk- und Applikationsleistungstool können alle Geräte mit SNMP-Unterstützung überwacht werden, wobei die Applikationsdatenflüsse der Geräte untersucht werden, die einen Datenpaketverlust oder eine hohe Auslastung verzeichnen. Dazu werden die SNMP-MIBs auf den Routern abgefragt und in regelmäßigen Abständen gemeldet. Dieser Prozess ist schnell und einfach, völlig unabhängig davon, ob es nur zehn oder mehrere Hundert Switches im Netzwerk gibt.

Einige Probleme sind nur dort erkennbar, wo das Problem entstanden ist. In diesem Fall wird ein tragbares Paket mit den richtigen Testfunktionen und der richtigen Schnittstelle für die Verbindung mit der problematischen Stelle benötigt, sei es vor einem Client oder einem 10-G-Link in einem Rechenzentrum. Da viele Personen nicht vor Ort arbeiten, ist ein Tool mit dieser Transparenz unabdingbar und wird mit der Zunahme von BYOD nur noch wichtiger.

Ein tragbares Prüfgerät kann auch an entfernte Standorte geschickt werden, um zu sehen, was mit den nicht verwalteten Geräten im Netzwerk geschieht, und zwar ohne dass ein Techniker vor Ort sein muss. Idealerweise sollte es damit möglich sein, eine Pfadanalyse auszuführen, den Zustand der Applikationsinfrastruktur und Applikationsdatenflüsse zu ermitteln und die WLAN-Leistung zu analysieren sowie Roaming- und Neuversuch-Funktionen zu prüfen und Störungen durch andere Geräte zu untersuchen.

Wenn es keine überlasteten Verkabelungsstrecken oder Framefehler gibt, ist das Problem wahrscheinlich nicht auf das Netzwerk zurückzuführen. Dies kann jedoch nur als sicher angenommen werden, wenn der Techniker die Verkabelungsstrecken in einem angemessenen Zeitraum analysiert hat und das Problem, das behoben werden soll, immer noch besteht. Dazu werden die vom Netzwerk- und Applikationsleistungssystem erfassten Verlaufsdaten benötigt.


SCHRITT VIER: URSACHENANALYSE UND PROBLEMLÖSUNG

An diesem Punkt stellt der Techniker die Ursache des Problems zweifelsfrei fest, entwickelt und implementiert eine Lösung und prüft diese. Wenn sich das Problem nicht auf das Netzwerk bezieht und nicht mit der Serverantwortzeit zusammenhängt oder durch überlastete Ressourcen zustande kommt, sind detailliertere Informationen durch die Erfassung und Analyse von Paketen erforderlich. Es ist wichtig, zuvor die Verkabelungsstrecke isoliert oder das Problem zwischen Server, Netzwerk und Applikation ermittelt zu haben, da die Paketanalyse extrem zeitraubend sein kann und viel Fachwissen und Erfahrung voraussetzt.

Um die Grundursache schneller zu ermitteln, empfiehlt es sich, die Analyse mit einem Top-Down-Ansatz anzugehen und auf Applikationsebene zu beginnen. Wenn etwa der Pfad richtig ist, die Antwortzeit jedoch sehr schlecht, kann das Problem von einem virtualisierten Server, einer auf mehreren Tiern ausgeführten Applikation oder einem Fehler in der Applikation verursacht werden.

Es besteht u. a. die Option, ein Paketanalyseprogramm einzusetzen, mit dem die Diagramme der Anwendungsebene und Paketleiter einfach angezeigt werden können. Span- oder Mirrored-Abzweigungsverbindungen können einfach konfiguriert werden, bei hoher Datenverkehrslast können jedoch Pakete verloren gehen, und Layer-1-Fehler werden nicht angezeigt, da diese vom Layer-2-Switch, der den Span bereitstellt, blockiert werden. Passive Abzweigungen funktionieren am besten, aber beim Anschluss reißt die Verbindung ab, sodass die von dieser Verkabelungsstrecke bereitgestellten Services für den Benutzer unterbrochen werden. Eine Leistungsbeeinträchtigung stellt normalerweise kein Problem dar, sie kann sich jedoch auf Benutzer auswirken, die über diese Verkabelungsstrecke eine Verbindung mit anderen Services herstellen möchten.

Es ist empfehlenswerter, das Netzwerk aus Abzweigungen aufzubauen, die sich bereits an strategischen Stellen vor Serverfarmen, Rechenzentren, Routern zu externen Verbindungen sowie im Kern des Netzwerks befinden. So können die Daten erfasst werden, ohne den Netzwerkbetrieb zu unterbrechen. Wenn dies nicht möglich ist, muss der Techniker möglicherweise eine Span- oder Port-Spiegelung vornehmen. Dabei sind die damit verbundenen Probleme und Ungenauigkeiten zu berücksichtigen.

Eine Netzwerk- und Applikationsleistungslösung stellt eine automatisierte Methode bereit, um die erfassten Pakete zu analysieren und so die fehlerhaften Pakete zu finden. Sie stützt sich auf einen applikationszentrierten Ansatz mit einer GUI, über die jeder Datenfluss mit einem visuellen Indikator angezeigt wird, um auf Probleme hinzuweisen. Der Techniker klickt einfach auf diese detaillierte Anzeige, um anzuzeigen, welches Paket bzw. welche Pakete genau das Problem verursachen. Dies kann weitergeführt werden, indem Pakete an mehreren Punkten in der Infrastruktur erfasst werden, um festzustellen, wo das Problem besteht. Dazu muss eine Multi-Segment-Analyse durchgeführt werden, bei der die Datenerfassung an mehreren Punkten gleichzeitig angestoßen und die Ergebnisse danach zusammengeführt werden, um ein Gesamtbild zu erhalten.

Eine effektive Ursachenanalyse kann entweder im Datenzentrum oder an Remote-Standorten ausgeführt werden, um festzustellen, ob Probleme mit Servern oder Applikationen zusammenhängen. Einige Tools können Verwaltungsdaten von physischen oder virtuellen Servern abrufen, um Leistungs- oder Ressourcenprobleme aufzudecken.

Mithilfe der Erfassung und Analyse von detaillierten Verlaufsdaten kann der Techniker beim Netzwerk- und Applikationsleistungssystem auch zeitlich zurückgehen, um die Symptome zu prüfen, die zu Beginn des Problems aufgetreten sind. Auf diese Weise können zeitweilig auftretende Probleme gefunden und gelöst werden.


Netzwerkoptimierung

Dank Netzwerk- und Applikationsleistungslösungen verfügen Techniker über die erforderliche Transparenz, um den Zustand des Unternehmensnetzwerks dokumentieren und prüfen zu können. Sie können damit eine niedrige Leistung erkennen und sehen, wo die Pfade von Applikationen oder Servern langsam ausgeführt werden, sodass sie sich um die langsamsten und wichtigsten Pfade kümmern können. Mit den erhaltenen Informationen ist es möglich, die Priorität von Projekten festzulegen (z. B. Serverupgrades) und die Genehmigung mit betriebswirtschaftlichen Argumenten zu belegen. Die Daten können außerdem für die Installation neuer Geräte und Applikationen zugrunde gelegt werden, indem nachgewiesen wird, dass bereits durchgeführte Arbeiten sich positiv auswirken, und sichergestellt wird, dass es nicht an anderer Stelle zu negativen Auswirkungen auf die Leistung kommt. Mit den Daten kann außerdem der Einfluss von Änderungen auf das Netzwerk belegt werden, etwa Virtualisierung, WAN-Optimierung oder Rechenzentrumskonsolidierung.



Über NETSCOUT

NETSCOUT SYSTEMS, INC. (NASDAQ: NTCT) ist ein führender Anbieter von Echtzeit-Servicegarantie- und Internetsicherheitslösungen für die anspruchsvollsten Service Provider-, Unternehmens- und Behördennetzwerke von heute. Die Adaptive Service Intelligence (ASI) Technologie überwacht die Service-Lieferungsumgebung kontinuierlich, um Performance-Probleme zu identifizieren, und gewährt Einblick in netzwerkbasierte Sicherheitsbedrohungen, was den IT-Teams hilft, Probleme schnell zu beheben, die zu Störungen der Geschäftsabläufe führen oder die Endbenutzerperspektive beeinträchtigen können. NETSCOUT liefert unübertroffene Service-Transparenz und schützt die digitale Infrastruktur, die unsere vernetzte Welt unterstützt.
 
 
Powered By OneLink