P:
Jak firmy maksymalizują czas pracy?
ZA:Utrzymanie usług IT jest oczywiście ważne. Producenci systemów zastanowili się nad tym tematem. Niektóre krytyczne komputery finansowe działają nieprzerwanie od lat. W Internecie jest historia o komputerze Novell Netware 3, który został ostatecznie zamknięty po 16 latach. Biorąc pod uwagę czas pracy sieci, standardem jest „Five 9s”, czyli dostępność na poziomie 99, 999%. Osiągnięcie maksymalnego czasu sprawności jest ważnym czynnikiem w każdej ofercie usług IT.
Jak osiągnąć maksymalny czas pracy? Kluczem jest dobre zarządzanie. Międzynarodowa Organizacja Normalizacyjna (ISO) stworzyła strukturę zarządzania siecią o nazwie FCAPS, która oznacza:
- Zarządzanie awariami
- Zarządzanie konfiguracją
- Zarządzanie rachunkowością
- Zarządzanie wydajnością
- Zarządzanie bezpieczeństwem
Problemy z poszczególnymi komponentami sieci są rozwiązywane zarówno proaktywnie, jak i reaktywnie przy użyciu tego modelu. Usterki są monitorowane za pomocą alarmów i powiadomień o zdarzeniach. Są one gromadzone przez agentów protokołów, takich jak SNMP (protokół zarządzania siecią systemową) lub niektóre inne zastrzeżone rozwiązania. Konfigurowalne progi mogą wyzwalać alarmy, a nawet automatycznie generować bilety, które trafiają do kolejki personelu monitorującego w centrach danych. Duże sieci operatorów mogą mieć oddzielne działy zajmujące się rdzeniem, dystrybucją lub warstwami dostępu do sieci. Analiza przyczyn źródłowych próbuje wyodrębnić i zdefiniować problemy krytyczne po dużym wydarzeniu.
Podobne procesy są wykorzystywane do zarządzania systemem. Dostawcy usług internetowych (ISP) i zarządzane centra hostingowe zatrudniają administratorów systemów do monitorowania i zarządzania rentownością serwerów, systemów pamięci masowej lub innych urządzeń. Na przykład poszczególne procesy na komputerach z systemem Windows lub Linux można wyświetlać i kontrolować za pomocą programów do zarządzania graficznym interfejsem użytkownika (GUI) w taki sam sposób, jak protokoły sieciowe.
Zdalny nadzór i konfiguracja komponentów i systemów sieciowych zapewniają możliwość działania w czasie rzeczywistym w celu maksymalizacji czasu pracy systemu. Obejmuje to zmiany konfiguracji, zbieranie kluczowych wskaźników wydajności lub wdrażanie ulepszeń bezpieczeństwa.
Jednym ze sposobów na sprawdzenie dostępności i niezawodności dowolnego systemu jest model, który IBM nazwał RAS: niezawodność, dostępność i łatwość serwisowania. Aby zapewnić RAS, opracowano wiele metod. Należą do nich redundancja, tworzenie kopii zapasowych danych, zasilacz bezprzerwowy (UPS), komponenty wymienialne podczas pracy i automatyczne aktualizacje. Planowane zmiany i okna konserwacji oferują możliwość poprawienia lub poprawy znanych problemów bez zakłócania spokoju użytkownika.
W końcu systemy i sieci ulegną awarii. Redundancja jest jednym z kluczy do odporności systemu. Może to dotyczyć sprzętu, oprogramowania lub danych. Osoby odpowiedzialne za zapewnienie niezawodności w sieci lub systemie oprogramowania będą szukać czegoś, co można uznać za pojedynczy punkt awarii (SPOF). Czy cała sieć przepływa przez pojedynczy przełącznik lub kabel? Czy wszystkie procesy odbywają się na samotnym serwerze? Czy istnieje tylko jedna kopia krytycznego zestawu danych? Bez redundancji firma może - w jednej chwili - stracić to, czego rozwój mógł zająć lata.
Maksymalizacja czasu pracy bez przestojów jest przedsięwzięciem „ponad wszystko”. Najlepsze praktyki zostały opracowane przez dziesięciolecia doświadczenia i współpracy. Stale wdrażane są nowe rozwiązania, takie jak samoleczące się sieci, wirtualizacja, analiza danych i ulepszona architektura. Żadna pojedyncza metoda nie rozwiąże wszystkich problemów pojawiających się w złożonych systemach. Każda firma stara się jak najlepiej wykorzystać swoje zasoby IT tak skutecznie, jak to możliwe, w ciągu cyklu życia sprzętu, który jest do dyspozycji.
