Het klinkt iedere it-manager als muziek in de oren: een cloud-infrastructuur die dusdanig geautomatiseerd is dat men er vanuit beheerdersperspectief geen omkijken meer naar heeft. Een no-ops-omgeving herstelt, groeit en schaalt tenslotte volledig automatisch op basis van wat er van een infrastructuur gevraagd wordt. Een ideale situatie, of toch niet? No-ops is een nobel streven, maar in praktijk blijkt het een illusie.
De eerlijkheid gebiedt te zeggen dat een it-omgeving die weinig flexibiliteit vraagt, goed zou gedijen bij een no-ops-aanpak. De realiteit is echter dat cloud-omgevingen gebouwd zijn om flexibel te reageren op vraag en aanbod. Op dit moment verandert de it-wereld bijna dagelijks, waarbij de focus steeds meer op online (verkoop)kanalen ligt en de druk op deze kanalen verder toeneemt. Nieuwe technologieën komen op, klantpatronen veranderen, en ook de vragen vanuit de business veranderen.
Organisaties zullen continu moeten kijken of hun cloud-omgeving, en de automatisering binnen deze omgeving, accuraat en actueel is. No-ops kan een start zijn, maar het is geen eindpunt. Organisaties moeten blijven kijken of hun omgeving nog in lijn is met het originele ontwerp en of de eerder gedefinieerde key performance metrics nog relevant zijn.
Niet altijd gewenste resultaat
Een voorbeeld illustreert waarom een volledig geautomatiseerde cloud-omgeving niet altijd het gewenste resultaat oplevert. Stel, een organisatie heeft bepaald dat de latency van een applicatie stabiel moet zijn op gemiddeld 200 ms per verzoek, ongeacht het aantal gebruikers. Het aantal servers dat nodig is om de stabiele latency te garanderen, is afhankelijk van het aantal gebruikers en wordt automatisch op- of afgeschaald. Wanneer de latency stabiel is, kan worden aangenomen dat het schalen van de servers naar behoren functioneert. Ondertussen kan het echter zo zijn dat er in een bepaalde maand slechts één server draait, terwijl dat er in de maanden daarvoor gemiddeld tien waren. Dat kan duiden op een aanzienlijke daling van het aantal gebruikers van de applicatie. Mogelijk gaat er dus ergens anders iets mis. Maar omdat in dit geval alleen naar de latency – een vooraf gedefinieerde key performance metric – is gekeken, wordt een aanzienlijke daling van het aantal gebruikers van de applicatie over het hoofd gezien.
Dit voorbeeld laat zien dat organisaties no-ops als leidraad kunnen nemen voor het automatiseren van hun it-operatie, maar het mag nooit het einddoel zijn. Zodra no-ops bereikt is, begint het werk pas. Het is van groot belang dat continu gekeken wordt wat er verbeterd kan worden. Op het moment dat beheer uitgevoerd moet worden, is het belangrijk ervoor te zorgen dat het probleem zich niet nog een keer voordoet, maar automatisch wordt opgelost. Op deze manier creëert een organisatie een betere en krachtigere omgeving, maar blijft staan dat een omgeving nooit ‘af’ is.
Handmatig werk blijft
Door het uitvoeren van onderhoud en het blijven verbeteren van fouten, kunnen unplanned operations tot een minimum worden beperkt. De tijd die een organisatie hiermee bespaart op regulier onderhoud van de cloud-omgeving kan worden geïnvesteerd in het verbeteren van een platform of applicatie. Terugkomend op het voorbeeld hierboven: als de organisatie de ‘gewonnen’ tijd had geïnvesteerd in het optimaliseren van de omgeving, hadden ze kunnen zien dat alle metrics op groen stonden, maar tegelijkertijd hadden ze gezien dat de grafiek van het aantal servers of gebruikers een dalende lijn vertoonde. Door eens per maand handmatig door alle metrics te lopen, en verder te kijken dan alleen de key performance metrics, hadden in dit geval de problemen voorkomen kunnen worden.
Wanneer zich binnen een no-ops-omgeving problemen voordoen, is het belangrijk om te kijken hoe het de volgende keer automatisch kan worden opgelost. Op deze manier wordt kostbare beheertijd bespaard. Veel organisaties benutten de vrijgemaakte tijd echter onvoldoende en missen zo de mogelijkheid om hun cloud-omgeving te optimaliseren en aan te passen aan veranderende omstandigheden.
Valkuil
Een valkuil van no-ops is dat organisaties alleen kijken naar de gezondheid van de it-omgeving, en hierbij de metrics vanuit de business uit het oog verliezen. Zo kan het zijn dat het aantal bezoekers van een website gelijk blijft, maar de omzet van een website daalt. Het is daarom zaak dat organisaties verder kijken dan alleen de it-metrics. Ook de doelstellingen vanuit de business en het functioneren van andere systemen binnen de keten moeten in de gaten gehouden worden. Het draait niet alleen om de performance van een applicatie, maar ook de eindgebruikerservaring verdient de nodige aandacht bij het optimaliseren van de cloud-omgeving.
Het streven naar no-ops is een mooie ambitie, maar in de praktijk blijkt dat een omgeving nooit af is. De belangrijkste opdracht is dan ook om binnen de geautomatiseerde omgeving continu verbeteringen door te voeren op basis van veranderende omstandigheden. Maar de vraag is: kunnen we dan nog spreken van no-ops? Nee, in de strikte zin van het woord niet. Het blijkt een illusie.
Luc van Donkersgoed, senior cloud systems consultant & AWS APN ambassador bij Sentia