Continuiamo il nostro approfondimento sulle strategie alla base di un approccio disciplinato a DevOps, andando a vedere quelle che riguardano Operations, orientate chiaramente agli aspetti di delivery e di continuità operativa.
Troviamo quindi:
- Solution monitoring: le soluzioni di monitoring consentono di avere una visione chiara di ciò che accade nei propri ambienti di erogazione, da un punto di vista dell’infrastruttura, del software di base e, chiaramente, della specifica soluzione. Mentre le prime due tipologie possono contare su soluzioni di terze parti, rodate e note, il monitoring della propria soluzione richiede una specifica “instrumentation” da attivare in accordo con il team di development, come evidenziato nel precedente post tra le “operations-friendly feature”;
- Standard platforms: la creazione di ambienti standard, attivabili tramite l’automatizzazione delle funzionalità di provisioning, rendono l’intera infrastruttura a supporto delle soluzioni più efficace e manutenibile. Basti pensare agli innumerevoli vantaggi di avere un numero minimo di ambienti eterogenei, così come un ampio allineamento dei software di base (sistemi operativi, database, ecc) permette di effettuare modifiche architetturali con azioni di verifica degli impatti decisamente ridotte;
- Deployment testing: si tratta del set minimale di test (spesso noto anche come smoke-test) utile a verificare velocemente se l’operazione di deployment è andata a buon fine: un tipico esempio è il test di connessione al corretto DB di produzione;
- Automated deployment: l’obiettivo del deployment automatizzato deve essere quello a cui ogni divisione IT deve tendere. Ciò porta alla rimozione dei problemi dovuti alle azioni manuali (configurazioni in particolare) e consente di predisporre meccanismi di self-recovery se qualcosa non è andato a buon fine;
- Operations intelligence: si tratta di un sub-set dell’IT intelligence (si veda Data Management Strategies), focalizzato sugli aspetti di operation. In pratica, grazie a Dashboard popolate dai diversi tool utilizzati, è possibile avere un quadro di cosa avviene nella propria infrastruttura e correlarli con i dati generali aziendali.
A questo primo set di strategie, si associano le strategie dedicate alla Disaster Mitigation utili per intervenire prontamente in caso di problemi gravi e relativo blocco dei sistemi:
- Disaster planning: si tratta di creare un vero e proprio piano di Disaster Recovery e Business Continuity da utilizzare in caso di problemi gravi come: server rotti, problemi permanenti di networking, disastri naturali, ecc. L’obiettivo è quello di mitigare quanto più possibile i problemi afferenti, attraverso azioni come la duplicazione dei sistemi primari in cloud, in modo da garantire almeno i servizi essenziali in caso il proprio CED sia compromesso;
- ·Scheduled disaster simulation<>: è una strategia di test e verifica del proprio piando di Disaster Recovery. Si pensi, ad esempio, al test dei sistemi ausiliari di energia, la cui attivazione viene provocata da una voluta interruzione della fornitura elettrica primaria. Queste azioni ricordano un po’ le classiche prove anti incendio e andrebbero eseguite con cadenza regolare, in modo da avere feedback aggiornati, anche sul comportamento degli utenti. Chiaramente l’ideale sarebbe quello di non informare quest’ultimi, visto che potrebbero comportarsi in modo “non naturale” essendo a conoscenza che si tratta solo di un test;
- ·Random disaster simulation<>: si tratta di generare problemi causali agli ambienti di erogazione e verificare come l’organizzazione risponde ad essi. Un esempio è il servizio Chaos Monkey di Amazon AWS pensata proprio per questo scopo.
Un contesto Disciplined DevOps contempla l’adozione di tutte queste strategie, in modo da migliorare la qualità dei servizi offerti grazie ad un feedback rapito e costate ottenuto direttamente dai sistemi in produzione.
Stay tuned!