En 2011, Netflix crée un programme informatique qui sélectionne aléatoirement l’un de ses serveurs et provoque des pannes inopinées pendant ses heures d’activités réelles : le Chaos Monkey.
Pour cette entreprise multinationale, il ne s’agit plus de craindre les pannes survenues au hasard et qui sont en réalité inévitables, mais plutôt de s’y préparer le mieux possible. Par conséquent, elle a mis à rude épreuve la solidité de ses infrastructures technologiques…
Vers une ingénierie du chaos ?
Initié par Netflix, le « Chaos Engineering » ou l’« Ingénierie du Chaos » est une pratique expérimentale qui vise à tester la résilience des infrastructures technologiques d’une entreprise face aux turbulences de tous types : erreurs humaines, attaques informatiques, intempéries, etc.
Pour ce faire, la société a développé la Simian Army, une suite d’outils qui incluent Chaos Monkey. Ce dernier génère volontairement des pannes au hasard sur une ou plusieurs pièces des infrastructures technologiques. L’objectif est qu’elles puissent surmonter les multiples défaillances et continuer à fonctionner (de façon optimale ou non) afin d’assurer la continuité des services aux utilisateurs.
Ainsi, les principaux objectifs sont les suivants : d’une part, les pannes (causées ou non par Chaos Monkey) ne doivent pas perturber l’Expérience Utilisateur de millions d’internautes. D’autre part, la réputation de l’entreprise ne doit pas être entachée dans tous les cas. Enfin, les évènements ne doivent pas causer d’impacts financiers négatifs à l’entreprise.
Les étapes de l’expérimentation
Tout d’abord, il est essentiel pour les entreprises de déterminer les objectifs à atteindre grâce à cette expérimentation. Aussi, elles doivent émettre des hypothèses sur les réactions éventuelles du système et anticiper les divers effets.
Ensuite, elles doivent restreindre leur périmètre d’action afin de ne pas détruire complètement leurs infrastructures technologiques. Leur exploitant doit être informé au préalable.
Dès lors, elles peuvent commencer à injecter le chaos. Une fois l’expérimentation lancée, les équipes d’ingénieurs doivent analyser tous les impacts survenus lors des turbulences.
L’expérience doit être pratiquée régulièrement afin d’améliorer constamment la qualité des services.
💡 Face aux multiples catastrophes naturelles survenues dans la côte Est des Etats-Unis, Facebook a décidé à son tour de lancer le « Storm Project ». Le programme simule des pannes massives dans ses datacenters.
💡 En France, la SNCF a expérimenté le Chaos Monkey en 2017. Finalement, elle a mis en place le « Day of Chaos » pour ancrer cette pratique dans la culture de l’entreprise.
Contacter le Master ICONES, Master de communication numérique (NTIC) en alternance à Nice
Vous êtes étudiant.e et souhaitez réaliser un master de communication numérique (NTIC) en alternance à Nice ou obtenir des informations complémentaires à propos du diplôme ?
ou
Vous souhaitez recruter un.e étudiant.e du Master ICONES, Master en apprentissage spécialisé dans la communication numérique (NTIC) à Nice ?