Pour une gestion organique des données sensibles à l'abri des crises

Rappel de la définition d’une crise

Pour Platon, « ce ne sont pas les murs mais les Hommes qui font les remparts de la Cité ». Il résume ainsi qu’une situation est caractérisée de crise car elle entraine un changement radical de contexte qui remet en cause les objectifs prioritaires. Elle intervient dans un temps court, et elle est accompagné d’un effet de surprise, d’un côté inattendu et non anticipé (définition par Herman en 1963 sous un angle événementiel).

En temps de crise, les décisions à prendre sont capitales, et la communication revêt une importance toute particulière.

Arjen Boin et Patrick Lagadec, dans leur manifeste « Building Crisis Management Capacity in Europe: A manifest for action (2005) ([Lien]) » font le constat - suite au Tsunami de fin 2004 - que les gouvernements sont mal préparés face aux menaces et crises, plus particulièrement lorsqu’elles sortent du cadre. Et elles entrainent souvent une forme de paralysie des dirigeants dans leur action et le traitement de la crise.

Selon eux, les conséquences d’une crise ont des caractéristiques communes : en effet, l’état d’avant-crise ne sera jamais retrouvé dans la situation après crise, signifiant que le changement provoqué par la crise est irréversible. Par suite de conséquence les procédures doivent être repensées dans leur globalité, les remèdes anciens n'étant plus applicables et devant être réinventés.

Par analogie, que signifie la perte de données pour une organisation ?

Tout le monde comprend que certaines données sont plus sensibles que d’autres. Perdre les plans du porte avion Charles de Gaulle n’est pas la même chose que perdre la recette de tarte à la rhubarbe de sa grand-mère, même si on y tient beaucoup.

Étant un sujet complexe, plusieurs entreprises proposent des solutions dédiées afin d'aider les organisations à stocker et protéger leurs données.

Pour cela il faut comprendre que les entreprises spécialisées dans le stockage de données (clouds publics ou privés) proposent des solutions réputées fiables avec des taux de pannes de l'ordre de "10 puissance moins 12", ce qui commercialement parlant est déjà très convaincant ! Pour vous donner un ordre d'idée, cela signifie que vous avez 1 000 fois plus de chances de gagner le jackpot de l'Euromillion que de perdre des données.

Oui, mais : Quelles sont les hypothèses prises en compte dans ce calcul de fiabilité ? S'agit-il de données techniques uniquement ?

L'exemple de la pandémie due au COVID19 permet d’illustrer que le facteur humain amène parfois à minimiser les risques sous l’hypothèse de sa faible probabilité, ou l’expérience d'une crise passée résolue (épidémie de SRAS de 2008). Conséquence, notre évaluation du risque est foncièrement biaisée et l'impact de l'évènement redouté est ignoré.

Que se passe-t-il si ces données sensibles sont tout de même perdues ? Quel est le coût (humain, économique, écologique, organisationnel) de cette perte ?

Qu’importe le taux de défaillance, quel est l’impact ?

Nassim Nicholas Taleb, essayiste spécialisé en épistémologie des probabilités et praticien en mathématiques financières, décrit ce phénomène de façon très détaillé dans ses livres (Le cygne noir : La puissance de l'imprévisible, 2010, et Antifragile : Les bienfaits du désordre, 2013).

Il souligne que l’important n’est pas la probabilité de tel ou tel évènement et encore moins les moyens parfois disproportionnés déployés dans les organisations à anticiper les scénarios ou la rentabilité future d’une opération. Ce qui compte par-dessus tout c'est bien la compréhension des impacts de l’événement.

Autrement dit, le taux de défaillance peut nous rassurer faussement car ce qui compte c'est l'impact.

En poursuivant le raisonnement, l'impact d'une perte de données hébergée chez un spécialiste est asymétrique :

Le fournisseur s'engage - comme décrit de façons détaillées dans ses conditions générales de ventes - en petites lignes - à rembourser une partie du coût du service.

Il n'est pas prévu de pénalités ou d'assurance sur la perte d’exploitation engendrée. Ainsi quelle que soit la nature des données, elles seront perdues et votre responsabilité est engagée quant à l'existence de sauvegardes.

Il ne reste plus qu'à évaluer les conséquences (humaines, financières, ...) sur votre organisation...

Finalement à quelques euros par mois et par tera-octet de données, le risque pris par le fournisseur est ainsi dire inexistant : garantir le service avec un taux de défaillance à 10 puissance moins 12 n'est finalement pas compliqué car il s’agit d’un prix d’appel commercial limité au montant de sa prestation. En d’autres termes, dans le pire des scénarios, le fournisseur remboursera 50% de la dernière facture, sans commune mesure avec la valeur des données perdues.

La valeur des données modifie la stratégie des moyens mis en oeuvre pour leur stockage et leur exploitation

Dans le secteur des media, les données sont critiques, il s’agit d'un actif stratégique. On imagine mal Claude Lelouch perdre la bobine 35mm du film "Un homme et une femme".

Une façon de voir ses données c'est de les catégoriser comme un actif ou un passif au sens comptable :

est-ce un actif ? c'est à dire, doit-on espérer des flux financiers positifs du fait de l'exploitation de ces données ?
est-ce un passif ? c’est-à-dire un élément ne pouvant générer que des charges et aucun gains ?
En ce sens, une production télévisuelle ou musicale ne revêt pas la même valeur intrinsèque que des données comptables par exemples :

Les données comptables peuvent donner lieu à l'identification d'économies à réaliser mais à elles-seules ne génèrent pas de bénéfices. La perte de ces données se traduira par des travaux supplémentaires pour les reconstituer plus ou moins manuellement - donc des coûts supplémentaires
La perte de données d'une production télévisuelle se traduit, elle, par une perte directe d'actifs et un manque à gagner sur flux financiers futurs

Il existe bien entendu des assurances spécialisées dans l'immatériel - et les assureurs étant des gens prudents seront tout à fait en mesure d’indexer les primes payées par le client sur la valeur intrinsèque des actifs.

Certains iront auditer les fournisseurs de solutions de stockage et la sécurité afin de moduler les primes d'assurances. Mais il s’agit là toujours de notre réflexe à vouloir maîtriser le risque et à croire que le taux de défaillance nous sauvera du sinistre potentiel. Une partie du risque sera transféré et couvert, mais à quelles conditions ?

Nous sommes persuadés qu’il faut se concentrer sur les moyens de résilience.

Peut-on organiser soi-même une stratégie de conservation des données qui soit à la fois robuste et sous le contrôle de l'entreprise ? Quelle est le rôle de l’informatique et de la technique dans tout ça ? Et disposons-nous de la bonne gouvernance ?

L’enjeu pour l’organisation : exploiter et protéger dans un budget contraint

Revenons au cœur du sujet : comment exploiter simplement d'énormes quantités de données et les mettre à disposition du business tout en les protégeant contre le vol et la perte (ou la corruption).

Si l'on réduit à l'essentiel les besoins techniques : Il est nécessaire de garantir la confidentialité, l’intégrité et l'accessibilité des données dans le temps.

Il convient d'éviter de tomber dans le piège du calcul du taux de défaillance et de passer des semaines voire des mois à peaufiner des matrices de risques et des plans de contingence : les crises ne se ressemblent pas.

Imaginons au contraire, quelles sont les caractéristiques souhaitables, voire indispensables d'un système technique dédié au stockage et à l'exploitation de données qui répondraient de façon satisfaisante aux besoins d'accessibilité et de confidentialité. Et ne nous reposons pas non plus sur des vendeurs de solutions magiques.

Si nous faisons une analogie et que nous regardons de plus près comment dame Nature gère l’information contenue dans les cellules et les spécialise selon l'ADN, force est de constater que le support de stockage est très fragile : oui, nos chromosomes. La stratégie que la Nature a choisie consiste à multiplier et à disséminer massivement l'information afin d'en assurer sa pérennité. Le risque réside alors dans une corruption de l'ADN, avec pour conséquence, soit la destruction de la cellule impactée, soit la perte de l'individu (ex. radiations d’une composante selon Darwin, mutations non contrôlées, ...).

Concernant la confidentialité, nous constatons que le code ADN est encore très difficile de déchiffrer. Les données du vivant sont devant nous, en clair, et nous cherchons encore à comprendre le code de l’ADN. L'information est codée de telle façon à ce que nous ne pouvons pas la comprendre instantanément. Seul le temps (beaucoup de temps) et la stabilité de l'information peut nous amener à comprendre une information codée.

Notre vision du stockage : duplication, dissémination, chiffrement

Les caractéristiques que nous cherchons dans un système de stockage robuste sont :

la simplicité : ce qui est complexe est fragile, évitons la complexité qui n'a pas lieu d'être
la capacité de duplication et de dissémination : idéalement infinie et uniquement limitée par le budget
la capacité à reconnaitre les corruptions et les éliminer : idéalement les réparer, sinon les éliminer
la capacité à coder l'information de façon inintelligible pour un tiers non autorisé : idéalement la capacité à changer régulièrement le codage avant qu'il ne puisse être décodé

Si l'on traduit ces caractéristiques "naturelles" avec les technologies actuelles cela donnerait l'interprétation suivante :

Duplication & dissémination : Le système doit pouvoir stocker les données sur le plus de supports et de technologies possibles : on-premise, multi-cloud, PC standards, etc.
Reconnaissance et élimination des corruptions : Le système doit pouvoir identifier et qualifier toutes les modifications affectant les données, ceci sur toutes les copies
Codage & confidentialité : Le système doit stocker les données de façon chiffrées tout en garantissant que les clefs changent régulièrement et soient sous le contrôle de l'organisation

Ces caractéristiques très particulières sont proches de celles des technologies blockchains dont l'objet est de garantir la résilience et l'intégrité de données, quelques différences sont cependant notables :

Dans le cas des technologies blockchain, il ne doit pas exister d'organe central contrôlant l'ensemble des données : il ne peut y avoir de gouvernance. C'est d'ailleurs pour cela que les crypto-monnaies ont un certain succès.
Le fonctionnement de base des blockchains repose sur des calculs incessants de la part de tous les ordinateurs en réseaux ce qui en fait une technologie fondamentalement peu efficace en termes énergétiques

Nous proposons une approche pour l'exploitation et la conservation des données radicalement différente qui répond aux critères clefs d'accessibilité, d'intégrité et de confidentialité avec comme variable d'ajustement laissée à la libre appréciation de l'organisation : le budget.

Nos solutions sont open source, basées sur des composants simples et permettant de répondre au besoin de contrôle des organisations sur ce qu'elles ont de si précieux : leurs données.

Les entreprises devant stocker et protéger leurs données doivent donc apprécier les qualités d’un système sur ces critères en lieu et place de taux de défaillances ou de promesses marketing qui disparaissent lorsqu’un incident « non-prévu » se produit.

Vous nous direz sans doute, rien de nouveau sous le soleil. Mais,

De l'esprit au bon sens il y a plus loin qu'on ne pense.

Citation de Napoléon Bonaparte ; Les maximes et pensées (1769-1821)

Article co-écrit par Pierre Alexandre SCHEMBRI et Arnaud BRUN