thewild a écrit : 19 févr. 2018, 15:23
Les ordinateurs "de bureau" n'ont d'ailleurs pas ces modules de contrôle d'erreur, et c'est une des raisons pour lesquels ils "plantent" plus souvent qu'un serveur.
Faudrait trouver des stats (
voir le premier lien à la fin de mon post), mais de par mon expérience/observation empirique (
assez conséquentes) quand un PC (
ou un module mémoire) est stable dès les premiers jours (
sans defect matériel), il ne plante jamais fortuitement à cause d’erreurs de bit unique qui se produirait de temps à autre. En pratique, c’est tellement rare que c’est tout comme si ça n’avait aucune incidence. Mais de toute façon, nous sommes d’accord qu’il s’agit de freeze/plantage et non pas d’autre chose, en pratique?
thewild a écrit : 19 févr. 2018, 15:23Et donc contrairement à ce que tu dis, si, un fichier word contenant un CV peut tout à fait se dégrader avec le temps.
Personnellement, je n'ai jamais observé et n'ai jamais trouvé un exemple d'un seul cas connu et répertorié ou la résultante d'une erreur
de bit unique a été observée
concrètement dans un fichier (
pixel dans une image, fichier audio échouant le null test, pixel manquant dans une lettre d'un fichier texte, etc.). Dans les faits, une mémoire trop sensible aux variations de tension/rayonnement fera planter/
freezer le système, comme je le mentionne (
et toi aussi) depuis le début (
le mythe du pixel dans une image étant de l'ordre de la possibilité théorique, mais ça ne parvient jamais jusque là sans freezer, en pratique).
Mais je pense qu'il est inutile de sodomiser les coléoptères à ce sujet étant donné que toutes les applications sensibles (
serveurs de données) qui nécessitent la correction d'erreur de bit possèdent de la mémoire appropriée (
ECC/ChipKill) afin d'éviter de planter ou de tout perde (
bien plus que par crainte d'altération infime des données, àmha).
thewild a écrit : 19 févr. 2018, 15:23Les probabilités pour qu'une erreur de bit arrive ne sont pas négligeables contrairement à ce que l'on croit. Si on considère uniquement les erreurs de stockage en mémoire vive (et il y a beaucoup d'autres sources d'erreurs), on peut considérer qu'il y a plusieurs milliers d'erreurs par gigaoctet par an (pour une machine allumée 24h/24).
Oui, « techniquement », tu as raison (
voir les stats dans le premier lien en bas), Mais elles se manifestent sous quelle forme pour les utilisateurs lambda (
avec PC sans memoire ECC)?
Par des
freeze/plantages!
Tu connais bcp d'exemples, de gens qui se plaignent/ont observé qu'un symbole ou une valeur s'est modifié dans un de leur fichier?
Voilà! Ça ne remonte jamais jusqu' « au niveau » de l'utilisateur.
Bref, presque toutes les « erreurs » informatiques — ayant une incidence trompeuse — connues et répertoriées se sont produites avant les années 2000 à cause d’arrondis mal effectué et/ou du à des résolutions de calcul pas assez élevées/précises (
sinon, les cas « modernes» sont très connus et touche des sphères très spécifiques. Voir plus bas). Mais il s’agissait de difficultés/problèmes purement mathématiques (
connus bien avant l’utilisation des ordinateurs) et essentiellement liés aux résolutions insuffisantes de l’époque. De nos jours, ces types de problèmes (
pour la plupart des utilisations) sont résolus et les normes (voir l’
IEEE 754, entre autres) ont été ajustées en conséquence. Sinon, les défaillances et la dégradation des composantes matérielles prenant part aux calculs ne provoquent pas des erreurs « en contexte utilisateur » de type « imprécision » qui altéreraient le résultat d’un calcul, mais rien d’autre. Ces types de défaillances créent des « freeze » qui empêchent l’ensemble du processus de s’effectuer (
ou carrément d'accéder aux données, comme un Hard Disk/CD qui est dead).
Et c’est ce qui était important de souligner face à l’une des 2 interrogations de jean7 : non, la faillibilité dans un composant électronique ne peut interchanger une donnée essentielle dans l’analyse du jeu de Go ou concernant le groupe sanguin d’un patient dans un fichier médical informatisé, par exemple (
considérant que la correction d'erreur mémoire est prise en compte par de l'ECC/Chipkill, etc. ).
La nuance étant, cependant, comme pour tout appareil « physique/électro-mécanique », que cela n’empeche pas d’autres types de problèmes/défaillances de survenir. Nous pouvons tjrs imagiers, par exemple, une surchauffe, un incendie faisant fondre des pièces et des câbles électriques où la résultante finirait par déclencher un truc innaproprié par un système comportant une AI, mais cela n’a plus rien à voir avec le présent sujet. Si le feu consume les murs de soutien d'une maison, le toit va s’effondrer, peu importe la fiabilité des calculs (
et des mémoires) de l’AI du systèmes domotique de la maison! Sinon, reste le problème des erreurs au sein des algorithmes, mais ces derniers sont conçus par des humains et ces derniers sont donc directement responsables de ces erreurs.
Maintenant, pour relativiser, et concernant l’autre interrogation de jean7, oui, il demeure tjrs le problème de la précision des calculs utilisant des nombres avec suite infinis après la virgule face à un « horizon infinitésimal », mais cette « problématique » n’a aucune répercussion (du à la capacité des composantes actuelles et de la norme IEEE 754) sur nos fichiers et les opérations (
nécessitanta des calculs) que nous pouvons effectuer à la maison, par exemple, sur des images dans Photoshop, des sons dans un éditeur audio ou des textes/calculs sous Word/Excel. Sinon, tu peux être certain que ma vieille tante, qui me téléphone déjà 4 fois par année parce que Microsft verrouille son compte mail (
parce qu'elle accroche accidentellement la touche SHIFT quand elle entre son MDP) me téléphonerait bien plus souvent si nos PC de maison (
sans ECC) interchangeaient des caractères de MDP à cause des erreurs de bit!!
Ça serait la cata pour des millions d'utilisateurs!
Par contre, il est vrai, après avoir fait quelques recherches sur le net, qu’encore aujourd’hui, en certains domaines très spécifiques et utilisant des calculs scientifiques (
simulations numériques en physique, chimie, biologie, aéronautique, automobile, nucléaires, médicales, etc.), existent des erreurs dues à l’approximation des nombres avec suite infinie lors des calculs effectués par certains algorithmes utilisant certains composants, comme les GPU des cartes vidéo, entre autres. Mais à ce que je comprends, ce ne sont pas des « erreurs aléatoires » dues à l’instabilité/l'usure des composants (
les ECC/Chipkill réglants le problème), mais bien à un manque de précision provenant de l’accumulation d'approximations/arrondis par certains algorithmes qui n’ont pas nécessairement été conçus, à la base (
3D, jeux vidéo), pour servir de super-calculateur afin de faire de la recherche scientifique. Et sinon, oui, en rapport avec la question de Jean7, pour des AI devant jongler avec un « horizon infinitésimal » — dépendamment du domaine et du type de problème/calcul — cela peut certainement poser problème (
à voir si les ordinateurs quantiques vont ressourdre cet aspect). Mais tout ça n’a rien à voir (
en pratique, puisque les systèmes de correction d'erreurs sont utilisé) avec un « manque de fiabilité » des composants physiques (
mémoire/CPU). Ce sont des problèmes essentiellement d’ordre mathématique/algorithmique qui persistent dans ce domaine.
Quelques liens pour en tirer nos propres conclusions :
Mémoire à code correcteur d'erreurs
Chipkill, technique de correction d'erreur qui protège de tout fonctionnement incorrect.
Fiabilité des calculs sur ordinateur
L’IEEE 754 (norme pour la représentation des nombres à virgule flottante en binaire.)
Erreurs numériques de calculs de dose par la méthode de Monte-Carlo sur GPU