ethaniel Posté(e) 25 février 2010 Share Posté(e) 25 février 2010 Bonsoir, Cet après midi, nas1, le serveur qui contient les disques de données des clients mutualisé a crashé. un nas1.bck aurait du prendre le relais, il ne l'a pas fait. Les faits : - à 14h54, les disjoncteurs de la baie nas1 a sauté. - nas1.bck aurait du prendre le relais - sur place, on a relancé la baie - nas1 ne s'est pas relancé (3 disques dur ont grillé sur le coup) - nas1.bck ne s'est pas lancé (CM grillé après 1er diagnostic) Ce qu'on a fait - nous avons changé les disques de nas1 - le raid de nas1 est en train de se reconstruire - nous avons confirmé le diagnostic pour nas1.bck mais n'avons pas de pièce de rechange Quand ca reviendra : - le raid se resyncro. Je pense dans la nuit il aura fini Perte de données ? : - Non, le filesystem est sous RaidZ, il en aurait fallu + pour tout faire sauter. Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
ethaniel Posté(e) 25 février 2010 Auteur Share Posté(e) 25 février 2010 Heureusement que Kheops est arrivé avec son gros chalumeau et son marteau pour faire repartir tout ca... Sans lui on était très mal. Gloire au grand Dieu Kheops ))) Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
Kheops Posté(e) 25 février 2010 Share Posté(e) 25 février 2010 Surtout avec mon tournevis cruciforme et ma clé a pipe de 12 Grand merci a toi Ethan, vu les problemes ca a été hyper rapide C'était notre crash annuel Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
ethaniel Posté(e) 25 février 2010 Auteur Share Posté(e) 25 février 2010 Que 12 Kheops Le mythe tombe (( Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
flamiche Posté(e) 25 février 2010 Share Posté(e) 25 février 2010 merci de l'avoir réparer et bon courage dans votre boulot Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
orion Posté(e) 26 février 2010 Share Posté(e) 26 février 2010 Ah ça me rappelle pas mal de choses ce genre de crash. je suppose que vous avez un raid 5 pour les données mais ce n'est vraiment pas un coup de bol d'avoir 3 disques durs au tas. C'est pire lorsque le backup ne prend pas le relais et qu'une autre avarie survient. Franchement vous n'avez pas eu de chance mais généralement lorsque ça commence de cette manière là, c'est comme une spirale qui donne de grosses sueurs froides. Nous en avons eu 2 en 2 ans de la sorte et le problème c'est bien le fait d'acheter des disques durs identiques et surtout au même moment. Si l'un crash, d'un coup la probabilité que les autres tombent augmente exponentiellement. Après effectivement, le problème c'est bien d'avoir en stock des disques durs de rechanges de même capacité. Même quelques fois il faut également qu'ils soient de la même marque sinon la reconstruction du raid foire totalement. J'avoue que je ne connais pas très bien le RaidZ puisque nous n'en utilisons pas. On utilise plus des clusters et serveurs virtuels avec des images systèmes gérées par Altiris. Pour les données, on utilise de bonnes vieilles sauvegardes avec des robots et leurs magasins. En tout cas bravo vous avez mis 5 ou 6 heures, peut être un plus, pour redonner le service. Le stress est généralement à son maximum dans ces moments et il faut vraiment avoir des personnes expertes, certes, mais surtout ayant de l'expérience pouvant mener à bien les procédures les unes après les autres. D'après votre méthodologie vous avez su diagnostiquer l'ensemble des problèmes et surtout bien les cerner. Non franchement j'applaudis, c'est vraiment du très bon boulot!!! Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
ozishi Posté(e) 26 février 2010 Share Posté(e) 26 février 2010 Waw c'etais un problème pareil ?!!! (en lisant ce que vous avez marqué je n'ai compris que le gros du problème le reste est un dialecte incompréhensible pour moi ) Moi qui pensait que c'était moi qui beugais me voilà rassurer Vous êtes très fort de résoudre ses problèmes si rapidement ! (si ce genre de chose arrive dans le bureau dans lequel je travail, je préfaire pas y toucher au risque de vraiment tout faire peter - -') Ps: le serveur du reseau mangas France est bien gardé Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
Chuck Posté(e) 26 février 2010 Share Posté(e) 26 février 2010 Ok je pousse un peu je sais (enfin si Chuck lui-même peut pas pousser un peu personne peut le faire ) mais la double alim redondante sur 2 feeds séparés ça sert à éviter ce cas de figure ^^ Après 3 disques qui pètent ben c'est un peu le tarif en cas de coupure électrique à l'arrache. Des fois c'est plus, des fois c'est moins. En tout cas le retour à la normale est rapide et efficace bravo Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
ethaniel Posté(e) 26 février 2010 Auteur Share Posté(e) 26 février 2010 Yop Chuck mais la double alim redondante sur 2 feeds séparés C'est le cas, on a une double arrivé EDF ondulé pour chaque baie. Le problème n'a pas été une coupure EDF, mais le disjoncteur de la baie qui a coupé la baie ( ce serait malin tient si une alim brule et qu'on s'en rende pas compte...) Le prblm a du être un courant de fuite dans un coin, on surveille ca très attentivement. nas1 et nas1.bck sont sur 2 baie différentes. la baie .bck est en mode "veille" pour économiser de l'énergie (elle est censé marcher 5 mn sur 1 an quoi + les syncro évidemment). quand la baie nasX (nas1 nas2 nas3) a sauté, la baie bck aurait du prendre le relay (bypass). nas2.bck et nas3.bck l'ont fait, mais pas nas1.bck. On teste les bypass 1 fois / mois environ. Donc c'est vraiment du pas de chance Le filesystem est du ZFS. Sous Solaris. Le tout est en RaidZ. Ainsi on fait du stockage quantique. Raid5, 10, 0, c'est pour des petits serv. La on parle de nas avec 15 disques SAS et des fiber chanel . Au plaisir Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
orion Posté(e) 26 février 2010 Share Posté(e) 26 février 2010 Tiens ça m'intéresse vraiment le raidZ mais nous n'avons pas de Solaris. Je ne connais pas très bien cette architecture là. Il faut que je me renseigne pour voir, en terme d'avantage, ce que ça offre. Enfin je dis ça mais il faut que je me renseigne auprès de mon équipe car le ZFS me dit quelque chose. Vu que nous fonctionnons également avec trois baies Dell connectées par fiber channel et un système SAS ça pourrait être quelque chose d'intéressant pour l'avenir. Concernant la détection de courant de fuite qu'est ce que vous utilisez exactement? Ca m'intéresse car nous n'avons pas un système électrique à toutes épreuves surtout dans un des bâtiments. Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
ethaniel Posté(e) 26 février 2010 Auteur Share Posté(e) 26 février 2010 Concernant la détection de courant de fuite qu'est ce que vous utilisez exactement? A l'arache faut le reconnaitre, on est pas électrotechnicien. On fait comme on peut. On a des graphs de conso electrique pour chaque alim de chaque serveur qui est monitoré. Donc déja on a une 1ere vue. Après les techs du datacenter sont averti, et vont nous donner un coup de main Après on embauche un intérimaire, et on lui fait toucher tt les coté de la baie. Si il se prend une chataigne, on isole et on approfondi )))) Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
orion Posté(e) 26 février 2010 Share Posté(e) 26 février 2010 Du monitoring sur les alimentations des serveurs pour leur consommation. Effectivement c'est plus ou moins que ce je pensais. Moi non plus ce n'est pas ma tasse de café, l'électrotechnique, je laisse ça pour les bourrins. Après on embauche un intérimaire, et on lui fait toucher tt les coté de la baie. Si il se prend une chataigne, on isole et on approfondi J'aime vraiment bien cette méthode là. En tout cas merci pour toutes ces petites précisions et surtout bon courage pour la suite. Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
ethaniel Posté(e) 26 février 2010 Auteur Share Posté(e) 26 février 2010 no prblm. merci à toi D'autres questions ? Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
LuffyAzer Posté(e) 27 février 2010 Share Posté(e) 27 février 2010 c'est pour ca que je ne pouvais pas aller sur Scantrad OP fr V4 etc etc ...!! Merci d'avoir rapidement corrgier le bug ! Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
Messages recommandés
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.