Aller au contenu

Problème aujourd'hui sur le reseau mangas France


ethaniel
 Share

Messages recommandés

Bonsoir,

 

Cet après midi, nas1, le serveur qui contient les disques de données des clients mutualisé a crashé. un nas1.bck aurait du prendre le relais, il ne l'a pas fait.

 

Les faits :

- à 14h54, les disjoncteurs de la baie nas1 a sauté.

- nas1.bck aurait du prendre le relais

- sur place, on a relancé la baie

- nas1 ne s'est pas relancé (3 disques dur ont grillé sur le coup)

- nas1.bck ne s'est pas lancé (CM grillé après 1er diagnostic)

 

Ce qu'on a fait

- nous avons changé les disques de nas1

- le raid de nas1 est en train de se reconstruire

- nous avons confirmé le diagnostic pour nas1.bck mais n'avons pas de pièce de rechange

 

Quand ca reviendra :

- le raid se resyncro. Je pense dans la nuit il aura fini

 

Perte de données ? :

- Non, le filesystem est sous RaidZ, il en aurait fallu + pour tout faire sauter.

 

 

Lien vers le commentaire
Partager sur d’autres sites

Ah ça me rappelle pas mal de choses ce genre de crash.

je suppose que vous avez un raid 5 pour les données mais ce n'est vraiment pas un coup de bol d'avoir 3 disques durs au tas. C'est pire lorsque le backup ne prend pas le relais et qu'une autre avarie survient. Franchement vous n'avez pas eu de chance mais généralement lorsque ça commence de cette manière là, c'est comme une spirale qui donne de grosses sueurs froides.

Nous en avons eu 2 en 2 ans de la sorte et le problème c'est bien le fait d'acheter des disques durs identiques et surtout au même moment.

Si l'un crash, d'un coup la probabilité que les autres tombent augmente exponentiellement.

Après effectivement, le problème c'est bien d'avoir en stock des disques durs de rechanges de même capacité. Même quelques fois il faut également qu'ils soient de la même marque sinon la reconstruction du raid foire totalement.

 

J'avoue que je ne connais pas très bien le RaidZ puisque nous n'en utilisons pas. On utilise plus des clusters et serveurs virtuels avec des images systèmes gérées par Altiris. Pour les données, on utilise de bonnes vieilles sauvegardes avec des robots et leurs magasins.

 

En tout cas bravo vous avez mis 5 ou 6 heures, peut être un plus, pour redonner le service. Le stress est généralement à son maximum dans ces moments et il faut vraiment avoir des personnes expertes, certes, mais surtout ayant de l'expérience pouvant mener à bien les procédures les unes après les autres.

D'après votre méthodologie vous avez su diagnostiquer l'ensemble des problèmes et surtout bien les cerner.

Non franchement j'applaudis, c'est vraiment du très bon boulot!!!

Lien vers le commentaire
Partager sur d’autres sites

Waw c'etais un problème pareil ?!!! (en lisant ce que vous avez marqué je n'ai compris que le gros du problème le reste est un dialecte incompréhensible pour moi xD)

Moi qui pensait que c'était moi qui beugais  :D me voilà rassurer

 

Vous êtes très fort de résoudre ses problèmes si rapidement ! (si ce genre de chose arrive dans le bureau dans lequel je travail, je préfaire pas y toucher au risque de vraiment tout faire peter - -')

 

Ps: le serveur du reseau mangas France est bien gardé  ;D

 

Lien vers le commentaire
Partager sur d’autres sites

Ok je pousse un peu je sais (enfin si Chuck lui-même peut pas pousser un peu personne peut le faire  :D)  mais la double alim redondante sur 2 feeds séparés ça sert à éviter ce cas de figure ^^

Après 3 disques qui pètent ben c'est un peu le tarif en cas de coupure électrique à l'arrache. Des fois c'est plus, des fois c'est moins.

 

En tout cas le retour à la normale est rapide et efficace bravo :)

 

Lien vers le commentaire
Partager sur d’autres sites

Yop Chuck

 

mais la double alim redondante sur 2 feeds séparés

C'est le cas, on a une double arrivé EDF ondulé pour chaque baie.

Le problème n'a pas été une coupure EDF, mais le disjoncteur de la baie qui a coupé la baie ( ce serait malin tient si une alim brule et qu'on s'en rende pas compte...)

Le prblm a du être un courant de fuite dans un coin, on surveille ca très attentivement.

 

nas1 et nas1.bck sont sur 2 baie différentes. la baie .bck est en mode "veille" pour économiser de l'énergie (elle est censé marcher 5 mn sur 1 an quoi + les syncro évidemment).

quand la baie nasX (nas1 nas2 nas3) a sauté, la baie bck aurait du prendre le relay (bypass). nas2.bck et nas3.bck l'ont fait, mais pas nas1.bck.

On teste les bypass 1 fois / mois environ.

Donc c'est vraiment du pas de chance :(

 

Le filesystem est du ZFS. Sous Solaris. Le tout est en RaidZ. Ainsi on fait du stockage quantique. Raid5, 10, 0, c'est pour des petits serv. La on parle de nas avec 15 disques SAS et des fiber chanel :).

 

 

Au plaisir :)

Lien vers le commentaire
Partager sur d’autres sites

Tiens ça m'intéresse vraiment le raidZ mais nous n'avons pas de Solaris. Je ne connais pas très bien cette architecture là. Il faut que je me renseigne pour voir, en terme d'avantage, ce que ça offre. Enfin je dis ça mais il faut que je me renseigne auprès de mon équipe car le ZFS me dit quelque chose.  ;D

Vu que nous fonctionnons également avec trois baies Dell connectées par fiber channel et un système SAS ça pourrait être quelque chose d'intéressant pour l'avenir.

 

Concernant la détection de courant de fuite qu'est ce que vous utilisez exactement?

Ca m'intéresse car nous n'avons pas un système électrique à toutes épreuves surtout dans un des bâtiments.

 

Lien vers le commentaire
Partager sur d’autres sites

Concernant la détection de courant de fuite qu'est ce que vous utilisez exactement?

A l'arache faut le reconnaitre, on est pas électrotechnicien. On fait comme on peut.

On a des graphs de conso electrique pour chaque alim de chaque serveur qui est monitoré.

Donc déja on a une 1ere vue.

Après les techs du datacenter sont averti, et vont nous donner un coup de main :)

 

Après on embauche un intérimaire, et on lui fait toucher tt les coté de la baie. Si il se prend une chataigne, on isole et on approfondi :)))))

Lien vers le commentaire
Partager sur d’autres sites

Du monitoring sur les alimentations des serveurs pour leur consommation. Effectivement c'est plus ou moins que ce je pensais. Moi non plus ce n'est pas ma tasse de café, l'électrotechnique, je laisse ça pour les bourrins.  :P

 

 

Après on embauche un intérimaire, et on lui fait toucher tt les coté de la baie. Si il se prend une chataigne, on isole et on approfondi

 

 

J'aime vraiment bien cette méthode là.  ;D

 

En tout cas merci pour toutes ces petites précisions et surtout bon courage pour la suite.

Lien vers le commentaire
Partager sur d’autres sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Invité
Répondre à ce sujet…

×   Collé en tant que texte enrichi.   Coller en tant que texte brut à la place

  Seulement 75 émoticônes maximum sont autorisées.

×   Votre lien a été automatiquement intégré.   Afficher plutôt comme un lien

×   Votre contenu précédent a été rétabli.   Vider l’éditeur

×   Vous ne pouvez pas directement coller des images. Envoyez-les depuis votre ordinateur ou insérez-les depuis une URL.

 Share

×
×
  • Créer...