06
Coupure cette nuit à 3H30 du relais de la zone Nord du Kermeur au Gaec des Chênes.
L’onduleur, en situation très humide, a lâché; rétablissement à 10H30 en alimentant le relais en direct.
Coupure cette nuit à 3H30 du relais de la zone Nord du Kermeur au Gaec des Chênes.
L’onduleur, en situation très humide, a lâché; rétablissement à 10H30 en alimentant le relais en direct.
Panne du relais de Gaspern, les équipements ne sont plus alimentés à partir du vendredi à 13H00.
Relance le lendemain à 11H00, en shuntant l’onduleur qui a pris un coup de foudre.
Mise en service d’un premier abonné sur la zone au nord du Kermeur, jusque là assez mal desservie, mais maintenant accessible depuis la modification du relais du Gaec des Chênes.
Le relais Mkt180 de Gaspern n’a pas redémarré cette nuit suite à l’arrêt programmé dans /system scheduler, c’est la deuxième fois que cet incident se produit en moins d’un an.
Intervention à pied, le chemin d’exploitation étant impraticable sous la neige, et rétablissement à midi pour les abonnés de Plounéour Menez coupés depuis 4H du matin.
A la fonte de la neige ce mardi, les niveaux radios de toutes les stations connectées sur les antennes à fentes du Kermeur ont très fortement chutés, ceci entre midi et minuit environ.
Aucune station n’a été complètement coupée, les régulations de txpower permettant de récupérer les plus en difficulté, toutefois le trafic n’était pas très fluide en particulier pour la téléphonie IP.
En recherchant les causes de coupures dans les relevés Cacti de la Nanostation2 ubq199, on trouve les messages suivants apparaissant à répétition dans le dmesg de la station :
ath_intr: Stuck INT MIB: 0x1000/0xc0041071(0xc0041071)
wifi0: hardware error; reseting
ath_intr: Stuck INT MIB: 0x1000/0xc0041071(0xc0041071)
wifi0: hardware error; reseting
Cette Nanostation est à la version 3.4 du firmware, en décochant ‘Noise Immunity‘ dans l’onglet ‘Advanced‘, tout rentre dans l’ordre; un point à vérifier lors du passage à la version 3.5.
Le relais du Gaec des Chênes, mis en place en Aout 2006, a été entièrement refait et sa desserte modifiée.
Les deux Linksys sous Openwrt ont été remplacés par une carte Mikrotik RB411AR dans un boîtier antenne Station Box.
Sous OpenBSD, après l’installation du package nut, en fonctionnant sur le câble USB avec le driver usbhid-ups, on obtient le message d’erreur :
Network UPS Tools: 0.29 USB communication driver - core 0.32 () No matching HID UPS found Driver failed to start (exit status=1)
Ce message met sur une fausse piste pour la résolution du problème, il s’agit en fait d’un simple problème de droits d’écriture sur les devices /dev/ugen*, il suffit de les rendre accessibles à l’utilisateur _ups pour que tout fonctionne.
A noter que l’entrée port du fichier de configuration /etc/nut/ups.conf doit absolument être renseignée pour que le daemon upsd se lance, mais qu’on peut y mettre n’importe quoi comme valeur (auto, toto, /dev/tty00, …), le driver se chargeant de trouver lui même les bon ports (/dev/ugen0.00 et /dev/ugen0.01 d’après la commande fstat -u _ups -n), ce qui donne la configuration ci-dessous, pour un onduleur MGE Ellipse 1500 :
[ellipse] driver=usbhid-ups # La valeur port est ignore par ce driver port=auto vendorid=0463 productid=ffff desc="MGE Ellipse 1500"
Instabilités du driver usbhid-ups
Elles se traduisent par des erreurs ‘Data stale‘, pour les corriger augmenter la valeur MAXAGE dans upsd.conf; si cette modification ne suffit pas, un script bien bourrin de relance du driver, en crontab, fait aussi l’affaire :
#!/usr/local/bin/bash TST=$(/usr/local/bin/upsc ellipse ups.status 2>/dev/null) if [ "x$TST" == "x" ]; then /usr/local/bin/upsdrvctl stop /usr/local/bin/upsdrvctl start logger -p local0.notice -t NUT "Relance daemon UPS" fi
Depuis la version 4.6 d’OpenBSD, ces erreurs semblent avoir disparues.
Suite à l’incident sur le serveur, les services liés à l’exploitation du réseau sont séparés des services purement Web et placés sur une carte Alix 2D3, avec un disque dur 2,5″, sous OpenBSD.
Cette séparation permet une meilleure tenue des onduleurs du fait de la faible consommation de l’ensemble Alix, de l’ordre de 7W avec le disque dur; en contrepartie l’affichage des graphes de Cacti n’est pas foudroyant mais la collecte des données est ok, jusqu’à 150 devices par minute avec Spine.
Liens :
Monitoring du Net Kermeur, (document PDF)
La relance du serveur d’exploitation n’aura guère durée, trois jours plus tard il est définitivement hors service.