Juin 2008
28

Seconde liaison FT coupée cette nuit à 1H30, après probablement des erreurs qui expliqueraient les perturbations de trafic d’hier soir.

Signalée à 9H30, rétablie à 15H30 après changement du cordon RJ45 de la liaison 4 fils (contact douteux) et remplacement de la LA110.

L’indicateur qui avait été détecté sur les dernières pannes de cette liaison (charge CPU de la passerelle pfSense) n’a pas du tout réagi, il n’est donc pas valide.

Après relance, la liaison semble stable mais la performance nominale n’est pas tenue, 1680Kbps au lieu de 1920Kbps, à voir lundi …

Juin 2008
19

Mise hors service le 18/06 à 18H00 à cause de pertes importantes de paquets.
Le 19 à 8H00, complètement isolée, plus rien ne passe.
Intervention FT dans la matinée et comme la dernière fois elle repart après un arrêt/démarrage de la terminaison FT.

Rétablie à 15H50, subsiste un très gros doute sur le boîtier LA110 (le routeur Bintec a été changé).

Après analyse des différentes logs, un bon indicateur de la dégradation de la liaison semble être la charge CPU system de la passerelle pfsense qui passe progressivement de moins de 10% à plus de 50% et qui surtout croît avant que l’effet ne soit sensible pour les utilisateurs.

Graphe CPU de la passerelle pfSense
Montée progressive les 4 et 5 Juin jusqu’à la coupure,
tentative de rétablissement du 6, puis de nouveau du 16 au 18 Juin

La signalisation suivante infirmera cette analyse, pas de bol …

Juin 2008
06

Coupure de la liaison le 5 à 21H00.
Signalé le 6 à 8H00, elle est rétablie à 9H40 en relançant électriquement les équipements d’extrémité.
De nouveau interrompue à 11H00, et fonctionnement dégradé jusqu’à 16H20, pertes importantes de paquets.

Il semblerait que ce défaut était présent depuis la mise en service, au rétablissement cette liaison est enfin au niveau de performances de la première.

Durant les durées d’indisponibilité, le trafic était acheminé en totalité sur la première liaison.

Juin 2008
03

En début de soirée les connexions à l’AP principale au Kermeur disparaissent les unes après les autres.

Il n’y a plus de serveur DHCP sur l’AP, et les abonnés se retrouvent déconnectés au renouvellement de leur bail DHCP; ceci à la suite d’une mise à jour du système RouterOS en version 310.

La mise à jour par défaut pour l’architecture PowerPC (carte RB333) n’intègre pas le DHCP, ni le SSH contrairement aux mises à jour pour les architectures Mips (cartes RB153, RB532); il faut aller rechercher dans all_packages-ppc-3.10.zip les paquets dhcp-3.10-ppc.npk et security-3.10-ppc.npk.

Mai 2008
29

Pour faire face à l’augmentation de trafic, une seconde liaison SDSL a été mise en place par FT ce lundi 26 Mai.

Les modifications des routages, permettant de partager le trafic entre les deux liaisons, ont été effectuées du mardi au jeudi, en testant différentes configurations.

Les techniques de partage dynamique, ECMP (Equal Cost Multi Path) de RouterOS ou Load Balancing de pfSense, ont donné des résultats peu satisfaisants et ont été abandonnées au profit d’un routage statique, avec possibilité de repli manuel en cas d’indisponibilité d’une des liaisons.

Les deux passerelles déjà présentes restent en place, la M0n0wall sur l’ancienne liaison, la pfSense sur la nouvelle (chacune d’elle gardant toutefois une troisième patte sur l’autre liaison).

La passerelle pfSense a été mise à jour à la dernière version stable (1.2-RELEASE) sur une nouvelle carte flash.

Les petits pépins qui ont suivis :

  • Le 30 mai, la passerelle M0n0wall ne route plus un des sous réseaux (et seulement celui là), elle n’aurait semble-t-il pas supporté les divers essais; résolu en la rebootant (elle avait 90 jours d’uptime).
  • Le 31 mai, problème FTP sur la passerelle pfSense affectant entre autres les logiciels Agranet : la case à décocher ‘FTP Helper’ est présente sur la page WAN et sur la page LAN de pfSense.
FTP Helper dans pfSEnse

En décochant les deux tout rentre dans l’ordre.

Mai 2008
25

A deux reprises :

Le samedi soir de 20H30 à 21H15, après une spectaculaire chute des niveaux radios, redémarrage sans qu’il y ait eu d’intervention.

De nouveau le dimanche matin de 11H00 à 12H00, intervention sur site, la liaison est coupé entre le Kermeur et Gaspern, coté Plounéour ok; relance électrique du routeur (problème de fading de la carte radio ? ou association intempestive ?).

Coupures Gaspern Plounéour

Modifié la configuration radio Kermeur-Gaspern pour la rendre plus précise et activé le watchdog du RouterOS.

Cette liaison doit basculer en dédié 11a le mois prochain (antennes 5Ghz en attente de livraison).

Mai 2008
20

Grâce à Jean Marc (de Carbodébit) qui m’a poussé un peu, une nouvelle page SNMP sous Openwrt mise en ligne sur ce sujet; elle complète le document PDF mis en ligne en 2007 après les Rencontres du Mayet de Montagne.

Mai 2008
13

Coupures de courant à partir de 17H, 25 minutes au Kermeur mais presque trois heures sur les villages de Plounéour-Menez et du Cloître Saint Thégonnec à l’extrémité Ouest du réseau.

Connectés le 13 mai 2008

Les équipements centraux, sur onduleur, n’ont pas été impactés.

Onduleur le 13 mai 2008
Mai 2008
12

Un nouveau relais sur la butte de Gaspern, sur un site dégagé de toute végétation. Il reprend la presque totalité du trafic du relais du Gaec des Chênes.

Antennes B/G Ã  Gaspern

Le routeur utilise une carte Mikrotik RB532A sous RouterOS.

Les niveaux radios sont comparables aux niveaux relevés sur l’ancien relais, les variations en moins.

Wrt259 après bascule sur Gaspern
Mai 2008
08

Débourrage des pousses en feuilles ce 8 mai, résultats spectaculaires sur les liaisons wifi; d’autant plus gênants que le point le plus impacté est le relais du Gaec des Chênes, coupé durant environ quatre heures de 20H à minuit et présentant un trafic très perturbé le restant de la journée.

Les niveaux radios remontent depuis tout doucement, mais ce relais est à déplacer sur un point plus dégagé de la végétation.

Le même phénomène avait déjà été observé en 2006 et 2007, avec moins d’incidences toutefois.

Débourrage des feuilles 2008

Une installation d’abonné à Kerglas est également touchée mais ceci depuis quelques jours; remise à niveau le 12 en modifiant son relais de desserte.

Wrt147 en mai 2008