Technische Gerätschaften sind schon zarte Seelchen. Und Weihnachten bringt sie offensichtlich durcheinander. Wie sonst lässt sich erklären, dass wir normalerweise zwei ernstere Zwischenfälle pro Jahr haben? Einer irgendwann, einer an Weihnachten. Beispiele:
2001: Am ersten Feiertag fällt eine Router-Firewall mit Festplattenschaden aus. Den ganzen 25.12. über ist ein Produktivsystem massiv gestört. Zwei Leute müssen den Rechner betüddeln und neu installieren.
2002: Pünktlich zum vierten Advent fallen zwei IBM-Netfinity-Server unmittelbar nacheinander aus. Der Techniker, der am Sonntag Morgen beim Kunden eintrifft, lötet auf dem Mainboard herum, lässt einen Ersatzserver per Taxi über 100 Kilometer Entfernung anliefern und murmelt was von „Serienfehler”. Trotz redundantem Systemaufbau zwölf Stunden Ausfall des Produktivsystems. Seitdem sehe ich das mit der „Redundanz” wesentlich lockerer, im Zweifelsfall gewinnt sowieso Murphy.
2004: Kurz vor Weihnachten fällt ein Büroserver aus, unmittelbar danach die Firewall für die eine Bürohälfte. Bei beiden Rechnern müssen größere Untermengen der Hardware ausgetauscht werden. Mehrstündiger Ausfall der Anbindung.
Und dieses Jahr? Heute Nacht, 1:26 Uhr, weckt mich meine Mitarbeiterin mit dem Notfallhandy: Die Verbindung zwischen Hauptserver und den Komponenten in unserem Büro ist unterbrochen und sie erreicht die Server im Büro nicht. Mein erster Verdacht: Internet-Anbindung. Also Provider-Hotline angerufen. Der freundliche und kompetente Mitarbeiter (Danke, Broadnet!) prüft die Erreichbarkeit des DSL-Modems – kein Problem. Sicherheitshalber Reset – kein Problem. Unsere Firewall und das Netz dahinter kann er aber auch nicht ansprechen.
Also mache ich mich um 1:40 Uhr in der Nacht auf den Weg ins Büro. Während eines Fahrradritts (Merke: Verkehrsregeln sind relativ…) geht einem so einiges durch den Kopf: Habe ich ein Backup von der Firewall-Konfiguration? Was, wenn Nutzerdaten betroffen sind? Kann ich die Produktivservices an einen anderen Standort umziehen?
Diese hochtechnischen Erwägungen sind zunächst überflüssig: Am Serverrack angekommen umfängt mich Stille. Alle Rechner sind aus. Offensichtlich gibt es keinen Strom mehr, jedenfalls nicht an der Steckdose. Glücklicherweise jedoch an der Steckdose 30 Zentimeter weiter, manchmal sind über Jahrzehnte gewachsene, weitgehend von jeder übergeordneten Planung befreite Verkabelungen doch ein Segen. Beherzt eine kurze Verlängerung an die „fremde” Dose geklemmt, reingesteckt und zur Belohnung ein vielstimmiges „srrrrrRRRRRRR” im Rack. Sie leben wieder. Hurra!
Alle Rechner fahren wieder hoch. Alle? Nein. Die LED an der Switch-Netzwerkdose für den zweiten Büroserver bleibt hartnäckig aus. Am Rechner leuchtet die Festplatten-LED dauerhaft. Hm. Sieht nicht gut aus. Display an den Rechner: „GRUB loading…” Mist.
Rechner abbauen, hochtragen, separat anschließen. Nochmal Booten. Bleibt wieder im GRUB hängen, also noch bevor überhaupt der Boot-Bildschirm mit der Systemauswahl angezeigt wird. Mal an der Festplatte lauschen. Tck-tijjjh – tck-tjjjjh – tck-tck-tck-tck – klock — tck-tjjjjk – tck-tjjjjk. Nochmal Mist. ‚putt.
Ok, die Leute wollen arbeiten. Also Fundus checken. Hm. Austauschplatten gleicher Größe sind nicht mehr da. Aber eine 20 GB-Platte. IBM. Von 1999. Egal, muss jetzt gehen. Einbauen, SuSE-10.2‑DVD einlegen, booten, NFS-Install auswählen, loslegen. Wieder Mist, er findet den DHCP-Server nicht. Warum das? Gepatcht ist die Netzwerkbuchse doch. Mal am Switch im Büro schauen. Wie, alles AUS??? Hier oben auch kein Strom? Aber das Licht? Und der eine Rechner läuft doch auch… Naja, wie gesagt: manchmal sind über Jahrzehnte gewachsene, weitgehend von jeder übergeordneten Planung befreite Verkabelungen…
2:30 Uhr: Ich fange an, Kabeltrommeln durch die Büroräume zu verlegen. Manche Steckdosen gehen, andere nicht. Immerhin hat der Switch jetzt wieder Strom (und auch die Telefonanlage). Die SuSE-Installation findet das NFS-Archiv, die Installation geht relativ glatt durch und die meisten Konfigurationseinstellungen kann ich vom Backup einspielen. Um 4:45 Uhr fahre ich wieder nach Hause…
Morgens übernimmt dann sozusagen die „Tagschicht” im Büro. Die ruft den Vermieter. Der den Elektriker. Und der die Stadtwerke. Man misst und stellt fest: Eine der drei Phasen, über die das Haus mit Strom versorgt wird, ist tot. Mittags soll der Bautrupp anrücken. Und das ist wörtlich zu nehmen: Der Bürgersteig muss aufgebaggert werden.
Derweil versucht die fleißige Helferschar, all die kleinen Kleinigkeiten zu beheben, die ich in der Nacht so vergessen habe. /etc/group ist nicht im NIS, der IMAPd ist gar nicht installiert und mit dem Samba-PDC gibt es auch noch ein Problem. Gegen 11 Uhr klingelt dann doch mal mein Telefon – ob ich nicht vielleicht demnächst mal… also, wär’ ja klar, dass die Nacht kurz war… aber irgendwie würden die anderen schon ganz gern arbeiten können…
Mittags dann rückt der Bautrupp an. Man ist ein wenig vorsichtig – für die vollständige Reparatur müsste im gesamten Straßenzug der Strom abgeschaltet werden. Mit den vielen Büros würde das sicherlich viel Freude auslösen. Sie würden ja lieber heute erstmal eine vorläufige Reparatur vornehmen (beim Programmieren sagt mal wohl „Workaround”) und dann morgen anfangen zu buddeln. Bedeutet für mich: Am Samstag, 23.12, um 9:00 Uhr ins Büro und Rechner betüddeln.
Momentan läuft also alles auf Reserve. Sämtliche Produktivservices sind entweder unter Vorbehalt gestellt („kann ausfallen…”) oder an andere Standorte verlagert. Das Rack darf um Himmelswillen heute Nacht nicht ausfallen, denn durch die vorläufige Reparatur der Techniker haut der Stromstoß, den alle gleichzeitig angehenden Rechner auslösen, die Sicherung raus.
Als wenn es noch nicht genug wäre, fällt heute nachmittag eine Workstation aus heiterem Himmel aus. Festplatte absolut unlesbar, das BIOS kann nicht mal den Bootloader finden. Rescue-System von der SuSE-DVD: Dateisystem ist komplett weg. Hm. Mal Zugriff mit dd testen. Kein Problem. Versteh’ einer diese Hardware…
Und zu allem Überfluss haben wir ausgerechnet heute abend Weihnachtsfeier. Hoffen wir mal, dass die Rechner nicht allzu neidisch sind. Sonst gehen die Ausfälle womöglich aus reiner Boshaftigkeit munter weiter…