waldbaer59
Hallo zusammen,
ich habe seit einiger Zeit mit einer Maschine hier Startprobleme. Es fing damit an, dass ab und zu die Kiste bei der Ausgabe ...
Probing EDD (edd=off to disable)
... hängen blieb und nicht zum Weitermachen zu überreden war. Daher habe ich "edd=off" als kurzfristige Abhilfe als Kernelparameter beigefügt. Das hat die Sache erst einmal bereinigt (und hat vielleicht auch nichts mit dem aktuellen Problem zu tun?).
Nun kommt es öfter mal vor, dass beim Hochfahren des Systems bei der Ausgabe ...
Loading ../initramfs-linux.img
...der Bootvorgang hängt. Da ist auch nichts zu machen! Wenn ich die Maschine dann hart aus- und erneut einschalte klappt es (meistens) dann doch mit dem Starten.
Jetzt wüsste ich natürlich gerne wo ich da ansetzen kann um das Problem zu finden und zu bereinigen. Die Möglichkeiten sind sicher vielfältig, das ist mir klar. Vielleicht gibt es aber jemand, der hier eine Info hat. Und wenn etwas gebraucht wird, liefere ich das gerne nach.
Ich bin auf einem DELL Optiplex 7010 zugange, den ich mit dem Kernel 5.9.14 betreibe. Gestartet wird von einer SSD, auf der /boot, / und /home liegen. Daneben ist noch ein HDD im System, auf dem SWAP und eine Datenpartition liegt, die unter /home später eingehängt wird. Alles nichts Besonderes. Per "journalctl" habe ich nichts gefunden, was mir ein "Aha" entlockt hätte. Vielleicht habe ich auch in der Fülle an Ausgaben nicht den Wald vor lauter Bäumen gesehen...
Danke schonmal fürs Lesen und ggf Helfen.
VLG
Stephan
chepaz
Deine Beschreibung klingt für mich nach Hardwaredefekt (Kabel, SATA, Festplatte, diese Richtung) oder Timingproblem beim Starten (Initialisierung von BIOS).
Hat das früher(tm) funktioniert? Oder war das schon immer? Wann ist das aufgetreten?
waldbaer59
Hmmmm, wann das genau das erste Mal aufgetreten ist kann ich leider nicht mehr sagen. Ich habe immerhin schon mal ein paar Dinge durchgecheckt.
Netzteil: eher nicht, würde sich wohl auch anders äußern.
Plattenplatz: genügend Reserven auf allen Partitionen vorhanden
RAM: genügend da, sicherheitshalber mal alle Riegel umgesteckt und RAM getestet. Keine Auffälligkeiten.
Natürlich könnte die SSD ein Problem entwickeln; doch ich frage mich, warum das dann meist (wenn es denn auftritt) nur beim ersten Start vorkommt. Es werden auch keine Fehler gemeldet. Ich könnte natürlich mal schauen ob ich irgendein Protokoll / einen Status der SSD abrufen kann.
Kabel auswechseln wäre sicher eine einfache, schnelle Maßnahme, um mal zu schauen ob das schon hilft.
Falls der Fehler nochmal vorkommt würde ich die Kiste hart ausschalten, dann mit einem Diagnose System starten, Chrooten und das journal befragen. Aber möglicherweise finde ich da (noch) gar keine (?).
Im Bios schaue ich mich auch mal um. Allerdings habe ich dort eigentlich™ in der letzten Zeit nix gemacht.
Vielen Dank erst mal.
Es bleibt schwierig…
VLG
Stephan
waldbaer59
Ich habe jetzt einen kompletten Hardware Check auf der Maschine laufen lassen und dabei keinen Fehler entdecken können. Sehr merkwürdig. Auch das Smart-Protokoll der HD sieht soweit ok aus.
*grübel*
brikler
waldbaer59 schriebDaneben ist noch ein HDD im System, auf dem SWAP und eine Datenpartition liegt, die unter /home später eingehängt wird.
vielleicht ein wackelkontakt?
ich würde es mal ohne die hdd versuchen.
[gelöscht]
Ist das Mainboard etwas älter?
1. Schon mal die CR2032 Batterie gewechselt?
2. Bei mir hatte ich mal im Bios/Uefi Bootausfälle. So, dass der anfangs bei jeden dritten, vierten boot nicht aus Bios raus kam. Irgendwann wollt der gar nicht mehr. Ich kam auch nicht mehr ins Bios rein.
Die Lüfter drehten nur kurz an, dann wieder stop/aus und reboot.
Der hing dann so in einer Bootschleife. Ich hab dann auf den Laptop gegooglet und den Desktorechner in dieser Bootschleife immer wieder neu booten lassen. Irgendwann, ca. 30min, hat er's geschafft. Das Bios ging plötzlich an und es stand die Meldung die etwa besagte: "corrupt bios, reset to factory standard". Der hat sich dann selbst auf die allererste Bios Version dieses Mainboardgeflasht. Dann hab ich noch mein Bios Version 'f' drauf gemacht und seit dem läuft der wieder wie neu. Ist ein Duab-Bios Gigabyte Board, mit noch Intel Ivy Bridge.
Lösungsvorschlag: Flash doch einfach mal das Efi-Bios neu drüber, einfach mal so als Versuch.
waldbaer59
Das Mainboard ist allerdings etwas älter (lässt sich ja schon an der Modellbezeichnung erkennen), da ich üblicherweise aufbereitete Leasing-Rückläufer einsetze. Ich habe jeweils auch ein Update auf das neueste Bios vorgenommen.
Nun sendet das Bios keine seltsamen Fehlermeldungen - insbesondere 'vergisst' die Maschine keine Einstellungen, was der klassische Hinweis auf eine schwächelnde Batterie wäre. Zudem tritt der Fehler (= "Hänger") auch erst beim Laden des Systems auf.
Gleichwohl kann ich ja trotzdem die CR2032 ja einfach einmal auswechseln - sicher ist sicher! Und dann noch die frischeste / letzte Version nochmal drüber flashen.
Zwischen den Jahren wissen wir dann hoffentlich mehr. Jetzt ist erst einmal Weihnachten angesagt! Vielen Dank für die Gedanken / Tipps bisher 🙂 .
VLG
Stephan
HansHiasl
Hast Du schon mal alles "unnötige" wie CD/DVD-Laufwerk oder Diskettenlaufwerk abgesteckt?
Sind alle Karten sauber gesteckt?
Auch das Netzteil kann schuld sein. Wenn das eine Spannung nicht mehr ganz sauber hält, dann kann das natürlich auch sporadisch Fehler verursachen.
So eine geht-geht nicht-Situation hatte ich auch schon mal. Netzteile haben viele Schwachstellen in Form von Elkos, die altersschwach werden.
Bios einfach so zur Sicherheit "drüberflashen" würde ich als allerletzte Option machen.
Wenn da was kaputt ist, dann hat das einen triftigen Grund.
waldbaer59
Hmmmm, ein bisschen was kann ich noch herausnehmen, nämlich eine USB3 Karte. Dann ist aber wirklich das System von den Komponenten her minimiert. Ein anderes Netzteil? Weil das Gerät, wenn es ab und zu hängen bleibt dies immer an derselben Stelle passiert hatte ich das gedanklich nicht in Verbindung gebracht. Werde ich auch mal testen.
Da Weihnachten und deswegen andere Prioritäten bitte ich aber noch ein wenig um Geduld bis ich Rückmeldung geben kann.
Lieben Dank
Stephan
[gelöscht]
Wenn du dann mal wieder an der Kiste bist und du feststellst, dass es doch was mit deiner USB3 Karte zu tu hat: Vielleicht hat deine Karte ein Renesas Chipsatz.
Falls das dann zufällig ein uDP-Chipsatz ist, dafür gibt's eine Firmware als AUR-Paket:
https://aur.archlinux.org/packages/upd72020x-fw/.
Bei
mkinitcpio -p linux steht dann auch nicht mehr dass
xhci_pci nicht gefunden wurde.
AW_archde
waldbaer59
Hallo zusammen,
diese Woche werde ich nochmal in das System eintauchen. Hoffentlich kommt dabei was Greifbares heraus. An Anregungen mangelt es ja nicht! 🙂
waldbaer59
Hallo nochmal,
wollte nur einen Zwischenstand geben. Aktuell sind keine Hänger aufgetreten, aber ich kann das nicht an einer bestimmten Aktion festmachen. Die RAM-Riegel hatte ich ja alle mal raus und neu eingesetzt sowie erneut getestet. Und ich habe im BIOS (neben USB und CD/DVD) nur die SSD als für das Booten in Betracht zu ziehen markiert (also die HD aus der Liste der bootfähigen Devices herausgenommen). Jetzt warte ich mal ab. Und solange nix passiert kann ich hier halt auch nix schreiben. Wenn was sein sollte melde ich mich wieder.
Vielen Dank für die bisherigen Ideen / Anregungen.
Einen guten Rutsch!
Stephan
waldbaer59
Da bin ich wieder 🙂 .
Leider hat sich das Problem - nachdem ich das Netzteil zum Test gewechselt hatte war es eine Zeit lang gar nicht mehr aufgetreten - nun ab und zu wieder eingestellt. Ich werde wohl die USB3-Erweiterungs-Karte entfernen und schauen ob das was bringt.
Von den oben geäußerten Verdächigungen scheint mir ein Timing-Problem durchaus plausibel, was aber die weitere 'Forschung' nach der Ursache nicht wirklich erleichtert. Dumm auch dass es ausgerechnet mein hergottsbester Arbeitsrechner ist, den es betrifft. Da probiert man ungern mehrere Tage am Stück herum, zumal das Problem eben nicht einfach so reproduzierbar ist.
Falls noch jemand eine Idee haben sollte, wie systematisch vorzugehen sei, würde ich mich freuen.
VLG
Stephan
Greg
Hmm, stochern im Nest,
Dell ist ja leider etwas bekannt, was schlechte Elkos im Mutterbrett betrifft. (Aufgeblähte Elkos). Ist sowas auf dem Board zu erkennen?
Ein Auslöten eines solchen war damals erfolglos. Mit dem Multilayern Boards ist das echt übel zu machen.
Was ich mal noch probieren würde.
Festplatten alle abstecken.
Eine CD mit einem Linux mit grafischer Oberfläche benutzen.
Das Ding mit irgendwas knüppeln um den zum Rotieren zu bringen. Also ordentlich belasten.
Vielleicht kennt Jemand ein Tool um das zu machen oder noch besser eine Distri-CD wo das schon drauf ist.
Rams hast du ja schon geprüft. Netzteil ist ausgetauscht und kann man auch ausschliessen.
Falls das zum Ausfall kommt, thermisches Problem? Mit lm-sensors kann man die Temperaturen anzeigen lassen. Dann mal den Kühlkörper vom Prozessor nehmen und neue Wärmeleitpaste dazwischen streichen. Natürlich Staubmäuse kräftig ausblasen damit das Ding Luft bekommt.
Hier sind doch einige Kenner die mit PC-Kram Jobmäßig professionell damit zu tun haben. Ist diesbezüglich bei Dell was bekannt?
Bei uns im Laden ist ja ein Admin der ist da sehr schnell. Wenn das Ding nicht mehr geht, sagt der da, „muß en Nöer her“.
In der Hoffnung das das was bringt....
Gruß aus DN
Greg
Etwas später: deinen Beitrag von ganz oben nochmal gelesen:
Installiere dir noch zusätzlich den LTS-Kernel. Versuch es damit mal.
waldbaer59
Ich bin immer noch am überlegen, warum sich ein möglicher Fehler - an welcher Komponente dies auch sein mag - nur sporadisch und immer nur an derselben Stelle äußert. Das macht es mir so schwer, die vorgeschlagenen Möglichkeiten zu bewerten. Immerhin hat das System bis dahin ja ...
: Die Meldung des Mainboards angezeigt.
: Die Laufwerke gestartet.
: Auf die SSD zugegriffen und die Syslinux Boot Info / Auswahl prozessiert.
...und möchte nun einfach die initramfs auspacken. Egal was ich in Verdacht habe (selbst die SSD habe ich schon überlegt) - müsste es da nicht reproduzierbar hängen?
Nun gut - ich werde es weiter beobachten. Ein Intel Mainboard habe ich noch in Reserve, eine SSD wäre auch recht flott besorgt. Leider ist die Position der Komponenten auf dem Board so, dass das DELL-Gehäuse damit obsolet würde. Na ja, irgendwas ist immer....
VLG
Stephan
Ach ja: "sporadisch" bedeutet aktuell im Schnitt alle 10 bis 20 Startvorgänge einmal.
tuxnix
nur sporadisch und immer nur an derselben Stelle
Loading ../initramfs-linux.img
Ich würde mal schauen, ob es sich bessert wenn das 'timeout' des bootloaders etwas höher eingestellt ist.
Der Gedanke dabei ist, dass beim Einschalten alle Komponenten gleichzeitig versorgt werden müssen und dass bei dem älteren Mainboard eventuell auch mal Unterspannung z.B am Controller auftreten könnte. Dann macht der gerade dann I/0 Fehler wenn der kernel geladen wird.
Nur so eine Idee
Gruß tuxnix
waldbaer59
Abschließend noch eine Anmerkung zu dem Thema.
Ich habe nun meine Platten in eine andere Hardware verfrachtet. Leider konnte keine Maßnahme erreichen, dass diese Hänger aufgehört haben. Es wurde höchstens gefühlt eine Weile besser, bevor der Effekt erneut aufgetreten ist. Ich vermute eine schleichende Verschlechterung von Hardware Bauteilen, die gelegentlich einen Totalausfall gebracht hätte.
Vielen Dank für euren Input.
VLG
Stephan