Inhaltsverzeichnis • • • • • • • • • • • • Überblick [| ] Die Auswertung der überwachten Daten erfolgt beim Starten des Rechners durch das entsprechend eingestellte, bzw. Andere, oder durch spezielle Software, die zusätzlich zum installiert werden muss. Beispielsweise stellt dafür seit einen Treiber bereit, der dann von dieser Software angesprochen wird. Dabei orientiert sich das Programm an vom Festplattenhersteller festgelegten Grenzwerten für die einzelnen Parameter, etwa für die Temperatur. Nach einem längeren Zeitraum kann die Software dann auch zu erwartende Ausfälle prognostizieren. Das „Abschalten“ von S.M.A.R.T. Etwa in den BIOS-Einstellungen schaltet nicht die Datenerfassung, sondern nur die Warnungen bei Überschreitung der Schwellenwerte ab. Gespeichert werden die gesammelten Daten in einem reservierten, durch Programme nicht änderbaren Bereich der Festplatte. Die gesamte Überwachung verlangsamt die Festplatte nicht, da sie das Geschehen nur protokolliert, ohne korrigierend einzugreifen. Das erledigen bereits festplatteninterne Mechanismen, so bei Erschütterungen, die wiederum schon vor S.M.A.R.T. Alles Weitere, etwa Laufleistung und Temperatur, wird durch speziell dafür eingebaute Sensoren und Chipfunktionen erfasst. Dabei gibt es eine Einteilung in „Online“-Parameter, die permanent notiert werden, und jene, die in Ruhepausen aktualisiert werden, wenn das Laufwerk gewissermaßen „offline“ ist. Aussagekraft [| ] S.M.A.R.T. Bleibt auf die damit überwachten Massenspeicher wie Festplatten oder SSDs beschränkt und liefert keine Aussage zur Gesamtzuverlässigkeit des Rechnersystems. Eine Verknüpfung der gewonnenen Daten mehrerer Massenspeicher gibt es nicht. Auch ist das System nicht normiert, sondern es bleibt den Herstellern überlassen, welche Parameter sie in welchen Grenzen überwachen. Unter Anwendern wird auch die Genauigkeit der Überwachung diskutiert. So gelten manche Temperatursensoren als falsch platziert oder zu optimistisch eingestellt, da sie beim Start des Systems z. B. Deutlich unter Raumtemperatur liegen. Eine unabhängige -Studie, die über neun Monate ging, alle Hersteller und insgesamt 100.000 Festplatten umfasste, brachte 2006 folgendes Ergebnis: Unter Einbeziehung aller sind 64% aller Ausfälle mit S.M.A.R.T. Dabei wurden alle anderen, also akustisch oder als Datenfehler bemerkbaren, Warnsignale ignoriert. Beim übrigen Drittel aller Ausfälle meldete sich die Festplatte selbst fälschlicherweise als problemfrei. Die Beanspruchung der Festplatte hatte dabei einen weit geringeren Einfluss auf ihre Haltbarkeit als bisher angenommen. Übersteht ein Laufwerk das erste Jahr, spielt der Leerlaufanteil bis zu seinem turnusmäßigen Austausch nach vier Jahren keine Rolle mehr. Nur im ersten und nach dem vierten Jahr verdoppelt permanentes Lesen und Schreiben die Ausfallrate. Geschichte [| ] 1992 erkannte, dass mit zunehmender Verbreitung von PCs in Unternehmen ebenso das in sie gesetzte Vertrauen stieg. Ausfälle wurden zunehmend zu einem finanziellen Problem, dem man mit PFA (Predictive Failure Analysis) begegnen wollte. IBM-Festplatten mit diesem System teilten dem Computer jegliche Parameteränderungen mit, damit dessen Nutzer so rechtzeitig mit Austausch reagieren konnte. Etwas später wurde durch IntelliSafe vorgestellt. Dieses filtert Irrelevantes und meldet der mitlaufenden Software nur die bedrohlichen Änderungen und Sollwerte., und waren an der Entwicklung beteiligt und passten es an ihre Produkte an; Compaq selbst fertigte keine Festplatten. Das Potenzial ahnend und mit einem Industriestandard vor Augen, wurde die Offenlegung des Systems durch Compaq und insbesondere Seagate forciert. Ihre Logindaten werden überprüft. DIESES THEMA GILT FÜR: SQL Server (ab 2008) Azure SQL-Datenbank Azure SQL Data Warehouse Parallel Data Warehouse THIS TOPIC APPLIES TO: SQL Server. Versuch und Irrtum (englisch trial and error). Die er durch einen wie ein T geformten Gang vom Fußpunkt aus zu dem Querbalken kriechen ließ. Zusammen mit Conner, Quantum, und dann auch IBM entstand eine Fusion der beiden Ansätze unter dem Namen S.M.A.R.T. Seit 1996 und dem Start des -3-Standards, respektive -3 vier Jahre zuvor, gehört es beinahe ausnahmslos zur Standardausstattung einer Festplatte. Die Spezifikation für die S.M.A.R.T.-Parameter wurde jedoch vor der Verabschiedung des ATA-3-Standards wieder entfernt (siehe ). Daher sind weder die Bedeutung der gespeicherten Werte noch deren Skalierung festgeschrieben (zu letzterem siehe auch ). Nur ihr Speicherort ist offiziell standardisiert. So gibt es strenggenommen auch laut ATA-7-Standard keine Möglichkeit, beispielsweise die Temperatur einer Platte auszulesen. Praktisch alle erhältlichen Platten halten aber das Datenformat aus dem ATA-3-Entwurf ein. Ein auslesendes Programm ergänzt zur besseren Verständlichkeit noch zu jeder Parameter-ID eine Bezeichnung wie „Seek Error Rate“. Über die Jahre entstand so ein verlässlicher De-facto-Standard. (SSDs) benötigen systembedingt viele der bisherigen Prüfpunkte nicht mehr, dafür aber andere, neue. Hierfür fehlt jedoch bislang eine Abstimmung zwischen den SSD-Controller-Herstellern. Im Ergebnis wurden teilweise neue Parameter-IDs ergänzt, mitunter aber auch bestehende IDs einfach mit einer neuen Bedeutung versehen. Daraus entstehen Fehlinterpretationen in allen S.M.A.R.T.-Programmen, welche noch nicht die Bedeutung in den neuen Laufwerken kennen. Eine Kurzauswertung wichtiger S.M.A.R.T.-Parameter ist zudem allerdings auch in den meisten -Versionen enthalten, so dass beim Anschalten des Computers Warnmeldungen zu defekten SSDs erscheinen können. In diesem Fall ist eine Abschaltung der S.M.A.R.T.-Selftest-Funktion im BIOS empfehlenswert und eine manuelle Prüfung mit einem aktuellen Programm im Betriebssystem anzuraten (siehe ). Variationen nach Anschluss [| ] Die Umsetzung des S.M.A.R.T.-Standards unterscheidet sich je nach dem Festplattenanschluss im PC. Davon gibt es zwei: - und -Standard. Beide kennen den HEALTH STATUS. Dabei gibt die des Laufwerks an, ob es sich als „okay“ oder als „problematisch“ einstuft. Beide Standards unterstützen auch das Auslesen der Temperatur und mehrere Varianten von Selbsttests und Logbüchern. Bei ATA-Festplatten können zusätzlich über eine mitlaufende Software zahlreiche Werte und ihre Grenzen abgefragt werden. So kann die Software oder der Nutzer genauer einstufen, ob und warum ein Fehler auftreten wird. Diese Parameter sind allerdings nicht genau standardisiert und unterscheiden sich in Umfang und Interpretation, auch zwischen Modellen eines Herstellers. Die Kommandos und Datenformate für alle diese Funktionen sind allerdings bei ATA und SCSI völlig unterschiedlich implementiert. Auf dem -Anschluss werden im Grunde SCSI-Kommandos übertragen. Die über USB angeschlossenen Festplatten sind aber fast ausnahmslos keine SCSI-, sondern (S)ATA-Platten. Im Zuge der Einführung der Schnittstelle wurde das Protokoll (UAS) eingeführt, dieses kann auch auf USB 2.0 mit reduzierter Geschwindigkeit verwendet werden, welches im Gegensatz zu den technisch einfacheren Bulk-Transfer der USB-Speichersticks eine Tunnelung der ATA-Kommandos über den USB-Bus ermöglicht und die SMART-Abfragen über USB ermöglicht. Chip-Hersteller wie Cypress, JMicron oder SunPlusIT verwenden herstellerspezifische Kommandos. Einige Programme beherrschen diese Kommandos (siehe Abschnitt ). Daneben gibt es auch USB-SATA-Bridges, die den herstellerunabhängigen -Standard unterstützen. Der -Anschluss – besonders bei -Computern üblich – ermöglicht die Übermittlung nativ, nutzt das aber nicht. Per angeschlossene Laufwerke sind wie ihre internen -Pendants problemlos auslesbar. Über (SAS) angeschlossene -Platten können geprüft werden, wenn die entsprechenden -Kommandos zur Verfügung stehen. Für gibt es zu S.M.A.R.T. Analoge Funktionen mit der Bezeichnung TapeAlert. Sie dienen zur Warnung bei abgenutzten Bändern. Auswertung [| ] Übliche Parameter [| ] Jeder Wert wird zuerst als Raw-Data gespeichert. Dieser wird dann zum besseren Verständnis auf einer Werteskala von 0 bis 100, 200 oder 255 einsortiert. Die unterschiedlichen Skalen dienen dabei einer feineren Abstufung, wo der Hersteller sie für sinnvoll erachtet. Mit dem Skalenmaximum startend, nähert sich der Wert (value) bei Fehlern oder zunehmendem Alter null. Häufig ist die kritische Grenze (Threshold) aber schon weit darüber angesiedelt. Nachstehende Tabelle zeigt die einzelnen Parameter und die Bewertung der jeweiligen Raw-Werte auf (nicht zu verwechseln mit den Values der Werteskala): Legende der Raw-Werte A. • Parkvorgänge der Schreib-Lese-Einheit auf die neben den Platten befindliche Plastikrampe. • Meist nur bei Notebooklaufwerken. Deutet auf Abnutzung hin; vorgesehen sind rund 300.000 – der Raw-Wert zeigt die bisherigen. • Geparkt wird die Schreib-Lese-Einheit beim Ausschalten oder nach rund 10 s Leerlauf. Das erzeugt ein mitunter irritierendes Geräusch. Kommt das Notebook zu Fall, stößt so die Schreib-Lese-Einheit nicht mehr auf die Magnetscheiben. Die Stoßfestigkeit wird auf rund 1000 verdreifacht. Auch das An- bzw. Ausschalten ist schonender, da die Einheit nicht schleifend auf einen Sonderbereich der Platten abgesenkt wird („“). 194 0xC2 Drive Temperature Festplatten-Temperatur. • Temperatur des Laufwerkes in °C • Da manche Laufwerke auch Maximal- und Minimalwert speichern, ist eine frühere Unterkühlung oder Überhitzung während des Betriebes erkennbar. Der als raw-value angegebene Wert enthält dann alle drei Zahlen hintereinander. • Hohe Temperaturen (ab 40 °C) haben erst nach drei Jahren Auswirkung. In diesem Jahr verdoppeln sie die Ausfallwahrscheinlichkeit. Danach verlieren sie ihre Bedeutung wieder. Über alle Alter gemittelt, sind Temperaturen unter 25 °C weit gefährlicher als solche über 40 °C. 20 °C verdoppeln, 15 °C verdreifachen die Ausfallrate; gemessen wurde dabei bis 52 °C. Manche Hersteller verwenden ungenaue oder falsch platzierte Sensoren. 195 0xC3 Hardware ECC Recovered gerettete Bitfehler. • korrigierte Bitfehler beim Lesen • Kann auf Problem mit der Plattenoberfläche hindeuten. • Die hohe Datendichte heutiger Festplatten hat zur Folge, dass beim Lesen die Fehlerkorrektur zwangsläufig anschlägt. [Beleg?] Auch sehr hohe Werte hier sind also kein Grund zur Beunruhigung. • -Laufwerke der P80-Serie tragen hier fälschlicherweise oft sehr niedrige Skalenwerte ein. Generell sind sehr hohe Raw-Werte üblich, die wegen Wechseln von einer Technik auf eine neuere (engl.: „technology change“) auch zwischen Modellen desselben Herstellers nicht vergleichbar sind. Sie steigen bei Lesevorgängen, da nur dann eine Fehlerkorrektur stattfindet. Ausfallrelevant sind nur die Skalenwerte. Selten werden die Werte auch „ECC On-the-fly“ genannt. 196 0xC4 Reallocation Event Count. • Anzahl der nicht per Software korrigierbaren Lesefehler. Es gibt noch zahlreiche weitere Parameter, auch herstellerexklusive. Vollständige Listen finden sich im Literatur-Abschnitt der Weblinks. Beispiel [| ] Die Auswertung wichtiger S.M.A.R.T.-Parameter am Beispiel einer Hitachi 250 GB-Festplatte, angeschlossen über und ausgelesen mit den. Parameter-ID Parametername Value (normalisierter aktueller Messwert) Worst (bisher schlechtester Wert) Threshold (Grenzwert – Value sollte größer sein) Typ (maximaler Messwert kurz vor dem Ausfall) Updated (Echtzeit- oder Messwert nach einem Selbsttest) RAW Value (eigentlicher Messwert) Bemerkung 2 Throughput Performance 100 100 050 Pre-fail Offline 0 3 Spin Up Time 118 118 024 Pre-fail Always 294 Hitachi verwendet eine eigene Zählweise, keine (Milli-)Sekunden. 4 Start Stop Count 100 100 000 Old age Always 772 772 mal wurde der Festplattenmotor an-/ausgeschaltet, inklusive Standby-Starts. 5 Reallocated Sector Count 100 100 005 Pre-fail Always 55 55 Sektoren wurden wegen Defekts gegen Reservesektoren ausgetauscht. Das Laufwerk schätzt das aber noch als problemlos ein (der Value ist nach wie vor 100) – vielleicht zu Unrecht. 7 Seek Error Rate 100 100 067 Pre-fail Always 0 Bisher gab es keine Schreib-/Lesefehler. 9 Power On Hours 100 100 000 Old age Always 1775 Laufwerk wurde bisher 1775 Stunden mit Strom versorgt. Das umfasst auch Standbyphasen, in denen die Platten stillstanden. Wenn das Auswertungsprogramm das Festplattenmodell nicht kennt, muss man selbst einschätzen, ob der Wert Stunden, Minuten oder Sekunden darstellt. 10 Spin Retry Count 100 100 060 Pre-fail Always 0 Bisher gab es keine Fehlstarts, die Festplatte lief immer problemlos an. 12 Power Cycle Count 100 100 000 Old age Always 745 Bisher wurde der PC mit dieser Festplatte 745-mal an- und ausgeschaltet. 194 Temperature 161 161 000 Old age Always 34 +( 102 16 + 492 32) Aktuelle Temperatur wäre hier 34 °C. Bisherige Lebensmaxima des Laufwerkes waren 10 °C bzw. Value ist daher von 200 auf 161 gesunken. 199 UDMA CRC Error Count 200 253 000 Old age Always 730 Bisher gab es 730 Übertragungsfehler zur Hauptplatine („mainboard“). Ursache ist entweder ein fehlerhafter Festplatten-Controller, ein defektes Anschlusskabel oder ein. Value ist ein normalisierter Messwert, der zumeist rückwärts zählt (je niedriger, desto schlechter). Worst der bisher schlechteste Wert. Threshold die Grenze, unter die der Wert nicht fallen darf. Typ steht für die Bedeutung des Parameters: „Pre-fail“ ist eine Warnung vor einem baldigen Ausfall, während „Old age“ bedeutet, dass es sich allgemein um fortschreitende Alterung handelt (Die aktuelle Temperatur fällt nicht unbedingt in eine der beiden Kategorien). Updated zeigt an, ob der Wert permanent (always) oder erst durch einen vom Typ „Offline data collection“ aktualisiert wird. RAW Value ist der eigentliche Messwert, also etwa die gemessene Temperatur oder die Zahl der Fehler. Auswertung: Laut festplatteneigener Einschätzung ist dieses Laufwerk völlig in Ordnung. Nirgends wurde der Grenzwert annähernd erreicht. Nur die 55 ausgewechselten Sektoren sind bedenklich. Dieser Wert sollte daher im Blick behalten werden. Erhöht sich nach dem vorgenommenen Kabeltausch aber der „UDMA CRC Error Count“ nicht weiter und wird die Kühlung so verbessert, dass etwa 45 °C (Temperature) nicht mehr überschritten werden, ist das Laufwerk eigentlich problemlos weiter verwendbar. Selbsttest und Fehler-Logbuch [| ] Neben der laufenden Protokollierung obiger Parameter gibt es noch weitere Tests. Einige Hersteller starten diese periodisch im Leerlauf, andere überlassen das dem Nutzer. Das kann er mit manchen der angebotenen durchführen. Was schließlich getestet wird, ist ebenso herstellerbestimmt. Standard ist ein Kurztest mit Prüfung aller Parameter, gefolgt von Stichproben der Lesbarkeit der einzelnen Scheiben. Die Langversion tauscht die Stichprobe gegen eine Komplettüberprüfung. ATA-6 ergänzt zwei weitere Varianten. Die eine empfiehlt sich nach einem Laufwerkstransport (genannt Conveyance – ähnlich dem Kurztest), die andere ermöglicht die Prüfung selbst wählbarer Bereiche des Laufwerkes (Selective – ähnlich dem Langtest). Seit 1999 und dem ATA-5-Standard werden aufgetretene Fehler nicht nur in die Parameterwerte eingerechnet (Ergebnis etwa: „Fehlerrate: hoch“), sondern ausführlich protokolliert. Notiert werden dabei die Fehler, die Zeit seit dem letzten Anschalten und die fünf zuvor ausgeführten Schritte. Für die Ergebnisse der obigen Selbsttests gibt es sogar eine eigene Tabelle. Generell gelten hier nur aktuelle Fehlerhäufungen als bedenklich. Unterstützt die Festplatte das Erneuern ihrer, wird beim Neuschreiben derselben (gleich, mit welcher Version) das Fehlerprotokoll gelöscht. Die Parameterwerte bleiben meist erhalten. S.M.A.R.T.-Programme im Vergleich [| ] In der folgenden Tabelle sind bekannte Programme zum Auslesen der S.M.A.R.T.-Daten aufgeführt.
0 Comments
Leave a Reply. |
AuthorWrite something about yourself. No need to be fancy, just an overview. Archives
March 2019
Categories |