Cos’è S.M.A.R.T. e come prevenire malfunzionamenti e perdite di dati

L’acronimo S.M.A.R.T. sta per Self-monitoring Analysis and Reporting Technology ed è una tecnologia della quali sono dotati tutti gli hard disk moderni. È stata introdotta da IBM negli anni ’90 per rilevare automaticamente anomalie e fornire quindi un feedback “anticipato” sui malfunzionamenti che possono riguardare l’unità, sia essa meccanica che SSD. Il disco stesso fornisce autonomamente una serie di dati, chiamati attributi, che possono essere letti in tempo reale dal sistema e che quindi permettono di determinare se ci sono guasti o anomalie, in modo da poter intervenire più precisamente (e velocemente) possibile.

Come accennato, tutti i moderni hard disk hanno questa funzionalità, anche se non è un obbligo per il costruttore implementarla. Difatti, con alcune unità più datate, i dati SMART possono non corrispondere a quelli di altre unità di altre marche. Esiste però una tabella di attributi “generali” (che sono oltre 30) ma ogni produttore ne implementa o meno alcuni, abilitando o meno la lettura degli attributi di funzionamento del disco. Oltre questo, anche la scala che ciascun valore può avere per essere definita “Normale” è qualcosa che il singolo produttore decide arbitrariamente, ammesso che alcuni attributi vanno semplicemente interpretati come “meglio se alto” o “meglio se basso”. Visualizzare questi dati è molto semplice, esistono molti tool online, anche gratuiti, che permettono di leggere in real time gli attributi delle proprie unità.

Anche se gli attributi S.M.A.R.T. sono di per sé accurati perché è la stessa unità che, utilizzando i suoi sensori interni, ci fornisce i dati, è l’interpretazione di questi attributi che ci può dire lo stato di salute di un disco e quanto vicino può essere il suo eventuale malfunzionamento.

In uno studio del 2016, il cloud provider Backblaze ha provato a capire quanto sia affidabile la lettura dei dati S.M.A.R.T. e quanto possano essere realmente efficaci per prevedere il guasto di un hard disk nell’immediato futuro.

Per prima cosa, Backblaze ha scelto quali attributi utilizzare per capire lo stato di salute delle sue unità, tutte meccaniche. Questi dati sono stati scelti nella lista degli attributi:

 

Quando uno di questi attributi diventa maggiore di zero, è ragionevole cominciare ad investigare. Questo modello è stato applicato ad oltre 70.000 hard disk, ed è emerso che cercando le unità che si sono danneggiate che avevano uno o più di questi attributi maggiori di zero, il 76,7% si trovava in una di queste condizioni. Il dato ci dice anche che il restante 23,3% degli hard disk danneggiata non mostrava alcun errore S.M.A.R.T..

Un’unità che ha uno di questi valori > 0 quindi non dice con certezza che al momento vi sia un problema: ad esempio un dato hard disk potrebbe avere un dato SMART 5, ovvero il Conteggio dei settori non riallocati, pari a 2 ma questo ci direbbe davvero poco della sua condizione di salute globale.

Un punto diverso di osservazione è quello di aggregare i vari attributi S.M.A.R.T., guardando qual è l’incidenza di uno, due, tre, quattro o tutti e cinque i valori presi in oggetto, maggiori di zero:

Il risultato è dipende. La correlazione che c’è tra l’incremento dell’attributo SMART 5 e SMART 197 è buon indicatore della salute dell’unità e la società decide di sostituirla quando SMART 5 arriva a 5 (cinque) e SMART 197 arriva ad un valore di 20 (venti).

Una osservazione riguarda il parametro SMART 189. Negli hard drive meccanici esiste un sensore che misura l’altezza della testina rispetto ai piatti. Questo attributo indica il numero di volte che la testina è “volata troppo in alto” ed ha interrotto la lettura/scrittura (High Fly Writes). Quasi il 50% delle unità rotte aveva questo parametro maggiore di zero.

Infine, è interessante osservare l’attributo SMART 12, che ci dice quanti sono stati i cicli di accensione. Un dibattito in voga sin dagli anni 80 riguarda il “tenere l’unità accesa o spegnerla quando non serve?“. Il processo di startup, ovvero di accensione di un hard disk, infatti, è momento molto impegnativo per le parti meccaniche. Analizzando il numero di accensioni, Backblaze ci dice che quella media delle unità sostituite è di 27 volte, un numero molto lontano da quelli che un computer o una workstation accesa e spenta ogni giorno fa, ma che si avvicina ad alcuni contesti di data storage, come un NAS che resta idealmente accesso h24 e nella sua vita esegue pochissimi cicli di accensione/spegnimento.

In conclusione, non possiamo affidarci completamente al monitoring dei dati S.M.A.R.T., ma è certo che tenere sotto controllo alcuni dei valori, come quelli che vi abbiamo indicato, può dare un bilancio abbastanza attendibile sullo stato di salute di un hard disk, e della probabilità che esso ha di smettere di funzionare.

Leggi anche
In quali situazioni è davvero impossibile recuperare i dati?

Nella stragrande maggioranza delle situazioni, il recupero dei dati è un’opzione molto valida. Ma esistono almeno 3 situazioni gravi che possono rendere davvero impossibile il recupero dei dati.

5G e sicurezza: cosa possiamo fare per proteggere i nostri dati

La tecnologia 5G sta diventando sempre più popolare: oltre i grandi vantaggi essa presenta anche alcune importanti sfide alla sicurezza informatica. Vediamo insieme cosa possiamo fare per tenere al sicuro i nostri dati

Recupero dati sicuro e veloce a partire da € 299

Con un team di tecnici specializzati, tecnologie avanzate ed esperienza nel settore, riusciamo a fornire un recupero dati sicuro e conveniente. Richiedi una valutazione gratuita.

INVIA RICHIESTA