El uso de ZFS está causando perdida de datos en algunos discos Western Digital
IXsystems (desarrollador del proyecto FreeNAS) ha advertido sobre serios problemas con la compatibilidad de ZFS con algunos de los nuevos discos duros WD Red lanzados por Western Digital utilizando la tecnología SMR (Shingled Magnetic Recording), en los cuales el uso de ZFS en unidades problemáticas puede provocar la pérdida de datos.
Este problema con los discos WD Red con una capacidad de 2 a 6 TB, lanzados desde 2018 surge en aquellos que usan la tecnología DM-SMR para la grabación y están marcados con la etiqueta EFAX (el identificador EFRX se usa para discos CMR).
Western Digital señaló en su blog que WD Red SMR está diseñado para su uso en NAS para hogares y pequeñas empresas, en el que no se instalan más de 8 unidades y se observa una carga de 180 TB por año, lo cual es típico para copias de seguridad y uso compartido de archivos.
La generación anterior de unidades WD Red y modelos WD Red con una capacidad de 8 TB o más, así como unidades de línea WD Red Pro, WD Gold y WD Ultrastar, se siguen fabricando utilizando la tecnología CMR (grabación magnética convencional) y su uso no causa problemas con ZFS.
Sobre SMR
La esencia de la tecnología SMR es el uso de una cabeza magnética en el disco, cuyo ancho es mayor que el ancho de la pista, lo que lleva a la grabación con una superposición parcial de la pista vecina, es decir:
Cualquier sobrescritura hace necesario sobrescribir todo el grupo de pistas. Para optimizar el trabajo con tales unidades, se utiliza la zonificación, el espacio de almacenamiento se divide en zonas que forman grupos de bloques o sectores, en los que solo se permite la adición secuencial de datos con la actualización de todo el grupo de bloques.
En términos generales, los discos SMR son más eficientes en términos de consumo de energía, son más asequibles y demuestran una ganancia de rendimiento en el registro secuencial de datos, pero se retrasan en las operaciones de escritura aleatoria, incluidas las operaciones como la reconstrucción de matrices de almacenamiento.
DM-SMR implica que las operaciones de distribución de datos y zonificación están controladas por un controlador de disco y, para un sistema, dicho disco se parece a un disco duro clásico que no requiere manipulaciones separadas. El DM-SMR utiliza el direccionamiento de bloque lógico (LBA), que se asemeja al direccionamiento lógico en SSD.
Ya se trabaja en una solución
Western Digital, que junto con iXsystems está tratando de encontrar una solución y preparar una actualización de firmware, está involucrado en el análisis de las condiciones bajo las cuales surgen los problemas. Antes de la publicación de conclusiones sobre la resolución de problemas, se planea probar las unidades con nuevo firmware en almacenamientos altamente cargados con FreeNAS 11.3 y TrueNAS CORE 12.0.
Se argumenta que debido a las diferentes interpretaciones de SMR por diferentes fabricantes en algunos tipos de discos SMR, no hay problemas con ZFS, pero las pruebas realizadas por iXsystems se enfocan solo en probar discos WD Red basados en tecnología DM-SMR y para discos SMR de otros fabricantes Se requiere investigación adicional.
Actualmente, los problemas con ZFS se prueban y repiten en pruebas para al menos unidades WD Red 4TB WD40EFAX con firmware 82.00A82 y están apareciendo un estado de falla con una alta carga de escritura, por ejemplo, al realizar una reconstrucción del almacenamiento después de agregar una nueva unidad a la matriz (recuperación). Se supone que el problema también aparece en otros modelos WD Red con el mismo firmware.
Si se produce un problema, la unidad comienza a devolver un código de error IDNF (ID de sector no encontrado) y queda inutilizable, lo que se trata en ZFS como una falla de la unidad y puede provocar la pérdida de datos almacenados en la unidad.
Si fallan varias unidades, se pueden perder los datos en el vdev o grupo. Se observa que las fallas mencionadas ocurren muy raramente: de un millar de sistemas FreeNAS Mini vendidos, que estaban equipados con discos problemáticos, el problema surgió solo una vez en condiciones de trabajo.