DeepSeek presenta Fire-Flyer File System: un sistema de archivos paralelo optimizado para IA basado en Linux
DeepSeek, la empresa china especializada en inteligencia artificial, ha dado un paso más en el desarrollo de herramientas tecnológicas para optimizar el procesamiento de datos en grandes volúmenes. Su nueva propuesta es Fire-Flyer File System (3FS), un sistema de archivos paralelo diseñado para mejorar la eficiencia en tareas de entrenamiento e inferencia de modelos de IA.
El almacenamiento y acceso a datos son aspectos cruciales en entornos de inteligencia artificial, especialmente cuando se manejan grandes conjuntos de datos y se requiere rapidez en la transferencia de información. Los sistemas tradicionales no siempre cumplen con las exigencias actuales y, en este contexto, DeepSeek ha desarrollado 3FS como una solución escalable y de alto rendimiento.
Características clave de Fire-Flyer File System
3FS es un sistema de archivos distribuido basado en Linux, optimizado para su uso en entornos de computación de alto rendimiento (HPC) e inteligencia artificial. Su diseño permite una gestión eficiente del almacenamiento, minimizando la latencia y mejorando el acceso a los datos.
- Optimización para hardware moderno: 3FS aprovecha al máximo el rendimiento de las unidades SSD y de las redes RDMA, lo que permite alcanzar velocidades de lectura de hasta 6.6 TiB/s en configuraciones de clúster de 180 nodos.
- Arquitectura paralela: Su diseño distribuido facilita la expansión del sistema sin comprometer la estabilidad ni la velocidad de acceso.
- Basado en FUSE: Esto permite ejecutar el sistema en el espacio de usuario sin necesidad de modificar el kernel de Linux, facilitando su implementación y compatibilidad con diversas distribuciones.
- Enfoque en la velocidad de lectura: Priorizando la lectura aleatoria en detrimento del almacenamiento en caché, algo crucial en modelos de IA que requieren acceso inmediato a grandes volúmenes de datos.
Un sistema probado en entornos reales
DeepSeek ha utilizado 3FS en sus propios servidores desde 2019, lo que ha permitido perfeccionar su funcionamiento en situaciones reales. En pruebas recientes, el sistema logró 3.66 TiB/min en benchmarks de clasificación de datos y más de 40 GiB/s por nodo en tareas de búsqueda KVCache.
Además, este sistema ha sido empleado en el clúster Fire-Flyer 2 de la compañía, donde ha permitido alcanzar rendimientos similares a los de servidores de alta gama como los NVIDIA DGX-A100, pero a un coste significativamente menor. Según los datos presentados por la empresa, lograron el 80% del rendimiento de un DGX-A100 con un 50% de su coste y un 60% de su consumo energético.
Un impulso al ecosistema de código abierto
Uno de los aspectos más llamativos de este lanzamiento es que DeepSeek ha decidido liberar el código de 3FS bajo la licencia MIT, lo que permite que la comunidad de desarrolladores acceda, modifique y adapte el sistema según sus propias necesidades. Esta estrategia de apertura se enmarca dentro de la iniciativa Open Source Week de la empresa, donde han liberado otros proyectos relacionados con IA.
El código de Fire-Flyer File System está disponible en GitHub, lo que facilita su adopción por parte de investigadores y empresas que busquen optimizar sus flujos de trabajo en inteligencia artificial y computación de alto rendimiento.
La aparición de 3FS en el panorama de los sistemas de archivos distribuidos supone una alternativa a soluciones existentes como Ceph, la cual, en pruebas comparativas, alcanzó apenas 1.1 TiB/s en lectura en configuraciones de menor tamaño.
Con este lanzamiento, DeepSeek demuestra su apuesta por la innovación tecnológica aplicada a la inteligencia artificial. Al ofrecer un sistema de almacenamiento eficiente y accesible, la compañía refuerza su posición en el sector y proporciona herramientas clave para el desarrollo de nuevos modelos de aprendizaje automático y computación avanzada.