Microsoft presenta MarkItDown, una herramienta para convertir sus documentos a Markdown
Hace un tiempo, poco después de publicar una guía sobre Markdown, busqué información para saber si se podía usar LibreOffice para crear ese tipo de documentos. No encontré nada, a no ser que respuestas del tipo «¿para qué quieres hacer eso?» cuenten. La idea era crear un documento con un editor tipo Word o Writer y luego salvarlo en formato .md, pero lo dicho; no encontré nada. Recientemente, Microsoft ha lanzado una herramienta para algo parecido, y su nombre es MarkItDown.
MarkItDown es una librería de Python que se puede instalar en el sistema — no en Linux desde Python 3.12 — o en un entorno virtual (env). Tras su instalación, el uso base o en crudo requeriría escribir unas líneas en Python, las que tenéis aquí debajo. Pero no es la única manera de usarlo.
MarkItDown haciendo uso de Python
La API es así de simple:
from markitdown import MarkItDown markitdown = MarkItDown() result = markitdown.convert("test.xlsx") print(result.text_content)
De lo anterior, la primera línea importa la librería; la segunda crea un objeto compatible; en la tercera realiza la conversión — a un archivo que en el ejemplo han llamado text.xlsx — y en la cuarta imprimiría el resultado en consola. Además, como se explica en su GitHub, se puede hacer compatible con LLM como ChatGPT, todo esto ya a gusto del consumidor y dependiendo de los conocimientos de cada uno.
Si el código no es lo mejor para nosotros, un desarrollador de nombre Matt Palmer ha creado una web para facilitar la tarea. Aunque está en inglés, su uso es muy sencillo. En la parte inferior del cuadro pone los archivos soportados, que son PDF, PPTX, DOCX, XLSX, Imágenes, Audio, HTML y archivos de texto. Lo único que tendremos que hacer es arrastrar un archivo al cuadro y esperar a que suceda la magia, como se ve en la captura de cabecera.
En el momento de escribir este artículo hay un problema al descargar el archivo, que muestra un mensaje de error en vez del texto. Es posible, algo que no he comprobado, que yo lo esté viendo porque he creado el archivo desde Linux, LibreOffice o ambos, pero yo veo ese error al descargar el archivo. La conversión la hace bien, y siempre se puede copiar el texto plano que genera, pegarlo en un archivo de texto y guardarlo con extensión .md.
Para visualizarlo, en Linux podemos usar herramientas como Okular, Visual Studio Code o algún programa de esta lista, entre otros.
A tener en cuenta
Aunque la herramienta la ha creado Microsoft, no todo saldrá siempre bien. Para que obtener los mejores resultados, hay que hacer uso de las opciones correctas. Por ejemplo, para que ponga un # Titular
o ## Título 2
, hay que seleccionar eso en las opciones de Word o Writer. Lo mismo con las listas ordenadas o desordenadas, enlaces, imágenes… Si en vez de usar las opciones correctas, seleccionamos un texto y le ponemos una fuente en negrita y más grande, Markdown no trabaja así, y es posible que obtengamos resultados mixtos. Para más información sobre las marcas soportadas, os remitimos al enlace que encontraréis en el primer párrafo de esta nota.
Ahora bien, es una herramienta oficial de Microsoft, y puede ser la mejor opción para pasar los archivos soportados a Markdown.