Progetto:Trascrizioni/Routine DjvuLibre/Djvutoxml

Da Wikisource.

Djvutoxml[modifica]

La routine estrae lo strato testo di un djvu in formato xml. Su IA, l'estrazione xml dello strato testo dei file djvu fa parte dei file standard che possono essere scaricati.

Il file è piuttosto pesante e complesso; per manipolarlo con python, viene suggerito di utilizzare il modulo ElementTree XML, che fa parte della libreria python standard e si importa (volendo attribuire un alias xml alla routine caricata) con:

import xml.etree.ElementTree as xml

Questo un tutorial semplicissimo: http://www.bigfatalien.com/?p=223