Vai al contenuto

Discussioni progetto:Bot/Programmi in Python per i bot/OCRfix.py

Aggiungi argomento

Da Wikisource.

< Discussioni progetto:Bot

Documentazione

Il programma va chiamato in due passi separati:

passo 1

Lo script:

estrae da un file djvu NomeFileDjvu.djvu lo strato testo, in un file dsed, mediante la routine djvuLibre djvused; il dettaglio dello strato testo nel djvu dev'essere WORD;
analizza il file dsed e estrae l'elenco completo delle parole, case-sensitive, prendendole una sola volta;
stampa la lista delle parole in un file NomeFileDjvu.txt, una parola per riga, e in NomeFileDjvu_fix.txt, identico; codifica utf-8;

Il comando da fornire per eseguire il passo 1 è:

python OCRfix.py NomeFileDjvu step1

Correzione manuale

aprire il file NomeFileDjvu_fix.txt con un editor che legga utf-8 e modificare tutte le parole errate. E' ammessa qualsiasi modifica (anche la cancellazione della parola) ma non si deve cancellare le righe nè aggiungerne. Il numero di righe di NomeFileDjvu.txt e di NomeFileDjvu.txt deve restare identico.
salvare NomeFileDjvu_fix.txt

passo 2

Lo script:

confronta parola per parola NomeFileDjvu.txt e NomeFileDjvu_fix.txt e registra tutte le parole che sono state variate in una lista;
parola per parola, sostituisce, nel file dsed, la parola errata con quella esatta;
alla fine il file dsed viene utilizzato per ricostruire lo strato testo del file NomeFileDjvu.djvu.

Il comando da fornire per eseguire il passo 2 è:

python OCRfix.py NomeFileDjvu step2

Estratto da "https://it.wikisource.org/w/index.php?title=Discussioni_progetto:Bot/Programmi_in_Python_per_i_bot/OCRfix.py&oldid=1811662"