Discussioni progetto:Bot/Programmi in Python per i bot/OCRfix.py
Aggiungi argomentoDocumentazione
[modifica]Il programma va chiamato in due passi separati:
passo 1
[modifica]Lo script:
- estrae da un file djvu NomeFileDjvu.djvu lo strato testo, in un file dsed, mediante la routine djvuLibre djvused; il dettaglio dello strato testo nel djvu dev'essere WORD;
- analizza il file dsed e estrae l'elenco completo delle parole, case-sensitive, prendendole una sola volta;
- stampa la lista delle parole in un file NomeFileDjvu.txt, una parola per riga, e in NomeFileDjvu_fix.txt, identico; codifica utf-8;
Il comando da fornire per eseguire il passo 1 è:
python OCRfix.py NomeFileDjvu step1
Correzione manuale
[modifica]- aprire il file NomeFileDjvu_fix.txt con un editor che legga utf-8 e modificare tutte le parole errate. E' ammessa qualsiasi modifica (anche la cancellazione della parola) ma non si deve cancellare le righe nè aggiungerne. Il numero di righe di NomeFileDjvu.txt e di NomeFileDjvu.txt deve restare identico.
- salvare NomeFileDjvu_fix.txt
passo 2
[modifica]Lo script:
- confronta parola per parola NomeFileDjvu.txt e NomeFileDjvu_fix.txt e registra tutte le parole che sono state variate in una lista;
- parola per parola, sostituisce, nel file dsed, la parola errata con quella esatta;
- alla fine il file dsed viene utilizzato per ricostruire lo strato testo del file NomeFileDjvu.djvu.
Il comando da fornire per eseguire il passo 2 è:
python OCRfix.py NomeFileDjvu step2