Discussioni progetto:Bot/Programmi in Python per i bot/OCRfix.py

Contenuti della pagina non supportati in altre lingue.
Da Wikisource.

Documentazione[modifica]

Il programma va chiamato in due passi separati:

passo 1[modifica]

Lo script:

  1. estrae da un file djvu NomeFileDjvu.djvu lo strato testo, in un file dsed, mediante la routine djvuLibre djvused; il dettaglio dello strato testo nel djvu dev'essere WORD;
  2. analizza il file dsed e estrae l'elenco completo delle parole, case-sensitive, prendendole una sola volta;
  3. stampa la lista delle parole in un file NomeFileDjvu.txt, una parola per riga, e in NomeFileDjvu_fix.txt, identico; codifica utf-8;

Il comando da fornire per eseguire il passo 1 è:

  • python OCRfix.py NomeFileDjvu step1

Correzione manuale[modifica]

  • aprire il file NomeFileDjvu_fix.txt con un editor che legga utf-8 e modificare tutte le parole errate. E' ammessa qualsiasi modifica (anche la cancellazione della parola) ma non si deve cancellare le righe nè aggiungerne. Il numero di righe di NomeFileDjvu.txt e di NomeFileDjvu.txt deve restare identico.
  • salvare NomeFileDjvu_fix.txt

passo 2[modifica]

Lo script:

  • confronta parola per parola NomeFileDjvu.txt e NomeFileDjvu_fix.txt e registra tutte le parole che sono state variate in una lista;
  • parola per parola, sostituisce, nel file dsed, la parola errata con quella esatta;
  • alla fine il file dsed viene utilizzato per ricostruire lo strato testo del file NomeFileDjvu.djvu.

Il comando da fornire per eseguire il passo 2 è:

  • python OCRfix.py NomeFileDjvu step2