Progetto:Trascrizioni/FineReader 11

Da Wikisource.

Il gruppo dei volontari di it.source dispone, dal 28.11.11, di un pacchetto FineReader 11 (licenza per un solo utente).

FineReader 11 è un pacchetto per l'interpretazione OCR di ottima qualità; la versione 11 propone la notevole novità che può esportare il suo output in file djvu completi (immagini e strato testo). Questo permette di eseguire, in un solo passaggio, una serie di operazioni molto complesse: l'acquisizione delle immagini da numerosi formati di file (pdf, tiff, djvu), l'interpretazione OCR del loro contenuto (con la possibilità di appoggiarsi a dizionari in numerose lingue), e l'output dell'insieme immagini + testo in una varietà di formati (word, html, ecc) ma anche in file djvu, pronti ad essere caricati su Commons e ad essere utilizzati qui come basi per le nostre pagine Indice.

Tenendo conto che si tratta di una licenza personale, e che quindi solo uno dei volontari di it.source avrà la possibilità di operare con il programma nel proprio tempo libero, il numero dei testi che saranno trattati è limitato e sarebbe opportuno selezionare le proposte di acquisizione in base a criteri abbastanza stretti:

  1. che non sia già disponibile un decente file djvu con OCR (es.: è opportuno verificare che il testo non sia già presente su Internet Archive);
  2. che il file dia qualche garanzia che l'OCR risultante sia decente (es.: è opportuno evitare, in questo momento, i testi molto antichi e i testi con cattiva o pessima qualità dell'immagine);
  3. che chi propone l'acquisizione abbia realmente, oltre l'interesse, il tempo materiale necessario a proseguire, in tempi ragionevoli, nelle successive operazioni almeno fino a portare la pagina Indice al livello di SAL 75% (correzione del testo e formattazione).

Proposte di acquisizione con FR 11[modifica]

In attesa di organizzare meglio il lavoro, e rispettando i tre criteri sopra elencati, aggiungete pure qui sotto un testo che vi interessa (titolo, data pubblicazione, fonte, nome utente proponente).

  1. ....

Scansioni eseguite e caricate[modifica]

Scansioni eseguite da caricare[modifica]

Note

  1. La scansione è stata eseguita da file djvu ottenenedo un djvu con OCR di qualità grafica leggermente inferiore; lo strato testo è stato estratto e rimontato sul djvu originale con djvused.exe.
  2. La scansione è stata eseguita da una serie di jpg con scrittura del djvu in un singolo passo (opzione immagini in BN); successivamente le immagini sono state estratte creando una pagina html completa di immagini in toni di grigio, poi modificate con xnview per "fare il bianco".

Note tecniche[modifica]

  1. L'interpretazione OCR è buona, in linea con il precedente FR 10
  2. La grafica del djvu è buona, ma non ottimale
  3. Lo strato testo viene prodotto a livello di linea e non di parola (contrariamente agli strati testo dei dile djvu di Internet Archive)
  4. Il carattere di parola spezzata a fine riga è ¬ e non il trattino - (tool postOCR() già aggiornato)
  5. Nel testo in versi, finora scannerizzato, il software introduce alcune righe fittizie intercalate nelle strofe (es: Pagina:La pastorizia.djvu/59 produce:

5otL.i PASTORIZIA ,
A immane Ironco di selvaggio ulivo,
A cui brevi apparian fra le corone
Dell’edera fioreole ambo le corna.
Cara ed acerba ricordanza ancora,
Ddl’amata Siringa, a lui dal collo
Pendea l’umil zampogna; onde molcendo
1/ interno affanno, i gioghi alti e le valli
’ o o <- errore
Di Menalo felice allegrar suole: