Utente:Alex brollo/Resoconto di una importazione 2018

Da Wikisource.
Jump to navigation Jump to search

Motivazione[modifica]

Avendo ricevuto parecchie scansioni di Salgari, ho provato a sperimentare vari programmi free (escluso FineReader che è commerciale) allo scopo di ottenere dei djvu decenti con OCR, da caricare sia su Internet Archive che su Commons. Naturalmente Internet Archive non deriva più i file djvu, quindi bisogna ottenerli con altri metodi.

I file di partenza erano raccolte di scansioni a doppia pagina, in formato jpg a buona risoluzione, ma con fondo irregolarmente grigio, con molte illustrazioni in BN, spesso in tavole fuori testo.

Vari test sono finiti in modo insoddisfacente:

  1. il semplice "taglio" delle immagini jpg, seguito dal loro caricamento su IA dopo impaccamento in una cartella zippata, ha dato un risultato estremente negativo: l'OCR di IA è fallito.
  2. il tentativo di ricavare il djvu con pdf2djvu dal file pdf ricavato da IA a partire dalle immagini jpg zippate è fallito: il pdf aveva qualità grafica troppo bassa.
  3. il semplice "taglio" delle immagini a doppia pagina jpg non risolve il problema di alcune pagine singole da raddrizzare.

Alla fine il procedimento - che sembra complesso ma è abbastanza sbrigativo - che mi ha dato maggiori soddisfazioni è il seguente:

  1. le jpg a doppia pagina sono state passate a ScanTailor che in automatico può dividerle e raddrizzarle; output tiff BN in pagina singola; eliminazione della prima pagina retro per preparare la serie per IA;
  2. i tiff BN sono stati assemblati in un pdf con i2pdf;
  3. il pdf è stato caricato su IA ottenendo un eccellente OCR;
  4. riaprendo il progetto ScanTailor, è stato ottenuto un output tiff in colori/scala di grigio per tutte le pagine con illustrazioni;
  5. i tiff (BN per le pagine normali, scala di grigi per le pagine con illustrazioni) sono stati passati a DjvuToy ottenendo un ottimo djvu senza OCR;
  6. l'OCR di IA è stato montato nel file djvu ottenuto con DjvuToy (con una versione del programma Progetto:Bot/Programmi in Python per i bot/xml2dsed.py
  7. il djvu risultante è stato caricato su IA (cone file aggiuntivo dell'item, nota: bloccando il processo di derivazione!) e quindi, mediante IA Upload, su Commons.

Come ho caricato le illustrazioni[modifica]

NON ho usato CropTool. I problemi che volevo evitare sono due:

  • CropTool carica metadati non idonei, prende di peso il tl|Book del file djvu con modifiche minori;
  • CropTool ritaglia dal djvu, mentre io volevo caricare ritagli non modificati dei file di partenza (djvu a doppia pagina)

Tuttavia volevo assegnare ai file immagine lo stesso nome che avrebbe assegnato CropTool.

I passaggi sono stati:

  • copia di tutte le scansioni originali con illustrazioni in una cartella;
  • ripassata con XnView per ritagliare e raddrizzare se serviva;
  • rename delle immagini con il solo numero pagina djvu;
  • rename batch per modificare il nome dei file nel nome "canonico", ho usato IrfanView;
  • caricamento su Commons con commonist, impostando un template Info ragionevole.

Sembra complicato ma non lo è: il risultato è che sono state caricate le immagini esattamente con la definizione e il formato degli originali; volendole migliorare si tratta solo di lavorarci, nulla è stato perduto.

Uso alternativo di CropTool[modifica]

Una volta impostato Commonist è possibile utilizzare CropTool solo per la fase Crop; arrivati alla preview si può salvare l'immagine ritagliata ed eventualmente raddrizzata nella cartella "puntata" da Commonist, e con un paio di click l'immagine è caricata su Commons con il file Info corretto. Sto utilizzando questa tecnica per le immagini minori (grafiche) di Indice:Salgari - I pescatori di trepang.djvu.

Secondo caricamento (gennaio 2019)[modifica]

Visto che IA Upload funziona, ho modificato esemplificato la procedura come segue:

  1. le jpg a doppia pagina sono state passate a ScanTailor che in automatico può dividerle e raddrizzarle; output tiff BN in pagina singola e output tiff Colori/scala di grigi per le pagine con illustrazioni, dopo selezione; eliminazione della prima pagina retro per preparare la serie per IA, o spostamento della prima immagine in coda alla sequenza se si tratta dell'ultima pagina di copertina;
  2. le immagini tiff sono state rinominate come p_0000.tif, p_0001.tif.... con un semplicissimo script python e caricate in uno zip di nome [IA ID]_images.zip;
  3. lo zip è stato caricato su IA;
  4. a fine derivazione il file djvu è stato creato e caricato su Commons con IA Upload.

Per le immagini sarà adottata la precedente procedura, ma saranno applicate nuove convenzioni di categorizzazione, come da discussione in corso in Progetto:Trascrizioni/Illustrazioni.

Note[modifica]

A valle del caricamento in Internet Archive, alcune immagini hanno dovuto essere trattate per essere compatibili con Wikimedia Commons. In particolare, per maggior cautela, nei volumi pubblicati dopo il 1923 sono state "sbiancate" le tavole contenenti illustrazioni di autori morti da meno di 70 anni.

Per il caricamento di parecchie immagini è stato testato il bot BrolloBot, recentemente approvato; sono stati usati script python molto semplici "fai da te".