Utente:Alex brollo/uploader

Da Wikisource.
Jump to navigation Jump to search

Sommario[modifica]

Tool che carica il testo OCR sulle pagine, dopo eseguito il massimo possibile della mise in page.

Operazioni da eseguire[modifica]

  1. analisi preliminare: verifica della fattibilità (opera in prosa; formato "semplice"; OCR di buona qualità; definizione del blocco da caricare (pagina iniziale, pagina finale)
  2. priming: caricamento manuale di due pagine per definizione del formato di RigaIntestazione;
  3. preparare un semplice memoRegex;
  4. lettura ocr pagina per pagina con il tool di Phe; caricamento delle due pagine precedenti già memorizzate
  5. operazioni di mise en page
    1. postOCR;
    2. "sentire" l'eliminazione, o meno, della prima riga per analogia con RigaIntestazione; in caso di mancata eliminazione (discordanza) stop e interazione con l'operatore;
    3. eseguire separaParagrafi e unisciLinee;
    4. riconoscere la parola finale spezzata e applicare Pt;
    5. esaminare l'ultima pagina per presenza di un Pt finale e applicare un Pt alla prima parola