Discussioni indice:Parlamento Italiano - Atti parlamentari, 1860, Documenti.pdf

Contenuti della pagina non supportati in altre lingue.
Aggiungi argomento
Da Wikisource.
Ultimo commento: 2 anni fa, lasciato da Carlomorino in merito all'argomento Problemi OCR

Problemi OCR[modifica]

@Carlomorino Di nuovo problemi con l'OCR di questi pdf complessi. C'è qualcosa che non va, in archive.org, nella costruzione dello strato testo dei pdf. La soluzione è precaricare sulle pagine l'OCR buono di archive.org, o chiamare, pagina per pagina, l'OCR mediawiki Tesseract, che però risente della risoluzione poco soddisfacente dell'immagine estratta dal pdf... io precaricherei come ho fatto per gli ultimi tre volumi del parlamento subalpino: OK? --Alex brollo (disc.). 22:41, 1 mag 2022 (CEST)Rispondi

@Alex brollo Come ti ho scritto sono in campagna e quindi diversament abile (dal punto di vista computristico). Mi fido di te. Vai come ritieni meglio. Al massimo se c'è quacosa che non va bene su quelche pagina si fa sempre a tempo a rifre l'OCR. Personalmente mi interessano le pagine sulle leggi elettorali e sulla ripartizione dei seggi, etc. Sono indicate in indice a pag. 602. Comunque non ho alcuna fretta. Ci sentiamo tra qualche giorno. Carlo M. (disc.) 18:57, 3 mag 2022 (CEST)Rispondi
@Alex brollo eccomi qua. Metto a posto i bagagli e poi inizio a metterci mano. --Carlo M. (disc.) 15:15, 5 mag 2022 (CEST)Rispondi

memoRegex[modifica]

{"ó\\ ":["","ò ","g"], "ė":["","è","g"], "á":["","à","g"], "^p(\\d+[13579])$":["(regex)","{{RigaIntestazione||— $1 —|riga=si}} {{RigaIntestazione||{{Sc|appendice}}|riga=si}}","gi"], "^p(\\d+[02468])$":["(regex)","{{RigaIntestazione||— $1 —|riga=si}} {{RigaIntestazione||{{Sc|documenti parlamentari}}|riga=si}}","gi"], "^rd$":["(regex)","{{Rule|8em|t=1}}{{Rule|8em|v=1}}","gm"], "^rs$":["(regex)","{{Rule|8em|t=1|v=1}}","gm"], "í":["","ì","g"], "ú":["","ù","g"], "Art\\,":["","Art.","g"], "\\ \\ ":[""," ","g"], "\\ în\\ ":[""," in ","g"]}