Discussioni indice:Calani - Il Parlamento del Regno d'Italia.pdf
Test pdf[modifica]
Il testo è stato utilizzato per verificare la possibilità di utilizzare i soli file IA pdf (originale Google con prima pagina warning) e il file _djvu.xml per preecaricare nel testo l'OCR previa modifica globale per ridurre gli artefatti.
Le operazioni fatte sono:
- download del file pdf e del file _djvu.xml dallì'item IA
- pretrattamento del file pdf: eliminazione pagina warning con pdfsam; cropping massivo delle immagini con briss
- "finto" caricamento con IA Upload, copiando il tl|Book prodotto dal caricamento dei metadati da IA senza provcedere all'upload, e sue piccole modifiche
- caricamento del pdf e del testo di IA Upload su Commons e creazione della pagina Indice
- preparazione del testo split dal file _djvu.xml con script python personale
- lancio di split! --Alex brollo (disc.) 12:51, 27 mar 2019 (CET)
memoRegex[modifica]
{"clic":["","che","g"], "\\ \\ ":[""," ","g"], "sans\\ serif\\|":["","sans-serif|","g"], "é":["","è","g"], "deputalo":["","deputato","g"], "Bellrami":["","Beltrami","g"], "avvocalo":["","avvocato","g"], "uffìziali":["","uffiziali","g"], "deU":["","dell","g"], "deH’":["","dell’","g"], "Stalo":["","Stato","g"], "tulli":["","tutti","g"]}
Contributori[modifica]
Convenzioni[modifica]
- nella tabella Pagine i numeri arabi indicano le pagine del testo, i numeri romani i ritratti fuori testo, il trattino le pagine vuote.
- il testo non è provvisto di un indice; verrà costruito elencando, nell'ordine, i nomi dei parlamentari.
- ogni biografia satà transclusa in una propria sottopagina ns0.