Discussioni indice:Calani - Il Parlamento del Regno d'Italia.pdf

Contenuti della pagina non supportati in altre lingue.
Da Wikisource.

Test pdf[modifica]

Il testo è stato utilizzato per verificare la possibilità di utilizzare i soli file IA pdf (originale Google con prima pagina warning) e il file _djvu.xml per preecaricare nel testo l'OCR previa modifica globale per ridurre gli artefatti.

Le operazioni fatte sono:

  1. download del file pdf e del file _djvu.xml dallì'item IA
  2. pretrattamento del file pdf: eliminazione pagina warning con pdfsam; cropping massivo delle immagini con briss
  3. "finto" caricamento con IA Upload, copiando il tl|Book prodotto dal caricamento dei metadati da IA senza provcedere all'upload, e sue piccole modifiche
  4. caricamento del pdf e del testo di IA Upload su Commons e creazione della pagina Indice
  5. preparazione del testo split dal file _djvu.xml con script python personale
  6. lancio di split! --Alex brollo (disc.) 12:51, 27 mar 2019 (CET)[rispondi]

memoRegex[modifica]

{"clic":["","che","g"], "\\ \\ ":[""," ","g"], "sans\\ serif\\|":["","sans-serif|","g"], "é":["","è","g"], "deputalo":["","deputato","g"], "Bellrami":["","Beltrami","g"], "avvocalo":["","avvocato","g"], "uffìziali":["","uffiziali","g"], "deU":["","dell","g"], "deH’":["","dell’","g"], "Stalo":["","Stato","g"], "tulli":["","tutti","g"]}

Contributori[modifica]

Convenzioni[modifica]

  1. nella tabella Pagine i numeri arabi indicano le pagine del testo, i numeri romani i ritratti fuori testo, il trattino le pagine vuote.
  2. il testo non è provvisto di un indice; verrà costruito elencando, nell'ordine, i nomi dei parlamentari.
  3. ogni biografia satà transclusa in una propria sottopagina ns0.