Discussioni indice:Maffei - Verona illustrata I-II, 1825.djvu

Contenuti della pagina non supportati in altre lingue.
Da Wikisource.

OPAL[modifica]

Mi permetto di insistere: esiste anche una bella copia a colori della stessa edizione proveniente da Torino; come già segnalavo in posta privata sarebbe meglio caricare quella e avviare una collaborazione a doppio filo tra istituzioni venete e piemontesi. --Xavier121 18:23, 5 nov 2016 (CET)[rispondi]

@Xavier121, OrbiliusMagister L'avevo visto, ma questo messaggio me l'ero perso.... come vedi, fatto!
Possiamo migliorare ancora, alcune scansioni non sono ottimali per "pagina stropicciata", e manca una pagina; siccome la sequenza delle pagine, a intervalli, è corretta, temo ci sia da qualche parte un errore complementare (una pagina doppia?); insomma il lavoro non è finito. Anche il cropping di ScanTailor (non avevo il tempo di ritagliare le pagine una a una) mi ha fatto qualche scherzo; le scansioni di Ruggeri sono fatte con una velocità mostruosa e talora qualche pagina non è aperta perfettamente. Se riesci con pazienza a produrre un djvu migliore possiamo ricaricare.
Come vedete, il "muro dei 100 mega" di Commons è superabile, basta utilizzare il tool di Commons "chunked upload".
Per quanto riguarda il tool in sperimentazione (che adesso ha un nome: OCRfix.py), fallisce su alcuni djvu di IA, per un qualche problema nella struttura testo che prima o poi scoverò; ma funzia perfettamente sull'OCR prodotto da FineReader 11, anche se è abbastanza strano. Adesso ho una versione corrispondente a quella di Xavier, me la studierò. --Alex brollo (disc.) 08:03, 15 nov 2016 (CET)[rispondi]
@Alex brollo a me quello script serve come il pane per sistemare l'ocr dei miei file djvu prodotti con FR11; spero che tutto funzioni prima del compleanno di wikisource, 2-3 giorni prima dovrebbero bastare :) --Xavier121 11:45, 15 nov 2016 (CET)[rispondi]
Stasera te lo faccio avere. E' semplicissimo, e ha bisogno solo di djvused.exe. Null'altro. Se correggi il txt attento| Non cancellare i \n che vengono appiccicati a inizio o a fine parola!! Alex brollo (disc.) 12:01, 15 nov 2016 (CET)[rispondi]

memoRegex[modifica]

{"1111":["","un","g"], "11011":["","non","g"], "([^aeiouAEIOU])’ +":["Normalizzazione spazi dopo apostrofo (regex)","$1’","g"], "\\ clic\\ ":["","che","g"], "chc":["","che","g"], "\\ c\\ ":[""," e ","g"], "(\\w) ([;,:\\.?!])":["Normalizzazione spazi attorno alla punteggiatura (regex)","$1$2","g"], "é":["","è","g"], "Γ\\ ":["","l’","g"], "\\ ili\\ ":[""," di ","g"], " +":["(regex)"," ","g"], "clic\\ ":["","che ","g"], "\\ tulle":[""," tutte","g"], "\\ clic":[""," che","g"], "del11":["","dell’","g"]}

Ritocchi metadati[modifica]

@OrbiliusMagister Ho dimenticato di ritoccare i metadati, qua e là è ancora registrata, come fonte, IA invece che OPAL. Cambiare a vista! Altra cosetta: niente annotazioni nella sezione Pagine di Indice, "spaccano" il parsing e impediscono la costruzione di Modulo:Dati che in questo caso (visto il robusto Indice analitico) è vitale. --Alex brollo (disc.) 08:07, 15 nov 2016 (CET)[rispondi]

@Alex brollo, Xavier121: per scrivere i sommari ho dato una passata a tutti i volumi: decisamente le versioni OPAL sono dieci volte migliori di quelle Google e sono pronto a qualunque lavoro aggiuntivo di riallineamento di pagine e indici pur di averle al posto delle attuali. Mi permetto di rimarcare che l'apparato di tavole è non solo parte integrante del testo, ma anche una pregevolissima fonte iconografica utilissima per Pedia: nelle versioni Google tale apparato è reso totalmente inutilizzabile da scansioni sconsiderate. - εΔω 10:51, 15 nov 2016 (CET)[rispondi]