Discussioni indice:Leopardi - Epistolario, Le Monnier, 1934, I.djvu

Contenuti della pagina non supportati in altre lingue.
Da Wikisource.

Ciao! Non so come si caricano le immagini (ho provato, ma mi saltano fuori enormi)... Pensateci voi!!! Grazie mille!!! (Se poi qualcuno ha la pazienza di insegnarmi, mille punti!!!)--Giomass94 (disc.) 18:15, 5 ott 2017 (CEST)[rispondi]

Page 2 Leopardi - Epistolario, Le Monnier, 1934, I (page 2 crop)

Page 28 Leopardi - Epistolario, Le Monnier, 1934, I (page 28 crop)

Page 83 Leopardi - Epistolario, Le Monnier, 1934, I (page 83 crop)

Page 54 Leopardi - Epistolario, Le Monnier, 1934, I (page 54 crop)

Page 203 Leopardi - Epistolario, Le Monnier, 1934, I (page 203 crop)

memoRegex[modifica]

{«\\ ":["eliminazione spazio dopo caporale aperto","«","g"], "\\ »":["eliminazione spazio prima di caporale chiuso","»","g"], "^\\d+ .+\\n":["Eliminazione riga header che inizia con numero(regex)","","g"], "Dig.+ by .+le":["Eliminazione Digitized by Google (regex)","","g"], "cbe":["cbe -> che","che","g"], "\\ c\\ ":["c isolato per e"," e ","g"], "qn":["inversione n in u","qu","g"], "([^aeiouAEIOU])’ +":["Normalizzazione spazi dopo apostrofo che segue consonante(regex)","$1’","g"], "(\\w)[ ]([;,:\\.?!])":["Normalizzazione spazi prima di segno di punteggiatura (regex)","$1$2","g"], "\\n:":["due punti a inizio riga, non markup wiki (regex)",":","g"], "1’":["scanno comune per l'","l’","g"], "\\ cosi\\ ":["scanno comune per così"," così ","g"], "’1":["scanno comune per 'l","’l","g"], "\\(\\ ":["eliminazione spazio dopo parentesi aperta","(","g"], "\\ \\)":["eliminazione spazio prima di parentesi chiusa",")","g"], "\\t":["sostituzione di carattere TAB con uno spazio(regex)"," ","g"], "\\ \\ ":["sostituzione di doppio spazio con spazio singolo"," ","g"], "U’":["scanno comune","ll’","g"], "\\ clic\\ ":["scanno comune"," che ","g"], "é":["scanno comune nelle opere del 1800-primo 1900","è","g"], "eh":["scanno comune","ch","g"], "^(\\d+\\.)(.+)\\n(.+)":["(regex)","{{centrato}}\n<span style=\"float:left\">$1</span>$2\n</div>\n{{a destra|{{smaller|$3}}}}","gm"]}

Nota
la regex ^(\\d+\\.)(.+)\\n(.+) individua i testi con queste caratteristiche
una riga inizia con numero + punto;
segue una riga non vuota.

Vengono individuati i titoli delle epistole, che vengono parzialmente formattati; va aggiunto il template Sc (può essere anche aggiunto prima del lancio delle regex) e si deve verificare che l'OCR sia "regolare", ossia che sia ben interpretata la sequenza numero+punto e che luogo e data stiano nella riga immediatamente successiva.

Contributori[modifica]