Discussioni indice:Leopardi - Epistolario, Le Monnier, 1934, I.djvu
Ciao! Non so come si caricano le immagini (ho provato, ma mi saltano fuori enormi)... Pensateci voi!!! Grazie mille!!! (Se poi qualcuno ha la pazienza di insegnarmi, mille punti!!!)--Giomass94 (disc.) 18:15, 5 ott 2017 (CEST)
memoRegex[modifica]
{«\\ ":["eliminazione spazio dopo caporale aperto","«","g"], "\\ »":["eliminazione spazio prima di caporale chiuso","»","g"], "^\\d+ .+\\n":["Eliminazione riga header che inizia con numero(regex)","","g"], "Dig.+ by .+le":["Eliminazione Digitized by Google (regex)","","g"], "cbe":["cbe -> che","che","g"], "\\ c\\ ":["c isolato per e"," e ","g"], "qn":["inversione n in u","qu","g"], "([^aeiouAEIOU])’ +":["Normalizzazione spazi dopo apostrofo che segue consonante(regex)","$1’","g"], "(\\w)[ ]([;,:\\.?!])":["Normalizzazione spazi prima di segno di punteggiatura (regex)","$1$2","g"], "\\n:":["due punti a inizio riga, non markup wiki (regex)",":","g"], "1’":["scanno comune per l'","l’","g"], "\\ cosi\\ ":["scanno comune per così"," così ","g"], "’1":["scanno comune per 'l","’l","g"], "\\(\\ ":["eliminazione spazio dopo parentesi aperta","(","g"], "\\ \\)":["eliminazione spazio prima di parentesi chiusa",")","g"], "\\t":["sostituzione di carattere TAB con uno spazio(regex)"," ","g"], "\\ \\ ":["sostituzione di doppio spazio con spazio singolo"," ","g"], "U’":["scanno comune","ll’","g"], "\\ clic\\ ":["scanno comune"," che ","g"], "é":["scanno comune nelle opere del 1800-primo 1900","è","g"], "eh":["scanno comune","ch","g"], "^(\\d+\\.)(.+)\\n(.+)":["(regex)","{{centrato}}\n<span style=\"float:left\">$1</span>$2\n</div>\n{{a destra|{{smaller|$3}}}}","gm"]}
- Nota
- la regex ^(\\d+\\.)(.+)\\n(.+) individua i testi con queste caratteristiche
- una riga inizia con numero + punto;
- segue una riga non vuota.
Vengono individuati i titoli delle epistole, che vengono parzialmente formattati; va aggiunto il template Sc (può essere anche aggiunto prima del lancio delle regex) e si deve verificare che l'OCR sia "regolare", ossia che sia ben interpretata la sequenza numero+punto e che luogo e data stiano nella riga immediatamente successiva.