Discussioni indice:Leopardi - Epistolario, Le Monnier, 1934, I.djvu
Aggiungi argomentoCiao! Non so come si caricano le immagini (ho provato, ma mi saltano fuori enormi)... Pensateci voi!!! Grazie mille!!! (Se poi qualcuno ha la pazienza di insegnarmi, mille punti!!!)--Giomass94 (disc.) 18:15, 5 ott 2017 (CEST)
memoRegex[modifica]
{«\\ ":["eliminazione spazio dopo caporale aperto","«","g"], "\\ »":["eliminazione spazio prima di caporale chiuso","»","g"], "^\\d+ .+\\n":["Eliminazione riga header che inizia con numero(regex)","","g"], "Dig.+ by .+le":["Eliminazione Digitized by Google (regex)","","g"], "cbe":["cbe -> che","che","g"], "\\ c\\ ":["c isolato per e"," e ","g"], "qn":["inversione n in u","qu","g"], "([^aeiouAEIOU])’ +":["Normalizzazione spazi dopo apostrofo che segue consonante(regex)","$1’","g"], "(\\w)[ ]([;,:\\.?!])":["Normalizzazione spazi prima di segno di punteggiatura (regex)","$1$2","g"], "\\n:":["due punti a inizio riga, non markup wiki (regex)",":","g"], "1’":["scanno comune per l'","l’","g"], "\\ cosi\\ ":["scanno comune per così"," così ","g"], "’1":["scanno comune per 'l","’l","g"], "\\(\\ ":["eliminazione spazio dopo parentesi aperta","(","g"], "\\ \\)":["eliminazione spazio prima di parentesi chiusa",")","g"], "\\t":["sostituzione di carattere TAB con uno spazio(regex)"," ","g"], "\\ \\ ":["sostituzione di doppio spazio con spazio singolo"," ","g"], "U’":["scanno comune","ll’","g"], "\\ clic\\ ":["scanno comune"," che ","g"], "é":["scanno comune nelle opere del 1800-primo 1900","è","g"], "eh":["scanno comune","ch","g"], "^(\\d+\\.)(.+)\\n(.+)":["(regex)","{{centrato}}\n<span style=\"float:left\">$1</span>$2\n</div>\n{{a destra|{{smaller|$3}}}}","gm"]}
- Nota
- la regex ^(\\d+\\.)(.+)\\n(.+) individua i testi con queste caratteristiche
- una riga inizia con numero + punto;
- segue una riga non vuota.
Vengono individuati i titoli delle epistole, che vengono parzialmente formattati; va aggiunto il template Sc (può essere anche aggiunto prima del lancio delle regex) e si deve verificare che l'OCR sia "regolare", ossia che sia ben interpretata la sequenza numero+punto e che luogo e data stiano nella riga immediatamente successiva.