Discussioni indice:Vasari - Le vite de' piu eccellenti pittori, scultori, et architettori, 3-2, 1568.djvu

Contenuti della pagina non supportati in altre lingue.
Aggiungi argomento
Da Wikisource.
Ultimo commento: 6 mesi fa, lasciato da Alex brollo in merito all'argomento Fonte del testo e stato della rilettura

Problemi nella numerazione delle pagine[modifica]

La verifica preliminare della sequenza delle pagine ha mostrato frequenti errori nella numerazione originale. In corso verifica di completezza delle scansioni. Le pagine numerate iniziano da 371 (pagina djvu 49), in continuazione con la pagina 370 del volume precedente. Prima della 371, ci sono parecchie pagine non numerate, a cui sono stati attribuiti numeri romani i-xliv, contenenti tabelle e indici. Alex brollo (disc.). 15:34, 11 ott 2023 (CEST)Rispondi

Riuscito il M&S (ms_test.py, offline, parametro oldText=True) da Le vite de' più eccellenti pittori, scultori e architettori (1568). Procedo con il caricamento in nsPagina. Alex brollo (disc.). 20:13, 11 ott 2023 (CEST)Rispondi

memoRegex[modifica]

{" ([,;.:!?])":["(regex)","$1","g"], "lh=1\\.5":["","t=1","g"], "(\\d+)\\n+":["(regex)","$1\n\n","g"], "vna":["(regex)","una","g"], "tauola":["(regex)","tavola","g"], "([.:,;])([^ ])":["(regex)","$1 $2","g"], "([&.:,;])([^ ])":["(regex)","$1 $2","g"], "rauola":["(regex)","tavola","g"], "lh=1\\.\\ 5":["","t=1","g"], "^c (.+)":["(regex)","{{Ct|f=100%|v=1|t=1|$1}}","gm"], "\\{\\{Sc\\ \\|":["","{{Indentatura|testo=","gm"], "medefimo":["(regex)","medesimo","gm"], "iouan":["","iovan","g"], "^i$":["(regex)","<noinclude>{{Indentatura}}</noinclude>","gm"], "\\.(\\d)":["(regex)",". $1","g"], "Saluiati":["","Salviati","g"], "\\.\\ jpg":["",".jpg","g"], "0\\.\\ 4em":["","0.4em","g"], "0\\.\\ 3em":["","0.3em","g"], "([eaio])ua":["(regex)","$1va","g"], "\\ ua":[""," va","g"], "\\ ue":[""," ve","g"], "ſ":["","s","g"], "<|>":["(regex)","","gm"], "\\[|\\]":["(regex)","","gm"], "\\{|\\}":["(regex)","","gm"],, "\\.(\\d)":["(regex)",". $1","g"] "\\ fi\\ ":[""," si ","g"]}

Da usare solo su pagine appena create con OCR Italiano antico:

"ſ":["","s","g"],
"<|>":["(regex)","","gm"],
"\\[|\\]":["(regex)","","gm"],
"\\{|\\}":["(regex)","","gm"],,
"\\.(\\d)":["(regex)",". $1","g"]

Immagini[modifica]

Le immagini sono raccolte in tre categorie su Commons:

Il nome va verificato, perchè è stata salvata solo una copia di quelle che si ripetono.

Per i capolettera viene usato questo codice, adattando, in genere, il solo numero della pagina nel nome file:

{{FI
|file = Vasari - Le vite de' piu eccellenti pittori, scultori, et architettori, 3-2, 1568 (page 7 crop).jpg
| tsize = 80px
| float = left
| margin-top= 0.4em
| margin-bottom= 0
| margin-right= 0.3em
| caption = 
}}

Alex brollo (disc.). 10:34, 27 ott 2023 (CEST)Rispondi

Fonte del testo e stato della rilettura[modifica]

Per la maggioranza delle pagine il testo deriva dal Match and split della precedente versione naked. Per le pagine delle tavole, e per la sezione Descrizione della Porta al Prato e per altre pagine accessorie il testo deriva invece da OCR.

Le pagine ottenute con Match and split derivano dalla modernizzazione della grafia della stessa edizione (fonte LiberLiber). Va perfezionata la formattazione e prestata particolare attenzione al testo della fine pagina (quasi in tutte le pagine alcuni caratteri/alcune parole vanno ricollocate nella pagina successiva).

Le pagine ottenute con il tool "Trascrivi il testo", tesseract OCR, lingua "italiano antico", contengono numerosi errori residui OCR e richiedono una laboriosa revisione (la qualità dell'OCR è notevole, molto migliore dell'OCR incorporato nel djvu, e con ritocchi memoregex, ma molto lontana dall'ideale). Alex brollo (disc.). 08:57, 29 ott 2023 (CET)Rispondi