Discussioni pagina:De Roberto - Al rombo del cannone, Milano, Treves, 1919.djvu/36
Virgolette[modifica]
@Alex brollo hai notato che l'incapsulamento in virgolette con regex ogni tanto si incasina? Es. questa in pagina visto che le virgolette/unicinate di apertura sono nella pagina precedente in tutto il primo paragrafo sono invertire. --divudi (disc.) 10:23, 10 nov 2018 (CET)
- Il tuo è sicuramente meglio e magari c'è maniera di correggerlo io in questi casi mettevo una roba barbara tipo
[A-z]/" -> » /"[A-z] -> «
--divudi (disc.) 10:27, 10 nov 2018 (CET)
- @Divudi85 Sì, era previsto. Ma c'è un trucco: basta aggiungere un carattere
"
a inizio pagina se l'inizio pagina cade in un pezzo dove nella pagina precedente è stato aperto un "caporale" prima di lanciare postOCR, la regex creerà un caporale aperto di troppo, lo si cancella e via. In compenso tutti i "caporali" all'interno della pagina saranno giusti. Stessa cosa per l'eventuale "caporale" aperto e non chiuso a fine pagina: in quel caso si aggiunge un"
in coda, e poi lo si cancella. Volendo evitare si potrebbe creare una seconda funzione/regex che "inverta i caporali" quando necessario. - La tua soluzione non è affatto male, ma bisogna che non ci sia uno spazio erroneo fra primo "caporale aperto" e
"
, altrimenti si impappina. --Alex brollo (disc.) 16:51, 10 nov 2018 (CET)