Discussioni pagina:De Roberto - Al rombo del cannone, Milano, Treves, 1919.djvu/36

Contenuti della pagina non supportati in altre lingue.
Da Wikisource.

Virgolette[modifica]

@Alex brollo hai notato che l'incapsulamento in virgolette con regex ogni tanto si incasina? Es. questa in pagina visto che le virgolette/unicinate di apertura sono nella pagina precedente in tutto il primo paragrafo sono invertire. --divudi (disc.) 10:23, 10 nov 2018 (CET)[rispondi]

Il tuo è sicuramente meglio e magari c'è maniera di correggerlo io in questi casi mettevo una roba barbara tipo

[A-z]/" -> » /"[A-z] -> « 

--divudi (disc.) 10:27, 10 nov 2018 (CET)[rispondi]

@Divudi85 Sì, era previsto. Ma c'è un trucco: basta aggiungere un carattere " a inizio pagina se l'inizio pagina cade in un pezzo dove nella pagina precedente è stato aperto un "caporale" prima di lanciare postOCR, la regex creerà un caporale aperto di troppo, lo si cancella e via. In compenso tutti i "caporali" all'interno della pagina saranno giusti. Stessa cosa per l'eventuale "caporale" aperto e non chiuso a fine pagina: in quel caso si aggiunge un " in coda, e poi lo si cancella. Volendo evitare si potrebbe creare una seconda funzione/regex che "inverta i caporali" quando necessario.
La tua soluzione non è affatto male, ma bisogna che non ci sia uno spazio erroneo fra primo "caporale aperto" e " , altrimenti si impappina. --Alex brollo (disc.) 16:51, 10 nov 2018 (CET)[rispondi]