Discussioni utente:Alex brollo/varie/Match and Fix

Contenuti della pagina non supportati in altre lingue.
Da Wikisource.

Roba promettente[modifica]

@Ruthven Il codice sta venendo fuori interessante. In breve, dati due testi t1 e t2 (esempio: l'OCR di una pagina e il corrispondente testo proveniente da diversa edizione) gli script confrontano i testi, ignorano le differenze maggiori, e isolano le differenze di singole parole: assumendo che la grafia di t2 sia esatta e quella di t1 errata, è possibile sostituire all'interno di t1 le singole parole discordanti, rispettando punteggiatura e struttura del testo.

La cosa mi servirà per Tiraboschi, in cui ho un buon OCR, e un buon testo LiberLiber corretto bene ma sostanzialmente diverso, per struttura, dall'OCR. L'idea è quindi quella di non fare un "Match and split", ma di fare un "Match and fix" che è cosa del tutto diversa. Sarei molto contento del successo.--Alex brollo (disc.) 08:51, 12 feb 2019 (CET)[rispondi]