Discussioni indice:Chizzola - Risposta Di Donn' Ippolito Chizzuola alle bestemmie e maldicenze in tre scritti di Paolo Vergerio, 1562.djvu

Contenuti della pagina non supportati in altre lingue.
Da Wikisource.

Ciao @Alex brollo,

puoi passarmi questo testo su FineReader in modo da poter caricare l'OCR per ciascuna pagina? Dopo averla inserita su Internet Archive, ho caricato questa digitalizzazione manualmente su Commons (il tool IA upload non ha funzionato: questo ed altri file continuavano a rimanere in "coda" senza caricarsi automaticamente su commons; non so se IA upload ha qualche bug...). Ora sto finendo di digitalizzare altri volumi, in seguito dovrei caricarli su Commons e poi qui su wikisource (ovviamente dopo averli messi su IA). Puoi consigliarmi qualche programma "free" che effettua l'OCR e converte in djvu, da poter utilizzare per i prossimi lavori? Ho scaricato la versione di prova di FineReader ed ho visto che il risultato dell'OCR è molto buono, tuttavia essendo una versione di prova mi permette di salvare solo tre pagine per volta... mi servirebbe un software non proprietario. Grazie e scusa per la lunghezza del testo. --Fcallox (disc.) 13:25, 21 mar 2018 (CET)[rispondi]

@Fcallox In qualche modo ti carico senz'altro l'OCR sul file djvu. No, non esistono programmi free che facciano un buon OCR e che lo sappiano inserire in un file djvu; puoi provare con il "convertitore free online" Any2djvu, ma è settato sull'inglese.
Ti confermo che IA Upload è in crisi, sto seguendo (silenziosamente) i lavori per sistemarlo. Comunque, c'è modo di caricare l'OCR di Internet Archive nel file djvu senza OCR prodotto da IA Upload, quindi continua pure a tentare il caricamento con IA Upload, anche i fallimenti servono per stimolare gli sviluppatori a darsi da fare. --Alex brollo (disc.) 14:27, 21 mar 2018 (CET)[rispondi]
PS: questa robaccia ti basta come OCR? Di più temo che nemmeno FineReader possa fare, ma questo posso effettivamente caricartelo sul djvu. --Alex brollo (disc.) 14:37, 21 mar 2018 (CET)[rispondi]
Ok va bene lo stesso, vuol dire che poi farò una trascrizione "certosina" a mano. --Fcallox (disc.) 14:46, 21 mar 2018 (CET)[rispondi]
puoi dirmi qual'è il modo di caricare l'OCR di IA nel file djvu senza OCR prodotto da IA Upload? (Nel precedente messaggio mi hai scritto che c'è un modo giusto?)--Fcallox (disc.) 14:51, 21 mar 2018 (CET)[rispondi]
Lo script python che lo fa/faceva è Progetto:Bot/Programmi in Python per i bot/xml2dsed.py ma tieni conto che l'ho pubblicato solo per non perderlo.... è macchinoso, non documentato, "per uso personale" e in più oggi non dà garanzie perchè ho l'impressione che qualcosa sia cambiato. Potresti anche provare (se il pdf prodotto da IA è buono e contiene il testo) a "trattarlo" con pdf2djvu, se il pdf è buono e contiene un buon OCR il risultato è eccellente. E' da un po' che non me ne occupo, attendo e spero negli sviluppatori di IA Upload; la strategia di "travaso" dello strato testo di xml2dsed.py è diversa da qualla di IA, se dai una guardata a DjvuLibre vedrai che ci sono due applicazioni che possono farlo, djvuxml e djvused, IA usa la prima e io la seconda. --Alex brollo (disc.) 16:09, 21 mar 2018 (CET)[rispondi]
@Fcallox .... ma c'è anche la "terza via"; estrarre dal file _djvu.xml di IA il puro testo, ben organizzato in pagine con i codici MATCH, caricarlo in un "paginone" temporaneo, eventualmente modificarlo (meglio offline, con un eccellente programma testi), e poi far partire SPLIT, che lo caricherà nelle pagine giuste. Ci provo per esercizio, così rinfresco un po' di cose. Alex brollo (disc.) 17:34, 21 mar 2018 (CET)[rispondi]

Preparazione Match & Split[modifica]

Ho il file pronto per il M&S, te lo carico in Utente:Fcallox/Chizzola. Se hai attivato in Preferenze-Accessori il gadget Match and Split, non appena apri la pagina dovrebbe comparirti una linguella "Split" in alto a sinistra. Non cliccarla! Prima guarda bene il testo e valuta se correggere offline un po' dei numerosissimi errori di OCR (f per s, u per v...). Cancella completamente il testo (compreso il titolo) di eventuali pagine già trascritte. Quando sei pronto, schiaccia lo Split e i testi verranno caricati, pagina per pagina. --Alex brollo (disc.) 19:19, 21 mar 2018 (CET)[rispondi]

@Alex brollo ok ho attivato su accessori il gadget Match and Split. Pensavo di correggere gli errori di OCR una volta caricati i testi pagina per pagina. Ora cancello prima le pagine già trascritte. Grazie comunque! --Fcallox (disc.) 09:57, 22 mar 2018 (CET)[rispondi]
@Fcallox Questa avventura è stata estremamente utile.... vediamo gli sviluppi! Alex brollo (disc.) 10:30, 22 mar 2018 (CET)[rispondi]
@Alex brollo ho fatto partire lo split. Ora è in caricamento da circa 10 minuti... aspettiamo --Fcallox (disc.) 10:43, 22 mar 2018 (CET)[rispondi]

slittamento tra testo OCR e djvu[modifica]

@Alex brollo Ciao Alex scusami se oggi ti "assillo" un po'. Mi è successo un "casotto" su questo file: c'è uno sfasamento/slittamento di 2 pagine tra il testo trascritto e la pagina djvu. Per spiegartela in breve il testo (OCR) presente su questa pagina in realtà corrisponde a djvu presente qui.

In realtà inizialmente quando avevo caricato il file djvu su commons avevo notato che mi aveva raddoppiato le prime due pagine (pag.djvu 1 era uguale a pag.djvu 3 e pag.djvu 2 era uguale a pag. djvu 4). Quindi, quando ho fatto la pagina indice, mi sono regolato considerando come prima pagina pag. djvu 3 (non calolando quindi le prime due pagine del file djvu). Ora ieri non so come su Commons questo problema di "raddoppiamento" non era più presente, però di conseguenza ho trovato discordanza su Ws all'interno di ciascuna pagina dell'indice tra testo ocr e djvu. Sai per caso se c'è una maniera automatica e non manuale (le prime 20 pagine che avevo già trascritto e formattate le ho corrette "manualmente" inserendole al posto giusto) per sistemare correttamente le pagine ed correggere questa discordanza? Grazie e scusa per la prolissità XD--Fcallox (disc.) 15:17, 18 apr 2018 (CEST)[rispondi]

@Fcallox Purtroppo sei cascato dentro uno dei problemi di IA Upload. Dò un'occhiata e cerco di sistemare. Tieni però conto che non ha molto senso usare M&S per precaricare l'OCR se questo è quello già presente nel djvu. Alex brollo (disc.) 18:46, 18 apr 2018 (CEST)[rispondi]
@Fcallox Tecnicamente si fa così: si "crea spazio" (io ho cancellato due pagine, le prime disallineate) poi via bot si spostano le pagine dalla posizione sbagliata a quella giusta. L'ho fatto miriadi di volte.... il bot sta macinando. --Alex brollo (disc.) 20:23, 18 apr 2018 (CEST)[rispondi]
@Fcallox Mi pare a posto. Sappimi dire se trovi altri problemi. Alex brollo (disc.) 22:21, 18 apr 2018 (CEST)[rispondi]
@Alex brollo si grazie mille! sembra essere tutto apposto. Speriamo che non mi succeda la stessa cosa anche su questa opera, anche qui commons mi aveva raddoppiato le prime due pagine djvu. Nel caso te lo segnalo.--Fcallox (disc.) 11:45, 19 apr 2018 (CEST)[rispondi]
Il djvu è senza strato testo. Precisamente, come hai costruito il testo da splittare? --Alex brollo (disc.) 16:02, 19 apr 2018 (CEST)[rispondi]

Contributori[modifica]