Discussioni indice:Serao - Le amanti.djvu

Contenuti della pagina non supportati in altre lingue.
Aggiungi argomento
Da Wikisource.
Ultimo commento: 6 anni fa, lasciato da Divudi85 in merito all'argomento M & S

M & S[modifica]

@Alex brollo mi sono accorto che questo testo è su progetto gutenberg & liber liber, in questi casi si fa il match and split? come funza?Divudi85 (disc.) 14:59, 24 nov 2017 (CET)Rispondi

@Divudi85 Magnifico! Sto giusto cercando casi come questi (IA - Gutenberg), per provare il M & S dopo cattura di parte della formattazione. Nella mia indagine ho visto che ci sono parecchie "varianti di stile" nei file Gutenberg, in questo caso le cose sono semplicissime (ma non ti tedio con i particolari.... a meno che tu non me li chieda ;-) ); si parte con il "testo semplice UTF-8" e si recupera la poca formattazione che vale la pena di recuperare (corsivi). --Alex brollo (disc.) 16:59, 24 nov 2017 (CET)Rispondi
@Alex brollo in questo caso ho succhiato i jpg con HTTrack dalla braidense, puliti in scantailor e caricati come *_images.zip su archive, ho fatto un po' di check random e la corrispondenza sembra assoluta.
due domande, c'è un modo migliore per scaricare magari i pdf monopagina dalla braidense? mi sembra ci sia molta confusione su quel sito. (da un a parte c'è il pdf a pagina doppia che ti fanno scaricare con watermark e risoluzione bassa dall'altra il sito anni 90 html con una pagina per ogni immagine)?
ora che ho il plain txt da gutenberg che faccio? : )
--Divudi85 (disc.) 18:35, 24 nov 2017 (CET)Rispondi
Niente, è già tutto fatto.... con una piccola sbavatura nel sezionamento delle pagine; mi dirai se secondo te è un problema troppo fastidioso.
Ti dico comunque i passaggi che ho fatto:
  • ho scaricato il txt e l'ho aperto in NotePad++ (editor con possibilità di usare regex);
  • ho sostituito gli apostrofi da dattilografici a tipografici;
  • ho sostituito i caratteri _ (che marcano le parole in grassetto) con il markup doppio apostrofo dattilografico;
  • ho sostituito i doppi trattini con spazio — spazio;
  • ho eliminato la morchia del file in testa e in coda;
  • ho copiaincollato in Gli amanti/testo e ho lanciato il match dalla prima "pagina rossa" (tre o quattro volte, correggendo i "no match");
  • ho lanciato lo split. Fine. Alex brollo (disc.) 18:45, 24 nov 2017 (CET)Rispondi
magic as usual : ) --Divudi85 (disc.) 19:13, 24 nov 2017 (CET)Rispondi

Contributori[modifica]