Discussioni utente:Divudi85/lug-dic2017

Contenuti della pagina non supportati in altre lingue.
Da Wikisource.

rosso e verde[modifica]

Ciao, ieri avevo un po' di tempo e un po' di voglia e ho arrossato qualche pagina di Indice:La Ferrovia Genova-Piacenza per la valle di Trebbia.djvu; solo quelle che ero in grado di lavorare dopo tanta assenza. Però non ho capito perché non hai verdizzato quelle che avevo arrossato io. Io non lo posso fare perché non mi vengono i quadratini verdi nel SUL. Credevo che a te venissero, Se li hai ancora, sfruttali e il lavoro è finito. Se no bisognerà chiamare manodopera esterna. :D Ciao! --Silvio Gallio (disc.) 14:26, 3 ott 2017 (CEST)[rispondi]

Thanks @Silvio Gallio, non le ho passate solo perchè normalmente non mi prendo la responsabilità del 100% ma visto che ci sei già passato te ora le cambio.
Prego :) - Ho letto in una pagina di discussione di una pagina che ti diverti con le tabelle. Ti posso suggerire un sacco di divertimento in molte delle pubblicazioni a carattere ferroviario. Le puoi trovare nel promemoria della mia pagina utente. Con un po' di pazienza cercando le pagine non al 75% hai tutte le tabelle che vuoi :D Esempio le ultime qui: Indice:Relazione sulla scelta della linea di allacciamento delle ferrovie italiane col Gottardo.djvu oppure qui Indice:Milani - Risposta a Cattaneo, 1844.djvu o anche qui -questo in ambito ferroviario è un mostro sacro- Indice:Delle strade ferrate italiane e del miglior ordinamento di esse.djvu eccetera. Io con le tabelle proprio non mi ci trovo e le detesto non poco. Inoltre ho poco tempo da dedicare a Source se non occasionalmente. Vedi tu. Ciao! --Silvio Gallio (disc.) 08:17, 4 ott 2017 (CEST)[rispondi]
belin, certe pagine son proprio velenose! Proverò a sistemare quaclosa :) --Divudi85 (disc.) 18:58, 4 ott 2017 (CEST)[rispondi]

Scansioni Salgari[modifica]

Segnalo anche a te: [1]. Nemo 17:07, 4 ott 2017 (CEST)[rispondi]

inseguimento individuale[modifica]

Ciao, vedo che mi stai inseguendo :D ottimo. Un solo avviso/suggerimento sulle tabelle. A quanto ricordo (e spero di ricordarmi sbagliato) le tabelle, quando sono in nota sbarellano del tutto. Prima di andare avanti, per non perdere tempo (se non mi sbaglio, eh!) prova a vedere come le tabelle formattate si comportano dentro i "ref" perché, come le note, devono andare fra in "ref" dentro nel testo... Auguri. (Molto interessante questo testo non lo conoscevo e porta a grosse considerazioni. forse ci scrivo un articolo.) Grazie! --Silvio Gallio (disc.) 17:04, 8 ott 2017 (CEST)[rispondi]

ehehe mi hanno fatto un attimo schiumare perchè non accettava <ref>{|... tutto attaccato, cmq pagina 41 mi sembra apposto. ora vedrò con quelle più grosse. --Divudi85 (disc.) 17:37, 8 ott 2017 (CEST)[rispondi]

grazie per la dritta.[modifica]

Tra l'altro ho scoperto che tre (forse le sole tre) copie di questo coso sono a Bologna, dove abito. Se mi viene voglia di muovermi approfondisco. Nel frattempo approfitto per fare il punto. Credo di non poter fare altro perché le pagine ancora al 75% le ho portate lì io quindi non mi viene il quadretto verde. Poi, ci sono un paio di pagine con le tabelle da fare (ecco quelle, dopo che le hai fatte le posso inverdire :D) , poi ci sarebbe il disegnino in alto sulla prima pagina (che non mi ricordo come fare a inserire senza impazzire -e io sono pigro-) e infine conviene valutare se l'Indice sia possibile inserirlo su due colonne oppure se la "comunità" accetta un 10% anche così. Hai fatto un lavorone, tecnico e paziente. Complimenti --Silvio Gallio (disc.) 10:39, 12 ott 2017 (CEST)[rispondi]

Integro: quella mappa e quei profili sono forse la parte più interessante! Ed era quello che mi proponevo di scavare. Intanto me lo scarico per me :) poi sarebbe da chiedere al bar cosa farne. Grazie! --Silvio Gallio (disc.) 10:52, 12 ott 2017 (CEST). (ehm! cosa intendi per "metà"? ci sono altre immagini? slurp![rispondi]
@Silvio Gallio Grazie mille a te! Se ti capita per le mani vedrai che l'inserto alla fine è lungo circa tre metri, l'ho scannato a fatica e le ultime non sono venute bene. Quello che ho messo su archive è poco meno di metà. Appena riesco riprovo con le altre. Qui su ws non credo si possa fare molto se non linkarlo.
L'indice è stata una bella menata, metterlo su due colonne credo lo sputtanerebbe un po' e in ogni caso nelle trasclusioni le colenne vengono ignorate (se non erro)
Coroncina a pagina 11 aggiunta. --Divudi85 (disc.) 11:05, 12 ott 2017 (CEST)[rispondi]
@Silvio Gallio ti ho fatto il pdf delle altre pagine, appena riesco le metto su archive a qualità alta https://drive.google.com/file/d/0B6LwbFOjzFjjSmRuR3o0LUEzSlU/view?usp=sharing --Divudi85 (disc.) 11:31, 12 ott 2017 (CEST)[rispondi]
Un grazie grande così! Mi frulla già l'idea per un articolo; appena ho finito i due che ho in cantiere ci ponzo sopra. Ammetto che non ho ancora le idee chiare su cosa ne può uscire... comunque ho la scansione del profilo e pianta dalla linea Milano-Piacenza (1861) e sono otto metri di lungo e circa 1.20 di altezza... Oh, gli ingegneri mica risparmiavano sulla carta, salvo poi fare le punte agli spilli sui metri della linea. :D Ciao! --Silvio Gallio (disc.) 13:17, 12 ott 2017 (CEST)[rispondi]
Io più di così non posso verdizzare (non mi appare il quadratino da cliccare) e non posso finire del tutto Indice:Considerazioni sulla importanza militare e commerciale della ferrovia direttissima Bologna-Firenze.djvu quindi se hai voglia di portarlo in fondo c'è solo da mettere il click (previa lettura veloce spero) oppure dovrai trovare manodopera esterna :D . Ciao! --Silvio Gallio (disc.) 14:54, 20 ott 2017 (CEST)[rispondi]
mille grazie! mi adopero --Divudi85 (disc.) 13:06, 21 ott 2017 (CEST)[rispondi]

Non essere timido! :-)[modifica]

Evita il Sal 50%, metti direttamente SAL 75% quando sei soddisfatto, ho visto delle tue pagine pressochè perfette etichettate "solo" SAL 50%, è un peccato! --Alex brollo (disc.) 07:54, 24 ott 2017 (CEST)[rispondi]

(oltretutto il 50% -almeno tempo fa- si usa/va per pagine con problemi particolari, da "offrire" agli esperti). Aggiungo: e lanciati al 100% quando vedi rosso. Se lo faccio io tu puoi certo meglio! :D --Silvio Gallio (disc.) 09:05, 24 ott 2017 (CEST) PS ho visto il nuovo inserimento. Arrivo. Con calma, ma arrivo. --Silvio Gallio (disc.) 09:05, 24 ott 2017 (CEST)[rispondi]
@Alex brollo quelle al 25/50% che ho fatto ultimamente vuol dire che ci sono stato sopra meno di 30 secondi: intestazione, post-ocr, paragrafi, linee e via. prima erano "stadi" che non usavo proprio, però mi fece riflettere quel tuo discorso sulla percentuale di pagine vuote qui su ws e allora in certi casi ora porto rapidamente tutto al 25/50% e poi ci ripasso con calma dopo. casi particolari, su "la donna e il suo nuovo cammino", non so perchè l'ocr spezza le parole, normalmente credo il post-ocr unisca solo se vede parolatronca-trattino / accapo / parolatronca, su questo testo c'è parolatronca-trattino / spazio / accapo / parolatronca. quindi fa robe tipo "dire- " / accapo/ "zione" invece di diventare "direzione" diventa "dire zione". --Divudi85 (disc.) 16:10, 24 ott 2017 (CEST)[rispondi]
Ping fallito :-(
La spiegazione mi lascia perplesso; a me non è mai successo; guarderò qualche pagina in cronologia. --Alex brollo (disc.) 17:05, 25 ott 2017 (CEST)[rispondi]
Ok, la spiegazione è semnplice: è l'origine pdf invece che djvu che dà problemi. La resa del testo di un pdf fa spesso questi brutti scherzi; il trattino a fine riga viene semplicemente "mangiato" nell'estrazione del testo. E' uno dei (molti) motivi per evitare il caricamento di pdf piuttosto che djvu: il pdf è ideato per rendere l'estrazione dei dati difficile, il djvu per renderla facile. --Alex brollo (disc.) 17:09, 25 ott 2017 (CEST)[rispondi]
lol, quindi mi sono incasinato la vita da solo --Divudi85 (disc.) 17:29, 25 ott 2017 (CEST)[rispondi]

<= In Indice:Per_la_posa_della_prima_pietra_della_nuova_stazione.djvu ti ho lasciato un paio di pagine da verdizzare. Ma solo perché il sistema non me lo lasciava fare, eh! :P - Grazie per l'inserimento, Non sono particolarmente interessato alla Direttissima ma puòfar sempre comodo... Ciao! --Silvio Gallio (disc.) 10:37, 26 ott 2017 (CEST)[rispondi]

@Silvio Gallio grazie! passato le pagine restanti, solo per l'immagine sono indeciso, ho preso quella intera dal pdf non croppato e l'ho ri-uploadata https://it.wikisource.org/wiki/Pagina:Per_la_posa_della_prima_pietra_della_nuova_stazione.djvu/12 ma in realtaà non so come ci si comporta in questi casi. (@Alex brollo?) --Divudi85 (disc.) 13:07, 26 ott 2017 (CEST)[rispondi]
Azz! Avevo dimenticato le figure! Purtroppo nemmeno io sono più aggiornato sulle relative usanze locali. Il "figurante" più bravo che ricordi è 'tal' :) @Luigi62 Silvio Gallio (disc.) 14:34, 26 ott 2017 (CEST)[rispondi]
(OT)Intanto grazie, immagino che mi interessi ma mi si è piantato il coputer princilape e sto usando un vecchio coso che funzia ma con un sacco di problemi.Appena riprendoi ilbaraccone ci guaqrdo di certo. Danke!Silvio Gallio (disc.) 07:57, 6 nov 2017 (CET)[rispondi]

Approposito di Rule[modifica]

Ocio che Rule non si distanzia più da solo verticalmente rispetto alle righe precedenti e successive (questo per consentire che quando serve la distanza sia minima); accetta due parametri v e t dove puoi mettere un numero (in em) per fissare comodamente e precisamente lo spazio sopra e sotto senza impazzire con le righe vuote e i loro trabocchetti sull'indentatura del paragrafo successivo. Vedi rifinitura di Pagina:Regolamento per il pubblico tiratoio dell'arte della lana di Prato.djvu/5. --Alex brollo (disc.) 17:02, 25 ott 2017 (CEST)[rispondi]

PS: se guardi qualcuna delle mie trascrizioni, frontespizi comnpresi, vedi che io ho eliminato quasi completamente le righe vuote prima/dopo centrato, ct, rule. E mi trovo benissimo! --Alex brollo (disc.) 17:11, 25 ott 2017 (CEST)[rispondi]
Me ne sono accorto solo di recente dei parametri da aggiungere, dovrò correggerli anche in tutte le altre pagine fatte :groan: Su queste che ho messo ora al 25% ci volevo ovviamente ripassare.
a proposito di righe esiste un modo per mettere il sottolineato? https://it.wikisource.org/wiki/Pagina:Per_la_posa_della_prima_pietra_della_nuova_stazione.djvu/3
sempre riguardo lo stesso testo... quando provo a far le cose magiche (immagine + testo con posizione relativa) che copio da te (ricordi il frontespizio de "Il diavolo, novelle valdarnesi"?) di cosa mi devo fidare? l'anteprima EIS ho visto che spesso mi sfasa le cose, il testo di quella pagina sembra sputtanato https://it.wikisource.org/wiki/Pagina:Per_la_posa_della_prima_pietra_della_nuova_stazione.djvu/1 ma in realtà qui sembra vada bene https://it.wikisource.org/wiki/Per_la_posa_della_prima_pietra_della_nuova_stazione --Divudi85 (disc.) 17:28, 25 ott 2017 (CEST)[rispondi]

Il tool maggico[modifica]

Ti ho montato in common.js il "tool_stefano.js", una piccola magia (vedi se funzia).

Con un doppio click sul campo Sommario di una pagina Indice il tool trasforma tutti gli Indici sommario un un testo che può essere copiaincollato e modificato su Excel.

Un secondo doppio click ricostruisce i template Indice sommario normalizzati.

Ciò significa che per normalizzare un campo Sommario basta fare doppio click due volte. E' quello che ho fatto. In realtà adesso scrivo sempre gli Indici sommario direttamente in excel, li importo e li trasformo; se Excel ti piace, capirai facilmente la logica; funziona qualsiasi sia il numero di livelli. Prova a studiare un paio di casi (esportandoli in excel), vedrai che non è complesso. --Alex brollo (disc.) 16:37, 6 nov 2017 (CET) (la logica è: ultima colonna a sinistra, delta; penultima, from; terzultima, titolo; tutte le altre, i vari elemento di nome) --Alex brollo (disc.) 16:43, 6 nov 2017 (CET)[rispondi]

thanks! farò due prove --Divudi85 (disc.) 18:12, 6 nov 2017 (CET)[rispondi]

Djvu dai pdf google books (e non solo) con ABBYY[modifica]

Siccome in bar siamo partiti per la tangente, ti rispondo qui: no, il procedimento che fai è inutile. Se hai un abbyy come si deve, dagli pure in pasto direttamente i pdf tali e quali, belli o brutti che siano, cancellando solo la pagina/le pagine warning (MAI le pagine bianche, copertine ecc. e soprattutto mai le pagine bianche all'interno del libro!!!!); si occupa lui di estrarre "il meglio" delle immagini dal pdf; in ogni estrazione/conversione inutile perdi comunque qualcosa, senza guadagnare nulla.

Il caricamento su IA di questi testi ha due scopi, diversi da quello della produzione del djvu:

  • ulteriore diffusione del testo e suo "salvataggio", google talora mette i suoi libri offline;
  • utilizzo del mostruoso file _abbyy.gz, che ABBYY FineReader non produce (ma il loro software ABBYY sì). L'utilizzo di questo file è, al momento, del tutto sperimentale, anche se molto promettente. --Alex brollo (disc.) 16:35, 7 nov 2017 (CET)[rispondi]
ok, avevo capito che usare il pdf in abby era deleterio. sto cercando di ampliare la casistica e dei rigiri che si possono fare per trovare il sentiero migliore per ogni imprevisto. ad esempio per le prossime digitalizzazioni non farò più fare il pdf allo scanner, ma scanno tutto in jpg o tiff, così possono croppare e ruotare come mi pare e da quelle poi costruisco il djvu. su archive si può caricare anche il djvu? no, forse prima era così ma ora ora solo pdf, right?--Divudi85 (disc.) 17:26, 7 nov 2017 (CET)[rispondi]
Su IA puoi caricare quello che vuoi. Ma IA farà partire la "derivazione" (OCR ecc) solo in due casi: se carichi un PDF o se carichi una cartella ZIP di immagini, con severe norme di nomenclatura dello zip e dei singoli file. Sì, se vuoi scannerizzare l'ideale è ottenere TIFF (non perdi nulla...), e lavorarci sopra; conosci ScanTailor? Una volta sistemate le immagini, se hai ABBYY puoi dargliele in pasto direttamente; per evitare molti possibili errori nei nomi file su IA consiglio di caricarle dopo averle montate in un PDF. --Alex brollo (disc.) 22:34, 7 nov 2017 (CET)[rispondi]
Ecco, grazie. ScanTailor è uno perfetto. Tool molto completa, proprio quello che mi mancava. Ora ho tutte le armi : )

Ciao, ci sarebbe qualche pagina da portare al 100%, sono quelle che erano al 50%, così anche questo lo finiamo! Grazie! --Cruccone (disc.) 09:05, 13 nov 2017 (CET)[rispondi]

fatto io! :P ma tu controlla...e poi mettilo fra gli arrivi. Ciao! --Silvio Gallio (disc.) 09:29, 13 nov 2017 (CET)[rispondi]

Delle ferrate toscane ecc.[modifica]

Ciao! Ho pistolato un po' Indice:Delle strade ferrate toscane e del migliore ordinamento di esse.djvu manca un p' di formattazione all'inizio e l'immagine alla fine. Per il resto mi sembra decente. Purtroppo un problema. Non ricordo come funzioni la faccenda e in Delle strade ferrate toscane e del migliore ordinamento di esse non si vede il testo. È terribile sto regredendo del tutto. Mi sembra di ricordare che non sia difficile ma ho un vero blank di memoria. Se puoi, provvedi, grazie. Silvio Gallio (disc.) 12:43, 14 nov 2017 (CET)[rispondi]

Devi dargli l'estensione delle pagine,così ti fa vedere solo pagina 1 (che è vuota) <pages index="Delle strade ferrate toscane e del migliore ordinamento di esse.djvu" from=1 to=1 />
dai dai, che è come la bicicletta : )
--Divudi85 (disc.) 13:55, 14 nov 2017 (CET)[rispondi]
Magari fosse vera la faccenda della bicicletta. Non ci salgo da oltre trent'anni e in effetti per un paio di minuti ho notato che ci so sempre andare. Invece qui sono 4 o 5 anni che ci lavoro poco o nulla e ho dimenticato quasi tutto. comunque ho messo da 4 a 28 e mi pare che vada bene. Se no correggi o fai correggere. Come ho detto ci sono due o tre pagine sotto il 75% a disposizione dei ciclisti provetti :P --Silvio Gallio (disc.) 16:44, 14 nov 2017 (CET)[rispondi]
Va benissimo, il resto lo sistemo. Grazie per il contributo! --Divudi85 (disc.) 16:54, 14 nov 2017 (CET)[rispondi]
Ho attaccato l'altro testo (interessantissimo fra l'altro). Ma ci vuole in fiorentino alle pagine djvu 5 e 7 in basso. Oppure uno con buoni occhi. Inoltre (come fa ad essere "oltre" se è "in"?) c'è sempre il problema della bicicletta; dove parte e dove si ferma. :P Ciao! --Silvio Gallio (disc.) 18:29, 14 nov 2017 (CET) AAAgh! Noto ora che la pagina è L(a) ferrovie economiche! passo a correggere e temo dovrà essere cancellata ohinoi! Salam!--Silvio Gallio (disc.) 18:29, 14 nov 2017 (CET)[rispondi]

<= (un po' OT) Mi hai convinto! Le tabelle te le puoi fare tutte! :PP Magari poi passo a chiudere. Poi... :D Silvio Gallio (disc.) 19:24, 30 nov 2017 (CET)[rispondi]

@Silvio Gallio, proprio ora mi sto dilettando con le tabelle de "Le ferrovie economiche d'Europa" : )
Infatti ho visto e, per l'appunto, mi hai convinto che le tabelle saranno tue. E non piango nemmeno un po' :P --Silvio Gallio (disc.) 20:36, 30 nov 2017 (CET)[rispondi]
Sta succedendo una cosa strana. In cronologia di alcune pagine (sono arrivato solo verso la 40) tu sei l'ultimo contribuente ma a me NON viene concesso il bottone per il verde finale. Credo (credo!) che dipenda dal fatto che, come a Pagina:Le ferrovie economiche d'Europa.djvu/27 tu abbia fatto un piccolo intervento di zero byte. Credo! Per cui adesso tu sei l'ultimo lavoratore e non puoi alzare il SAL (oppure si? controlla pliz). E io so già che non posso. Serve manodopera esterna. O magari quando trovi una pagina che è già al 75% la porti al 100%? Se la mia "analisi" è corretta dovrai deciderti ad abbandonare la timidezza (incomprensibile e immotivata) oppure a trovare un altro, ulteriore "socio" per alzare il SAL. Buonanotte :)) Silvio Gallio (disc.) 21:38, 30 nov 2017 (CET)[rispondi]

Tabella[modifica]

Forse ti ho privato del piacere di sperimentare.... :-) ma so che tu sei uno che ama il "learn by example". Vedi se ti piace la modifica in Pagina:Continuazione delle memorie e documenti della fondazione della biblioteca circolante popolare di Prato.djvu/10. --Alex brollo (disc.) 10:14, 15 nov 2017 (CET)[rispondi]

mmmh gustosa --Divudi85 (disc.) 11:07, 15 nov 2017 (CET)[rispondi]

Jpg braidense[modifica]

file jpg della Braidense (almeno quelli della Bormida) stanno in cartelle accessibili; si dovrebbero poter scaricare in massa con uno script python, a meno che il server non sia settato per smascherare i bot (ad esempio, Gutenberg adotta questa precauzione). Vuoi che provi uno scaricamento massivo su qualche opera che ti interessa? Ti interessa disporre delo script python, se la cosa funzia? Stupidez: mi hai già detto che hai usato HTTPtrack con successo. Mi era sfuggito. --Alex brollo (disc.) 20:07, 24 nov 2017 (CET)[rispondi]

no no, raccontami anche questo altro metodo. io ho semplicemente notato che quel libro lo hanno messo tutto in /dire/le amanti/images/*.jpg speravo che dicendo a httrack la cartella lui mi scaricasse tutto ma mi sono dovuto fare la lista degli url. cioè praticamente ho usato un mitra come apriscatole. : ) --Divudi85 (disc.) 08:59, 25 nov 2017 (CET)[rispondi]
@Alex brollo, sono sul treno dal cell, ho provato a fare qualche ricerca, forse da liber liber si può risalire a quelli della braidense. A quanto pare per certi testi c'é stato una specie di accordo Gutenberg/braidense/liber. Il txt di liberliber andrebbe bene uguale? Quella pagina che dicevi di popolare con i vari link alle fonti posso incollateli lì se li trovo?--Divudi85 (disc.) 11:26, 25 nov 2017 (CET)[rispondi]
Al momento sono concentrato su Gutenberg, speravo in uno standard più rigido ma invece ho visto che esistono più "dialetti". Mi interessa qualsiasi testo Gutenberg che abbia un item IA della stessa edizione. Se ne trovi, metti pure i due link (GP e IA) dove vuoi; basta che midici dove li hai messi. :-)
Visto che httrack è andato così così, vado avanti (a tempo perso) con lo script python "scaricatore", occorrerà comunque dargli in pasto l'url della cartella che contiene le immagini e lo schema del nome file (tipo "http://www.braidense.it/dire/bormida/images/","000.jpg"). Dopodichè dovrebbe essere in grado di arrangiarsi. --Alex brollo (disc.) 14:00, 25 nov 2017 (CET)[rispondi]
@Alex brollo sto scaricando dalla braidense "Ermanno Raeli" di Federico de roberto, per i tuoi esperimenti vuoi solo il link del pdf che butto su IA oppure te lo posso già uppare qui? --Divudi85 (disc.) 12:06, 26 nov 2017 (CET)[rispondi]
Ping non arrivato.... :-( non sarà una cosa immediata, magari mandami un link per un'opera che vorresti ma su ciui non stai ancora lavorando. --Alex brollo (disc.) 12:54, 26 nov 2017 (CET)[rispondi]

Script base[modifica]

#!/usr/bin/python
# -*- coding: utf-8  -*-

from urllib import FancyURLopener
# from time import sleep

opener=FancyURLopener({})

def go(urlBase="http://www.braidense.it/dire/ermanno/images/", nomeFile="000.jpg", cartella="jpg", ultimaPagina=266):
    for i in range(ultimaPagina):
        nf=nomeFile.replace("000",str(i).zfill(3))
        f=opener.open(urlBase+nf).read()
        open(cartella+"/"+nf,"wb").write(f)
        print nf, " salvato"

Questo script - estremamente grezzo - è il motore per scaricare in una cartella locale jpg esistente una serie di jpg chiamati 000.jpg, 001.jpg... contenuti in una cartella remota; potrebbe essere migliorato in mille modi (facendogli creare una cartella vuota, svuotando la cartella esistente se contiene robaccia, facendogli scrivere nomi file diversi ecc); ma da qualche parte tocca pur cominciare. Così com'è funziona per la Braidense. :-) Alex brollo (disc.) 17:37, 26 nov 2017 (CET)[rispondi]

grazie, mi studierò un po' anche di questo. ho visto però che lo strutturano in più serie di pagine, ma dovrebbe bastare runnare lo script più volte con le dovute modifiche. ho trovato anche delle scansioni dentro una sottocartella di un testo in GP solo che loro son più furbi e con httrack non me le facevano scaricare, questo è il primo caso che ho incontrato GP.
Già provato con python, già "annusato" il tentativo di scaricamento via bot (vietato dalle regole del sito, ma l'ho scoperto dopo, altrimenti non ci avrei nemmeno provato) e bloccato per punizione per 24 ore... :-( Alex brollo (disc.) 17:40, 1 dic 2017 (CET)[rispondi]
@Alex brollo LOL! Ecco vedi su ste cose io sono un po' scavezzacollo, devo imparare a leggere i TOS dei vari siti... --

Pistoia 16 dicembre[modifica]

Se sei disponibile, il 16 dicembre dovresti far vedere come si carica un file Djvu da Internet Archive e come si crea l'indice, dicendo anche ce i primi tempi possiamo occuparci noi di caricare, e lasciare a loro solo la riletttura. Ciao --Giaccai (disc.) 15:20, 27 nov 2017 (CET)[rispondi]

@Giaccai, no problem. possiamo anche stilare una specie di workflow a seconda dei casi... cmq ho già caricato un po' di roba su archive che non ho ancora passato su wikisource, così possiamo far vedere come si carica su archive senza dover poi aspettare la derive dei file. --Divudi85 (disc.) 17:12, 27 nov 2017 (CET)[rispondi]

Grossi lavori in corso[modifica]

Ho visto una vella serie di nuovi Indici braidensi. Non dirmi che sei riuscito a usare quello script python, che svengo :-) Posso aiutarti? Ci sono due cose che a me riescono più facili che ad altri: il campo Sommario, e la predisposizione dei memoRegex. Chiedi pure se ti serve (con l'ordine di priorità). --Alex brollo (disc.) 17:37, 1 dic 2017 (CET)[rispondi]

@Alex brollo No no, ho cominciato appaiando quello che trovavo su gutenberg con i testi della braidense. Ho trovato casi diversi e mi sono divertito. Di alcuni ho scaricato le immagini con HTTrack ma li ho poi dovuti passare in Scan Tailor perchè erano croppati in una maniera tale che sul visualizzatore di Archive mi facevano venire l'orticaria. Per quelli con già il pdf a pagina doppia sono andato di briss e via. Eppoi match&split a manetta. Ne ho fatti dieci di cui sei tutti in una notte, ahahah. Ho notato che sui txt di GP più vecchi usano una codifica diversa, per il grassetto ad esempio, su certi non era asterisco ma doppio-underscore. Per fortuna che l'hanno scritto, pensa se partivo col primo "sostituisci" con underscore-singolo = doppio-apice... Ecco una cosa che devo ancora imparare sono le memoRegex, me le devo studiare un attimo, sono come un trova e sostituisci complesso, right? Per i Sommari, ben venga tutto l'aiuto! --Divudi85 (disc.) 18:05, 1 dic 2017 (CET)[rispondi]
Sì, i regex sono una cosa così. Suggerimento: studia un "dialetto" specifico, inizia con javascript; e prova e riprova sul "tester regex" online https://regex101.com/, impostando javascript. --Alex brollo (disc.) 20:04, 1 dic 2017 (CET)[rispondi]

Cerco volontario boldaccio[modifica]

Mi punge vaghezza di riprendere in mano un vecchio progetto, ma stavolta avrei bisogno di un volontario che provi gli script python.

Poichè il tallone d'achille degli script python da far correre sui propri pc è l'interfaccia utente, l'idea (già realizzata per uno script senza storia) è quella di manovrare python con una pagina web. Una pagina web locale, animata da un server locale (in python), ma apribile con qualsiasi borwser e manovrabile esattamente come fosse una pagina remota. Ovviamente questa pagina web locale avrebbe accesso - via python - a qualsiasi programma locale che sia "a riga di comando" ossia: pilotabile da cmd (tipo tutte le routine djvuLibre, ma anche qualsiasi altra cosa similare).

Ci stai a fare l'utente-cavia? Forse lavorare in minore solitudine mi incoraggerebbe. Tu lavori sotto windows? --Alex brollo (disc.) 17:00, 11 dic 2017 (CET)[rispondi]

@Alex brollo sure! ho win 7 e ho capito quello che hai detto al 90%, tra capirlo e farlo spero ci voglia poco. famme sapè. --Divudi85 (disc.) 17:23, 11 dic 2017 (CET)[rispondi]
Ottimo. Appena avrò il Hello word te lo invio. Ci sarà da lanciare uno script python per creare il server, e poi da aprire il browser aprendo una pagina da un url. Nulla di più. Per fare le cose semplici fin dall'inizio, correrà subito dentro il potente server Ajax e jQuery. --Alex brollo (disc.) 19:24, 11 dic 2017 (CET)[rispondi]

xml2dsed.py[modifica]

Ed eccolo qua, lo script aggiustatore: Progetto:Bot/Programmi in Python per i bot/xml2dsed.py.

Richiede il modulo BeautifulSoup, il modulo lxml, e le routine djvulibre "a portata di path". Nel caso che giri, queste sono le semplicissime istruzioni:

  • copiare nella stessa cartella dello script il djvu "fallato", senza testo, prodotto da IA Upload;
  • copiare nella stessa cartella il file _djvu.xml dall'item IA cxhe si è cercato di caricare con IA Upload;
  • da cmd lanciare: python xml2dsed.py identificatore IA nome del file djvu (completo di estensione)

Esempio: per Giacinta di Capuana, copiati i files, il comando è stato:

  • python xml2dsed.py CapuanaGiacinta CapuanaGiacinta.djvu

Tutto qua. Lo script carica il testo e poi lo verifica, fornendo alla fine l'elenco delle pagine in cui il testo è risultato difettoso (ma questo è tutto un altro problema.... da risovere diversamente: riflessioni in corso. --Alex brollo (disc.) 23:57, 12 dic 2017 (CET)[rispondi]

BoNba! Sono pronto, che devo fare? Me lo copincollo da qualche parte? Me lo tatuo sulla schiena?--Divudi85 (disc.) 16:59, 13 dic 2017 (CET)[rispondi]
Bè... intanto bisogna verificare se hai tutti gli "attrezzi del mestiere". Hai Python installato? che versione (io uso la 2.7)? Se la risposta è sì, bisogna verificare subito se hai già disponibile bp4 (Beautiful Soup 4) e se corre bene; poi bisogna verificare se hai djvuLibre e se python "lo vede": dopodichè.... ti copincolli il codice in un file txt chiamato xml2djvu.py e si prova. Non ricordo se mi hai già raccontato se e come usi python, io lo uso in modo abbastanza poco elegante.... sono un "programmatore totalmente autodidatta".
Ma organizziamoci per il recupero dei djvu fallati. Dove te li metto? Li caricherei su Commons con il nome con cui tentavi di caricarli, e precisamente:

--Alex brollo (disc.) 21:33, 13 dic 2017 (CET)[rispondi]

@Alex brollo Fermi tutti, i miei "possibly failed" li ho già ri-caricati tutti!
Per lo script mi organizzo e ci provo : ) Thanks!
--Divudi85 (disc.) 22:11, 13 dic 2017 (CET)[rispondi]
Me ne sono accorto. Ok, riprenderò in mano caricamenti BEIC; ma spero che qualcosa si muova da parte di quelli bravi, ho riferito qui: T1827678. --Alex brollo (disc.) 22:18, 13 dic 2017 (CET)[rispondi]

Digitami[modifica]

Sì, grabber.py può scaricare le immagini con una piccola funzione aggiuntiva che ti ho spedito per mail. Però sono piccoline: solo 500px di larghezza.... pochino. --Alex brollo (disc.) 23:57, 13 dic 2017 (CET) @Alex brollo, sì inoltre non ci sono le scansioni di tutte le pagine di copertina, guardia, etc... Solo che quel testo c'è solo lì. Ho scaricato python e djvulibre. E un app che mi insegno python ehehe, prima o poi ci arrivo : ) --Divudi85 (disc.) 13:28, 14 dic 2017 (CET)[rispondi]

Benissimo! Già con djvuLibre puoi fare grandi cose "a mano", poi quando imparerai a pilotarlo via python....
Confermami: Python 2.7? Perchè Python 3 è molto diverso. --Alex brollo (disc.) 14:33, 14 dic 2017 (CET)[rispondi]
@Alex brollo, sisi 2.7, ho visto che la 3 hanno smesso di svilupparla... --Divudi85 (disc.) 15:17, 14 dic 2017 (CET)[rispondi]
benissimo. Io per (cattiva) abitudine uso moltissimo, per le prove ma anche per la "operatività" l'ambiente IDLE, anche perchè infilare caratteri non ASCII dal cmd mi crea sempre problemi; vedi tu. A parte python, hai esperienza di programmazione in qualsiasi linguaggio? Scusa le domande banali ma dobbiamo prenderci reciprocamente le misure :-) --Alex brollo (disc.) 16:44, 14 dic 2017 (CET)[rispondi]
Tra poco e zero, mi sono studiato un po' jquery in mancanza di un corso decente su sparql (per le query su wikidata), ho presente i concetti base funzione/variabile etc. Cmq ora mi faccio un corsino sull'app sololearn e se ne riparla. --Divudi85 (disc.) 18:56, 14 dic 2017 (CET)[rispondi]
O_o Ok: poi mi insegni.... --Alex brollo (disc.) 21:48, 15 dic 2017 (CET)[rispondi]
@Alex brollo piano piano python comincia ad avere senso : ) gioco ancora n po' in IDLE e poi mi ci metto --divudi (disc.) 18:24, 21 dic 2017 (CET)[rispondi]
Magnifico! Se già pensi di abbandonare Idle hai fatto in giorni quello che io ho fatto in anni.... Ieri sera ho finalmente isolato il bug più infido che causava malfunzionamenti di IA Upload, ho appena caricato Progetto:Bot/Programmi in Python per i bot/xml2dsed.py, funzionante ma stilisticamente orrendo; non vedo l'ora di poter lavorare "a quattro mani". --Alex brollo (disc.) 07:59, 22 dic 2017 (CET)[rispondi]
@Alex brollo dubito di poterti dare realmente una mano, per ora mi basterebbe capire vagamente cosa fa e come lo fa. certi passaggi mi sono completamente oscuri. oggi lavoro tutto il giorno, domani se ti becco online proviamo qualcosa (tipo che te mi dici cosa devo fare e io lo faccio) : D --divudi (disc.) 11:36, 22 dic 2017 (CET)[rispondi]
@Divudi85 Nonostante sia stilisticamente brutto, quella cosa là fa delle cose di difficoltà ufo... frutto di anni e anni di indagini e di tentativi. Francamente non è adatto a imparare qualcosa. Cominceremo con cose molto più semplici. --Alex brollo (disc.) 11:43, 22 dic 2017 (CET)[rispondi]
@Alex brollo sono pronto per pythonare... scaricato beautiful soup in tar.gz, pensavo si installasse da linea di comando ma non. --divudi (disc.) 10:43, 23 dic 2017 (CET)[rispondi]
@Divudi85 Ottimo. Ti propongo di usare una tua sottopagina per tutte le comunicazioni: Utente:Divudi85/Python, in modo di renderla un'avventura condivisa wiki. Poi niente esclude di usare altri canali. Alex brollo (disc.) 10:53, 23 dic 2017 (CET)[rispondi]

Gruppi locali di utenti: Firenze, Prato e Pistoia[modifica]

Segnalo. --pegasovagante (la mi dica) 18:37, 19 dic 2017 (CET)[rispondi]

Anima sola[modifica]

Caro Divudi85,

ho notato la tua pubblicizzazione dei testi IA+PG sul progetto Scritture di donne. Bello, ma riscontro che il lavoro da te svolto in gran parte sul NsPagina e NsIndice è appena appena accennato: tieni conto che il navigatore di passaggio e i crawler dei motori di ricerca ecc. cercano prima nel ns0 poi forse altrove.

Metti caso che da Autore:Neera uno clicchi su Anima sola: trova quello che a Roma si definisce ’na sola: una copertina ma nulla che presagisca di trovare un testo. Metti che voglia salvare come pdf il testo grazie ai bottoni posti sopra l'intestazione: salverà solo ciò che è transcluso in ns0 (nel caso di Anima sola la copertina e basta).

Dal tuo lavoro risultano le seguenti situazioni:

In questo caso il libro è un unico testo continuo non diviso in capitoli e dunque non serviva la sottopaginazione dei singoli capitoli;
  • caso Dal vero (Serao): effettuato il M&S lasci in ns0 i link rossi ai capitoli: alcuni li ho aggiunti io, ma occorre rivedere lo split in diversi casi.

Le modifiche da te compiute mi danno un quadro piuttosto strano:

  • Quando prepari la pagina indice appari conscio che i testi hanno suddivisioni in capitoli e che queste vadano transcluse in ns0
  • Quando prepari il match lo incolli in una sottopagina /testo delle opere create di getto (es. Suor_Giovanna_della_Croce/testo), ma forse non ti è chiaro che tali pagine sono non solo orfane, ma che non sostituiscono per nulla la normale strutturazione in ns0 fatta di sottopagine per ogni capitolo ecc. ecc.

Non voglio apparire solo censorio: propongo qui un flusso di lavoro che sia compatibile con le tue aspirazioni, ma che si integri in un progetto collaborativo come questo: prendiamo ad esempio come si potrebbe fare per un romanzo, che so... Indice:Serao - Suor Giovanna della Croce.djvu

  1. Crei la pagina indice;
  2. effettua pure il Match&Split come hai fatto finora, ma partendo da una tua sottopagina utente (Utente:Divudi85/Sandbox per esempio);
  3. una volta effettuato il M&S controlla nel match la suddivisione in capitoli dell'opera che hai splittato e ripetine la struttura nella pagina indice del testo usando il template {{indice sommario}};
  4. in tale maniera quando creerai Suor Giovanna della Croce in ns0 la sua strutturazione in capitoli diventa automatica con un clic grazie al gadget AutoNs0;
  5. Nei link rossi che si creano per ogni capitolo del romanzo la transclusione avviene automaticamente con un clic sempre grazie al gadget AutoNs0;
  6. Fine. Ovviamente ogni operazione automatica andrebbe verificata visitando le pagine create.

Da quello che hai compiuto finora con i M&S IA+PG ci troviamo ora con

  • tutta una serie di sottopagine /testo in ns0 da cancellare, mentre una tua sottopagina utente sarebbe da te riutilizzabile quanto ti pare
  • Tutta una serie di romanzi con la sola copertina il cui testo è da transcludere sulla base dei sommari
  • tutta una serie di sottopaginazioni di capitoli da effettuare (a condizione che il sommario nelle pagine indice sia già stato creato)... insomma un discreto quantitativo di lavoro sporco.

Se vuoi concentrarti solo sul M&S vada, in fondo il resto sono operazioni eseguibili anche da altri — se proprio non volessi fartene carico — ma abbi per favore l'accortezza di segnalare a qualcun altro le necessità di completamento del lavoro prima che il lavoro sporco arretrato monti a dimensioni improbe: quando Luigi62 ti ha mostrato la transclusione in La vecchia casa il segnale che ti ha dato è che o le transclusioni successive le avresti effettuate tu o che quantomeno glielo avresti chiesto; il silenzio non aiuta a chiarire.

Spero di aver chiarito la situazione, se avessi qualche dubbio non esitare a scrivermi. Buone feste! - εΔω 13:07, 27 dic 2017 (CET)[rispondi]

@OrbiliusMagister, grazie delle dritte. Hai ovviamente ragionissima, non avevo pensato al problema del crawler o delle pagine /testo. So che mi sono fatto prendere la mano ma non ho abbandonato nessun testo. Tengo traccia sulla mia pagina di tutti i testi matchsplittati, sono tutti a stadi differenti ma li porterò a compimento. Dal prossimo caricamento porterò invece a compimento da subito la pagina indice con sommario e tutto in maniera che sia pulita. Thanks! --divudi (disc.) 13:19, 27 dic 2017 (CET)[rispondi]
Onde evitare il sovraccarico di teoria stavo per scriverti proponendomi come volontario per una "seconda passata" al tuo lavoro mostruoso. Ho bisogno di prendere una pausa. La seconda passata ha due facce: SAL 25% -> SAL 75% e SAL 75% -> SAL 100% a seconda di cosa trovo. Seguirò la lista dei tuoi nuovi Indici (che hai elencato nella tua pagina Utente: BRAVO! :-) ) e comincio; se hai priorità /preferenze avvisami. Per quanrto riguarda la tua teoria, ti propongo di affrontare coraggiosamente la questione memoRegex; te ne darò vari esempi nel corso di questa galoppata, tu chiedimi il perchè e il percome di qualsiasi cosa non ti sia chiaro. --Alex brollo (disc.) 07:36, 29 dic 2017 (CET)[rispondi]
Thanks @Alex brollo, sono partito dal basso (dal più vecchio) e sono arrivato a La testa della vipera. Alcuni indici sono più "velenosi" di altri (tipo non hanno la pagina indice) ma tutto sommato ho fatto abbastanza in fretta. Tu memoregexa che io scopiazzo : ) Le cose più semplici le ho capite, essendo però in questi casi specifici testi matchsplittati non c'è troppa necessità di regex (o forse io non la vedo perchè non ho chiare le potenzialità). Ho provato però una casistica più ampia in Toponimia sarda dove ci sono tante abbraviazioni cannate dall'ocr, ma nulla di che... Ecco la cosa che non posso fare è cancellare tutte le pagine testo che ho creato (again, sorry) --divudi (disc.) 12:03, 29 dic 2017 (CET)[rispondi]
No problem per le pagine da cancellare; come esemplare punizione ti chiedo di aggiungere a ciascuna il template tl|Cancella subito. Alex brollo (disc.) 14:14, 29 dic 2017 (CET)[rispondi]

memoRegex per testi M&S[modifica]

Sto lavorando a Anima sola; guarda le regex che sto utilizzando, probabilmente serviranno anche per tutti gli altri testi da M&S. Ho abbondato con i commenti ma solo per dire cosa le regex fanno, non la sintassi della regex, chiedimi pure se qualcosa non ti è chiaro (e se ti è tutto chiaro sei un mostro o_O). --Alex brollo (disc.) 11:17, 31 dic 2017 (CET)[rispondi]