Wikisource:Bar

Da Wikisource.
Benvenuto nel Bar di Wikisource!
il punto d'incontro e discussione dei wikisourciani
archivio
Filing cabinet icon.svg
2018
gen feb mar apr mag giu lug ago set ott nov dic

Cat Categoria: Wikisource Bar Bar 

Il Bar di Wikisource è il punto d'incontro e discussione dei wikisourciani. Qui si possono porre domande, fare osservazioni o inserire comunicazioni di carattere generale a proposito di it.wikisource. Per favore, tieni conto che questo non è un forum né un blog. Tratta quindi argomenti il più possibile inerenti Wikisource e il suo progetto complessivo.

Se hai quesiti specifici riguardo a determinati argomenti, dai un'occhiata ai bar tematici, se hai domande tecniche lascia un messaggio nel bar tecnico.


Desideri...
Un sorso di Porto?

No? Ti propongo qualcos'altro?

Hai appena conosciuto Wikisource e hai domande su cos'è, come funziona e cosa si può fare?

Leggi le domande frequenti.

Non trovi un'informazione?

Fa' una ricerca e esplora it.wikisource: se ancora non trovi nulla,
scrivi un messaggio sul Bar.


rifare file djvu di Amoretti[modifica]

Come avevo detto in passato, ho recuperato le scansioni delle pag. 34-35, (in precedenza scansionate solo in parte) e del frontespizio (in precedenza mancante) di "Volapük - Grammatica e Lessicologia" di Vincenzo Amoretti, i file nuovi si possono vedere su Wikimedia qui. Qualcuno riesce a fare il nuovo file djvu?

Ciao e buona Pasqua. --Myron Aub (disc.) 19:57, 31 mar 2018 (CEST)

Aggiunte le 34-35, per le altre pagine all'inizio mi pare manchino cmq... (forse ho capito male) --divudi (disc.) 23:44, 31 mar 2018 (CEST)
Intendevo dire che ho aggiunto anche il frontespizio (in precedenza mancante) dove è presente una foto con la dicitura "J. M. SCHLEYER Inventore del volapük". --Myron Aub (disc.) 10:03, 1 apr 2018 (CEST)
Ah ok, vista, quella però sarebbe pagina 3, giusto? Mancherebbero cmq 1 e 2... Il problema ad aggiungere pagine all'inizio nel djvu che ora come ora non ci sono è che incasina tutte le pagine successive, poi ci vuole uno che le sposti. --divudi (disc.) 10:47, 1 apr 2018 (CEST)
Le pagine 1 e 2 in realtà sono bianche, per questo non le ho messe... Peccato che sia complicato aggiungere pagine all'inizio, comunque questo lavoro dovrebbe mantenere le trascrizioni già fatte... --Myron Aub (disc.) 11:42, 1 apr 2018 (CEST)
Non credo sia troppo complicato, lo spostamento si fai con un bot credo, solo io non so come si fa : ) bisogna chiedere a qualcuno di più esperto, magari aggiungendo anche le prime due, anche se bianche meglio avere l'opera nella sua completezza... --divudi (disc.) 11:47, 1 apr 2018 (CEST)
(confl).So che farò soffrire Alex che ama le righe di comando. Ma sappiate che esiste un programmino che si chiama DjvuToy scritto da un cinese, Anni fa ne ho anche inserito una specie di pagina di aiuto qui [[1]]. Mi pare che l'autore non lo stia davvero seguendo ma ha sermpre funzionato benissimo. L'unico "problema" è che non crea un OCR se non usando il MODI di MS. (e pure di Win/7 (se ben ricordo). Ma la costruzione e la gestione di testi è facilissima e velocissima. Se poi riuscite a scaricare l'ultima release (credo sia 2.qualcosa) dal sito mettete, please, il link ESATTO che me la vado a prendere. Io ne ho uno ma vecchiotto. Occhio che il sito è in cinese e pure complicato dalla politica (a quanto ho capito) Buona caccia --Silvio Gallio (disc.) 11:56, 1 apr 2018 (CEST)

──────────────────────────────────────────────────────────────────────────────────────────────────── Quando mi stuferò di contribuire... semplicemente wikisource troverà pace dalle mie continue trovate :-)

Confermo, lo spostamento di pagine viene fatto via bot e non è particolarmente complicato; è bene copmunque che venga fatto immediatamente dopo la modifica del file djvu, perchè crea una situazione di forte confusione (si perde temporaneamente la corrispondenza immagine/testo e guai se qualche volentero capitato per caso cerca di sistemare)...
DjvuToy è fantastico per costruire ottimi djvu immagine, ma a noi serve anche l'OCR, ed il migliore OCR che esista. Mi prenoto comunque per usare il link se c'è una versione 2. Il problema è che l'autore (geniale!) è un po' scoraggiato e dà per "moribondo" il formato djvu. Comunque sono nuovamente interessatissimo a DjvuToy: se costruisce immagini omologhe a quelle di IA, potremmo usare il djvu.xml di IA e il djvu immagine di DjvuToy.... mi confermi Silvio che DjvuToy imponga di partire da immagini tiff? Alex brollo (disc.) 21:54, 1 apr 2018 (CEST)
Uhm, Alex, devo andare a memoria perché da anni non lo uso costantemente ma l'ho usato un paio di volte qualche mese fa per attività extraSource. Attualmente non l'ho installato (cambio di schede del computer) ma mi pare che si, si dovesse partire da TIF (o anche TIFF). Quello che mi piace del trespolo è che va benissimo per taglia e cuci di pagine bianche, inserimenti ecc. Sull'OCR, appunto ci sono problemi ma immagino si poccano ricavare dopo il confezionamento del testo con altri e migliori software. Una volta ho caricato il djvu su I.A. è loro se lo sono lavorato. Ma non è venuta fuori un OCR decente (era il 2011 o 2012). Come versione ho la 2.1 che però mi sembra essere quella del 2011-12); nel sito in cinese credo di aver letto che esiste una release 2.7 ma giuro che non sono così bravo con i geroglifici :D. Il sito è stato completamente cambiato credo da un paio d'anni e molta roba sembra non esserci per i "noti" motivi interni della Repubblica cinese... Ohinoi. Oggi ormai sto per chiudere ma domani se mi lasciano provo a installare di nuovo. Ti/vi dirò Buonanotte Silvio Gallio (disc.) 22:50, 1 apr 2018 (CEST)
@Silvio Gallio Per chi ha FineReader il problema non si pone. Per chi non ce l'ha... be', sto ri-studiando DjvuToy, l'avevo molto trascurato, devo verificare se è possibile creare un sistema semplice per montare dentro il djvu immagini che DjvuToy costruisce lo strato OCR che pubblica IA... sì, DjvuToy accetta molti tipi di file, accetta perfino i file jp2 (Jpeg 2000) di IA, quindi la cosa si fa parecchio interessante. PS: chi vuole una copia del programma, me lo chieda, non necessita di installazione; si "dezippa" e fine. Il file doc è in cinese, ma il traduttore di Chrome fa miracoli. Alex brollo (disc.) 08:19, 2 apr 2018 (CEST)
Oh bella! L'avevo montato anche su questo computer! Dunque; non riesco a capire quale sia la release (dovrebbe essre la 2.1. Se qualcuno (Alex?) ne ha una più nuova che fischi); cliccando sull'help vedo che si cita una 2.10 ma non riesco a trovarla. Ad ogni modo negli anni scorsi le differenze erano sempre molto piccole. L'unica un po' 'pesante' l'ho trovata e segnalata proprio io sei anni fa. Visto che l'amico orientale sembra non interessarsi molto al suo prodotto, c'è poco da sperare per l'OCR. Sarebbe bello che si potesse fare "in casa" partendo da djvu una volta montato per bene. Ma tant'è. Silvio Gallio (disc.) 11:11, 2 apr 2018 (CEST) aggiornamento: Trovato Djvutoy 2.10. A una prima occhiata non ci sono differenze. D'altra parte l'help dice che sono correzioni di bug interni. --Silvio Gallio (disc.) 11:28, 2 apr 2018 (CEST) Dimenticavo. @Alex brollo l'unico link comodo che ho trovato è in questo forum francese [[2]] - in alto, nel primo post, a fianco di "télécharger" si legge DjvuToy v 2.10 (Ang) cliccando si apre il normale quadretto per scaricare. Silvio Gallio (disc.) 11:40, 2 apr 2018 (CEST)
Sono scoraggiato... fatto correre DjvuToy sui file jp2 di IA ho visto cose che mi turbano. E' brutto ragionare su alcune premesse, e poi scoprire che quelle premesse sono sbagliate! Editiamo va' che è meglio... :-( Alex brollo (disc.) 17:19, 2 apr 2018 (CEST)

Formattazione indice[modifica]

Ciao, trascrivendo il libro Viaggio da Milano ai tre laghi Maggiore, di Lugano e di Como e ne' monti che li circondano, arrivato all'indice ho notato che utilizzando una tabella si perde, nella visualizzazione in ns0, l'ordine alfabetico (Viaggio da Milano ai tre laghi Maggiore, di Lugano e di Como e ne' monti che li circondano/Indice alfabetico). Avete una soluzione da suggerire? Pingo Civvì. Grazie, --Yiyi 22:16, 31 mar 2018 (CEST)

Già... per questi casi ci sono i template {{Colonna}}, {{AltraColonna}} e - se serve - {{FineColonna}}. In ns0 la "doppia lista" è resa come lista unica, ordinata regolarmente. --Alex brollo (disc.) 21:38, 1 apr 2018 (CEST)

Un inciampo[modifica]

Salve! Vedo il lavoro di Giaccai con il libro britannico di versi italiani. E vedo in basso "Alla stazione in una mattina d'autunno" di Carducci. Vuoi che uno come me non ci dia un'occhiata? :) Il link è rosso ma si può rimediare. So che la poesia da qualche parte ce l'abbiamo ma non ricordo dove. Scrivo in "cerca" e -ohibò- mi esce la pagina indice dello stesso librone britannico. Oltre a wikidata e mille altre piacevolezze diverse. Ma "so" che in Source esiste. L'ho letta altre volte. Però nisba. Non esce un risultato che sia uno. Non si trova. OK, se ne sta bella bella nelle "Odi Barbare" ma chi se lo ricorda? Ecco. Moltiplichiamo per tutti quelli che cercano una ben determinata poesia (o testo) e non la trovano perchè imballata in mezzo a decine di altre... Ovvio che io sono imbranato ma sarebbe bello se chi sa come fare a trovare un pezzo in mezzo ad altri, lo mettesse in evidenza Grazie --Silvio Gallio (disc.) 20:48, 2 apr 2018 (CEST)

la casella Cerca qua in alto lo ritorna come primo risultato. Non è che tu hai usato il "cerca in questo testo"? O hai/avevi selezionato di cercare solo in namespace indice? Can da Lua (disc.) 21:26, 2 apr 2018 (CEST)
Io ho usato la casella "Cerca all'interno di Wikisource" in Pagina Principale in alto a destra (che, credo, sia ciò che farebbe qualsiasi utente appena arrivato). L'ho appena rifatto e il risultato è lo stesso, mi dà solo il link a "Indice:The Oxford book of Italian verse.djvu" (più la colonna a destra dei progetti fratelli). Forse il problema è qui da me? Oppure Odi barbare/Delle Odi Barbare Libro II/Alla stazione in una mattina d'autunno è un titolo troppo lungo o troppo sottopaginato? Certo che una volta arrivato a Odi barbare in NS0, anche con "Cerca in questo libro" si trova subito. Ma allora non hai quasi bisogno di "cercare", basta CTRL-F. Danke --Silvio Gallio (disc.) 08:18, 3 apr 2018 (CEST)
Silvio Gallio: dopo aver fatto "Cerca all'interno di Wikisource", clicca su "Avanzata". Vedrai i namespace in cui stai cercando: di default ci sono Principale, Autore e Indice, ma se tu in passato avevi deselezionato "Principale" e fatto "Ricorda la selezione per le prossime ricerche"... Can da Lua (disc.) 09:36, 3 apr 2018 (CEST)
Lo sapevo chwe era colpa mia. :( Grazie per la diagnosi. Ma allora perché non mi è apparso come "Pagina Indice"? (perché questa è divisa in molte sottopagine?). Già che sono qui segnalo che l'intestazione a stampa proprio di questa poesia è "odi baraare". Non so mai se e come si corregge... Grazie e scusare il disturbo. --Silvio Gallio (disc.) 09:55, 3 apr 2018 (CEST)

Tech News: 2018-14[modifica]

21:28, 2 apr 2018 (CEST)


Avete visto le nuove icone in nsPagina? Non so voi, ma per me sono davvero orrende. Tra l'altro se clicco direttamente al centro del cerchietto non succede nulla, perché quello è solo uno span e la vera checkbox è qualche pixel più a destra! Non ho parole... penso che mi scriverò un css per riportare le cose come prima. Can da Lua (disc.) 21:09, 3 apr 2018 (CEST)
Viste, non bado molto alla grafica (non me ne vanto); fai pure, mi va benissimo, solo per favore togli quel mi: ...preferirei penso che mi scriverò un css... Alex brollo (disc.) 23:01, 3 apr 2018 (CEST)

La geometria non-euclidea[modifica]

Mi sono imbarcato della trasformazioone proofread di La geometria non-euclidea, più o meno ci siamo (testo, figure, annotazioni quasi finite), resta un bel problema: le formule matematiche. Le più complesse sono disponibili come immagini png. Non è affatto la stessa cosa che costruirle con math ma.... intanto uso quelle? --Alex brollo (disc.) 18:23, 3 apr 2018 (CEST)

Io mi astengo per comprovata ignoranza; ma ricorda che non c'è nulla di più definitivo di una cosa provvisoria :D --Silvio Gallio (disc.) 18:28, 3 apr 2018 (CEST)
Compromesso: io le carico su Commons, ma non le inserisco. Nota: sono molte ma non moltissime.... qualche pagina da portare a SAL 75% senza usare math c'è. Prima di abbandonare l'opera alle cure di altri scriverò qualcosa in pagina Discussioni indice per indicare le cose "facili" che possono essere fatte (formattazione, correzione di problemini da Match & Split impreciso...). Vorrei passare a altro! --Alex brollo (disc.) 23:06, 3 apr 2018 (CEST)
Occhio, lanciando "esegui regex" il codice immagine si crea automagicamente... un trucco possibile dando ai file immagine delle formule un nome "omologo" alla nota di rimando nel testo, che è sempre del tipo [vedi formula 64.png]. --Alex brollo (disc.) 18:13, 4 apr 2018 (CEST)
N.B. La comunità di Pedia ha molti utenti che smanettano quotidianamente con LATeX e i tag <math>...</math>: è la volta ch possiamo chiedere loro di darci una mano, magari poi danno un'occhiata a qualche altra pagina... e abbiamo un Progetto:Matematica che non attende altro che di essere popolato... - εΔω 16:32, 6 apr 2018 (CEST)
Ciao! che c'è di complicato nel latex ? https://it.wikisource.org/wiki/Pagina:Bonola_-_La_geometria_non-euclidea.djvu/33 --MauC66 (disc.) 23:31, 9 apr 2018 (CEST)
Io sto finendo Le opere di Galileo vol. III. Successivamente potrei prendermi cura di quest'opera prima di continuare con il vol. IV. Per il momento ho editato questa pagina. Si può fare? --stefano mariucci (disc.) 08:39, 10 apr 2018 (CEST)
@Stefano mariucci Risultato grafico eccellente: bravissimo! Ma.... penso che l'uso di math permetta anche di registrare il significato della formula, con l'attento uso dei simboli. Temo che sia meglio aspettare che qualcuno affronti il problema con math. --Alex brollo (disc.) 17:12, 11 apr 2018 (CEST)

Trento Smart City Week 2018[modifica]

Ciao, vi segnalo che in occasione della Smart City Week 2018 la Biblioteca comunale di Trento organizza due eventi:

  • venerdì 13 aprile dalle 16 alle 18 presentazione del progetto Geografie del mondo antico e laboratorio di georeferenziazione e costruzione di mappe interattive
  • sabato 14 aprile dalle 10 alle 18 visita alla biblioteca ed edit-a-thon

Ulteriori informazioni e iscrizioni su w:Wikipedia:Raduni/Trento Smart City Week 2018. Siete tutti invitati! --Jaqen (disc.) 11:23, 4 apr 2018 (CEST)

Programmare il caricamento di un file per una certa data[modifica]

Per caso qualcuno sa se c'è un modo per "programmare" in modo automatico il caricamento di un file di un testo in modo che esso sia disponibile esattamente a partire dal giorno in cui scadono i suoi diritti, senza che un utente debba caricarlo manualmente proprio quel giorno? Mi piacerebbe sapere se è possibile farlo sia su Wikisource per i file Djvu che su Internet Archive con i file Pdf. Grazie! --Myron Aub (disc.) 23:37, 4 apr 2018 (CEST)

No non lo so. Ma tenendo conto delle difficoltà di IA Upload e delle scarse risorse di sviluppo che MediaWiki destina alla questione sono mooooolto pessimista.
Ne approfitto per segnalare un grosso problema: ABBYY comincia a "tagliare" il formato djvu da quelli in output, anche se li mantiene per i formati in input. Temo che sia quello il motivo per cui IA ha smesso di produrre djvu decenti. O MediaWiki "adotta" il formato djvu e lo cura in autonomia, ridandogli fiato, o temo che pian piano il formato djvu sparirà. Il geniale autore cinese di DjvuToy lo dà da tempo per "malato terminale". :-(
Ho scritto una mail a ABBYY con una esplicita richiesta sulla loro policy sui djvu. Condividerò la loro risposta appena mi arriva. --Alex brollo (disc.) 08:59, 5 apr 2018 (CEST)
Aggiungo anche che non servirebbe neppure che il file di testo sia caricato solo a partire del giorno in cui scadono i suoi diritti, basterebbe semplicemente che non fosse accessibile pubblicamente agli utenti fino alla data di scadenza dei diritti, anche se magari è già caricato sul sito (cosa di cui naturalmente è a conoscenza solo l'utente che lo ha caricato).--Myron Aub (disc.) 13:30, 5 apr 2018 (CEST)
È qualcosa di cui abbiamo parlato lo scorso dicembre prima che scadessero i diritti di Luigi Barzini di cui avevamo già inserito per errore alcuni testi. Mi sembra di ricordare che sull'argomento ci siano discussioni su Commons (il che è più logico visto che i file vanno caricati lì) e che esistano, appunto, dei file "nascosti". Prova da loro, in genenre sono più addentro a leggi e regolamenti. --Silvio Gallio (disc.) 13:56, 5 apr 2018 (CEST)

A proposito delle date di edizione (recenti) per autori in pubblico dominio[modifica]

Buondì, so che sarà l'ennesima volta che viene fatta questa domanda ma ho incontrato dei testi di Flavia Steno (1877-1946) nel catalogo della biblioteca dove lavoro, di questa autrice online non si trova quasi nulla e vorrei proporli per la digitalizzazione... I libri sono però pubblicati da Cappelli tra il 1930 e il 1948, la casa editrice ha cambiato nome ma esiste ancora:

"Nel 1977 l'azienda cambiò nome in Nuova Cappelli, passando sotto la Gem (Gruppo Editoriale Milano) di Nicola Milano. Dal 2000 il marchio Cappelli appartiene al gruppo editoriale che fa capo alla casa Editrice La Scuola." Wiki

Ho visto che qui ci sono anche dei testi del 1960, del BEIC mi pare, qual'è però la regola/legge?

Thanks --divudi (disc.) 13:41, 5 apr 2018 (CEST)

Ciao! Io ho smesso di pensare. Però c'è un supporto. Scarica la 'rogna' su Commons. Se a loro va bene (visto che sono specialisti a pelare l'uovo nel cerco) non vedo perché non dovremmo preoccuparci oltre-modo. Io, peraltro, evito accuratamente questi problemi. (lo so sono pigro e maldisposto). Allelujah Silvio Gallio (disc.) 21:29, 5 apr 2018 (CEST)
La regola generale in Italia è: il diritto d'autore cessa dal 1° gennaio successivo alla scadenza dei 70 anni dalla morte dell'autore (o dalla pubblicazione se l'autore è anonimo). Ergo, se l'autore è morto nel 1946 i testi sono nel pubblico dominio dall'1/1/2017. Ci sono poi varie eccezioni alla regola, ma comunque il fatto che la casa editrice esista ancora, con lo stesso nome o un altro, è ininfluente. Nel caso di ristampe recenti (meno di 70 anni) di testi in pubblico dominio, il puro testo rimane libero da diritti, ma non l'apparato grafico ed eventuali note, prefazione ecc. che non fossero già parte del testo originale. Per cui in genere laddove abbiamo utilizzato come fonte una edizione recente, abbiamo preso il solo testo e non le scansioni. Can da Lua (disc.) 15:29, 6 apr 2018 (CEST)
Thanks @Candalua, quindi anche per tutte le ristampe fino al '46 (di autori in pd) in linea di massima siamo apposto... purchè prive di apparato critico di un autore non in pd, immagino. --divudi (disc.) 09:46, 7 apr 2018 (CEST)
Per quel che ricordo le edizioni di testi di pubblico dominio diventano anche loro di pubblico dominio dopo 20 anni. --Luigi62 (disc.) 12:31, 7 apr 2018 (CEST)

Test pdf2djvu[modifica]

Ho trasformato direttamente in djvu alcuni pdf BEIC (che hanno lo strato testo) e ne ho creato l'indice. Vi prego di aprire qualche pagina e di verificare i pro e i contro.

  • pro: la conversione è rapida e diretta e può essere lanciata da un file bat, lasciando poi che il pc lavori in sottofondo.
  • contro: temo che l'estrazione del testo (o la qualità del testo) non sia ottimale; la cosa che mi colpisce è l'assenza di lettere accentate; si può parzialmente rimediare con memoRegex, ma solo per le parole più comuni, e nemmeno per tutte.

I file che ho "trattato":

Attendo la vostra opinione.... se lo strato testo è realmente improponibile li ripasserò in FineReader. --Alex brollo (disc.) 17:44, 5 apr 2018 (CEST)

Date occhiate random. Il primo è piuttosto terribile, il secondo buono, il terzo ottimo. Per la proprietà trasitiva dal quarto in poi sarà sufficiente cliccare sui SAL rossi e verdi :D Silvio Gallio (disc.) 18:51, 5 apr 2018 (CEST)
Grazie Silvio! :-) Aggiunto opportuno commento al primo nell'utilissimo campo Note della pagina Indice. --Alex brollo (disc.) 19:27, 5 apr 2018 (CEST)
Strato testo di Vico rimpiazzato con l'OCR di Internet Archive. Tutt'altra cosa. Sperimenterò la conversione pdf->djvu con psd2djvu delle sole immagini, inserendo il testo dall'OCR di IA. I caricamenti su IA dei testi BEIC sono eccellenti, e IA non scarta alcuna pagina (questi scarti sono una delle cause dei fallimenti di IA Upload). --Alex brollo (disc.) 19:59, 5 apr 2018 (CEST)
Adesso Vico è tutt'altra cosa. Ottimo lavoro. al solito! Silvio Gallio (disc.) 20:49, 5 apr 2018 (CEST)

Vedete anche voi questo errore?[modifica]

qui

<!DOCTYPE html> <html lang=en> <meta charset=utf-8> <title>Wikimedia Error</title> <style> { margin: 0; padding: 0; } body { background: #fff; font: 15px/1.6 sans-serif; color: #333; } .content { margin: 7% auto 0; padding: 2em 1em 1em; max-width: 640px; } .footer { clear: both; margin-top: 14%; border-top: 1px solid #e5e5e5; background: #f9f9f9; padding: 2em 0; font-size: 0.8em; text-align: center; } img { float: left; margin: 0 2em 2em 0; } a img { border: 0; } h1 { margin-top: 1em; font-size: 1.2em; } .content-text { overflow: hidden; overflow-wrap: break-word; word-wrap: break-word; -webkit-hyphens: auto; -moz-hyphens: auto; -ms-hyphens: auto; hyphens: auto; } p { margin: 0.7em 0 1em 0; } a { color: #0645AD; text-decoration: none; } a:hover { text-decoration: underline; } code { font-family: sans-serif; } .text-muted { color: #777; } </style> <a href="https://www.wikimedia.org"><img src="https://www.wikimedia.org/static/images/wmf-logo.png" srcset="https://www.wikimedia.org/static/images/wmf-logo-2x.png 2x" alt="Wikimedia" width="135" height="101"> </a> Error Our servers are currently under maintenance or experiencing a technical problem. Please <a href="" title="Reload this page" onclick="window.location.reload(false); return false">try again</a> in a few minutes. See the error message at the bottom of this page for more information. If you report this error to the Wikimedia System Administrators, please include the details below. Request from 93.44.184.3 via cp1068 cp1068, Varnish XID 250288884 Error: 404, Not Found at Thu, 05 Apr 2018 19:06:30 GMT </html>

--divudi (disc.) 21:16, 5 apr 2018 (CEST)

Si. È contagioso? ) Silvio Gallio (disc.) 21:25, 5 apr 2018 (CEST)
Dov'è la novità? Hanno caricato una nuova versione di mediawiki; tutto qui. :-( Alex brollo (disc.) 21:54, 5 apr 2018 (CEST)
Lol. Uff, interferisce con le regex... Poi si assesta? --divudi (disc.) 21:58, 5 apr 2018 (CEST)

Possibile sia legato al salvataggio contributori? --divudi (disc.) 01:01, 6 apr 2018 (CEST)

Boh, ogni volta qualcosa. Da qualche giorno, con FF, in NS Indice non vedo l'immagine ma solo il testo. Mentre con Crome tutto funziona. Entrambi non mi fanno aprire i file Djvu dell'Emeroteca Braidense (problemi col chip a 64 bit) però I.E. mi permette di farlo. Sta a vedere che devo tornare sulla tanto maltrattata strada... Silvio Gallio (disc.) 08:28, 6 apr 2018 (CEST)
Proporrei di aspettare un po' con pazienza. Sono mesi che MediaWiki ci annuncia un grosso cambiamento nel software di base, con inviti a rivedere gadgets e template, per possibili problemi; @Candalua che ne ha parlato; temo che sia arrivato il dunque, speriamo bene. Io posso contribuire poco a questo problema, che trovo molto complesso; in più vorrei "battere il ferro finchè è caldo" sulla questione djvu, approfittando della richiesta di aiuto da parte di Valeria riguardo alla conversione djvu della larga collezione Wikisource:Scrittori d'Italia. Al momento la mia personale CPU è satura.... --Alex brollo (disc.) 08:40, 6 apr 2018 (CEST)

Suppongo che si tratti del "salvataggio contributori", cosa di cui non ho ancora capito né il funzionamento (non lo trovo tra i gadget) né la necessità (c'è già la cronologia). Se non è strettamente indispensabile, propongo di rinunciarvi. (E sarebbe anche il caso di sfoltire la lista dei gadget, togliendo le varie cose "sperimentali" che non hanno dato frutti) Can da Lua (disc.) 09:50, 6 apr 2018 (CEST)

Se ben ricordo il 'salvataggio contributori' è nato per pestare i calli a quelli che scaricano i testi da qui e li rivendono online senza adeguarsi alla licenza (che ne chiede espressamente la citazione). Se ci sono altri metodi per mettere un po' di bastoni fra le ruote dei ... vampiri, ben vengano. Silvio Gallio (disc.) 11:20, 6 apr 2018 (CEST)
Finché la lista dei contributori viene scritta nella pagina di discussione, che difficilmente i vampiri hanno interesse a control-ci-control-vi-are, non mi pare un grande impedimento. Mi pare di capire che lo script sia questo: Utente:Alex brollo/salatore.js. In tal caso, vi ricordo che gli script ospitati nelle proprie o altrui pagine utenti NON andrebbero mai condivisi, se non per brevi periodi di sperimentazione e SOLO con utenti che siano ben consci che si stanno tirando in casa possibili problemi, e che sappiano COSA fa lo script e COME disattivarselo al primo segno di malfunzionamenti. Detto questo, il problema è semplicissimo: lo script carica il testo della pagina per poi modificarla, ma a volte il caricamento può fallire (ad esempio perché c'è molta gente collegata ed il server ha un mancamento temporaneo), e quello è il testo della pagina di "caricamento fallito". Va quindi ripristinata la versione precedente della pagina dalla cronologia. Can da Lua (disc.) 12:28, 6 apr 2018 (CEST)
Non so 'esattamente' cosa combini il salatore. Di certo una cosa ottima la fa: a click di richiesta ti fa vedere nel sommario quali pagine il SAL ti permette di lavorare dal 75 al 100%. Questo ti consente di andare a colpo sicuro quando non sai esattamente quali pagine puoi lavorare e saresti costretto a entrare e uscire per controllare la cronologia. A questo (IMHO fondamentale) compito, mi pare che Alex abbia aggiunto una estrazione di utenti. Sempre imho questo script o qualunque cosa sia andrebbe confezionato e raccordato per bene -con o senza 'estrattore di utenti'- al SW di base e installato di default per Source ma sappiamo bene che ben altri sono i punti ricercati dal piano superiore. Silvio Gallio (disc.) 12:53, 6 apr 2018 (CEST)
Non trovate il "salvataggio contributori" come gadget autonomo perchè il suo codice è integrato in quello del "salatore", che evidenzia le pagine SAL 75% che l'utente può portare a SAL 100% ed è stato considerato utile. Poichè il "salatore" recupera ed analizza l'intero contenbuto della versione corrente di tutte le pagine, è stato facile aggiungere un "accumulatore di contributori" limitatamente a quelli autori dell'ultima variazione di SAL e a quelli che hanno effettuato l'ultima modifica. L'elenco non comprende l'intera cronologia, ma esclusivamente l'elenco di questi due tipi di contributori; qualcuno l'ha trovato utile. Si può disattivare in un lampo. Alex brollo (disc.) 15:34, 6 apr 2018 (CEST)
PS: siccome il "salatore" si vede passare sotto il naso il codice wiki di tutte le pagine, potrebbe essere estratta, in questa "ripassata", qualsiasi altra cosa vi sia contenuta purchè riconoscibile in qualche modo che sia comprensibile a javascript. Qualsiasi cosa, senza il minimo aggravio della "fatica server" ma solo un po' di lavorio dentro il browser del vostro pc. A me è venuto di estrarre i contributori, ma volendo.... --Alex brollo (disc.) 17:38, 6 apr 2018 (CEST)
Hola todos, appena caricato un nuovo testo, NON ho cliccato il salatore ma l'errore appare cmq dopo aver pigiato salva regex dalla bottoniera... mmh. Scrivo le regex nella pagina discussione ma non me le vede quando torno a richiamarle, addirittura dice che la pagina discussione non esiste! La cosa strana però è che su altri testi dove appare questo errore le regex funzano, ora lo cerco, mi pare fosse un testo dove stava lavorando @Luigi62 --divudi (disc.) 17:28, 8 apr 2018 (CEST)
L'indice che ho caricato nuovo è Scarica in formato ePub Indice:Vivanti - I divoratori, Firenze, Bemporad, 1922.djvu mentre il testo dove le regex funzano anche con l'errore è Scarica in formato ePub Crystal Clear app kdict.png  Piccoli eroi 75%.svg  di Virginia Tedeschi Treves (1892), vorrei capire perchè su uno si e sull'altro no, ho tutti sti caxxo di spazi prima del trattino da cancellare, se li faccio a mano muoio. --divudi (disc.) 17:32, 8 apr 2018 (CEST)
@Divudi85 La regex che ho salvato per eliminare gli spazi iniziali mi funziona regolarmente, l'unico limite che se non si uniscono le righe bisogna premere PostOCR più volte. --Luigi62 (disc.) 17:41, 8 apr 2018 (CEST)
ho cancellato tutto e copincollato la tua e funza! (chissà perchè la mia no? scritta così "^ —":["spazio prima del trattino","—","gm"] su Scarica in formato ePub Crystal Clear app kdict.png  Marocco 75%.svg  di Edmondo De Amicis (1877), funzionava!) Boh, misteri di Giacobbo --divudi (disc.) 18:04, 8 apr 2018 (CEST)

Tabelle ruotate[modifica]

Come questa Pagina:Rivista italiana di numismatica 1895.djvu/31 e la pagina successiva. Magari ne abbiamo parlato un centinaio di volte, ma l'arteriosclerosi ...

Qualche dritta?

--Carlo M. (disc.) 18:50, 7 apr 2018 (CEST)

Alcune tabelle su dei testi "ferroviari" le abbiamo ruotate e trascritte ma finisce sempre che non hai spazio in larghezza... --divudi (disc.) 19:37, 7 apr 2018 (CEST)
In queste forse si può fare, non hanno molte colonne. @Carlomorino dai un'occhiata. Alex brollo (disc.) 20:31, 7 apr 2018 (CEST)
vado subito a provare. Finisco domani sera. Grazie. --Carlo M. (disc.) 21:41, 7 apr 2018 (CEST)
e fori una. --Carlo M. (disc.) 23:54, 7 apr 2018 (CEST)

Problema FineReader[modifica]

FineReader è "troppo bravo". Non solo interpreta le parole; prima di farlo esegue una "analisi del layout pagina" e divide lail testo in colonne, regioni e paragrafi, e spesso riconosce pure la struttura tabelle.

Problema: talora sbaglia nell'analisi e ne viene fuori il pasticcio che forse avrete già incontrato e che potete vedere aprendo in visualizzatore Indice:Metastasio, Pietro – Opere, Vol. I, 1912 – BEIC 1883676.djvu, a partire dalla pagina 100. Le prime 100 pagine sono state manipolare interattivamente su FineReader, cosa, oltre che noiosa, impossibile se l'OCR viene dal FineReader di IA, su cui non abbiamo controllo.

Intravedo una soluzione che passa dall'analisi delle coordinate delle parole, farò degli esperimenti per vedere se quello che ho pensato funziona nella realtà. --Alex brollo (disc.) 22:12, 7 apr 2018 (CEST)

La soluzione - in embrione - c'è: la funzione reorder() in Utente:Alex brollo/xml2text.js. Spappola completamente l'xml della pagina, e riordina le parole in linee, dovunque FineReader le abbia sparpagliate. Esperimenti in corso su Indice:Metastasio, Pietro – Opere, Vol. I, 1912 – BEIC 1883676.djvu, pagine dalla 157 in poi, il cui testo era devastato dall'errore FineReader. Fra l'altro sarà una prima prova provata che le coordinate delle parole servono, anche se pochi sono così pazzi da provare a utilizzarle... ma spero che di prove ne seguiranno molte altre. Il ghiaccio è rotto. --Alex brollo (disc.) 17:34, 8 apr 2018 (CEST)
Ahh, ho capito solo ora che accadeva, finereader te li metteva come tabella ma qui su ws ti metteva in testa la "prima colonna" coi nomi e a seguire il resto del testo. Right? Cacchio a volte me lo fa anche a me, ricontrollo sempre ogni pagina (ma che menata). Su un testo mi prendeva interi paragrafi come immagini e quindi non passavano nello strato testo del djvu... infamissmo, quasi non me ne accorgevo... --divudi (disc.) 18:11, 8 apr 2018 (CEST)
Quasi esatto; in realtà FineReader le vede come "colonne di testo", non proprio come tabelle; purtroppo nel restituire il testo procede per colonne. L'accrocchio funziona; naturalmente bisogna chiamare il "riordinatore", il che si fa scrivendo la parola "reorder"a inizio pagina prima di cliccare Alt+7. Ovvio che la pagina deve contenere l'xml. Ce ne vorrà prima di renderlo un meccanismo "normale". Ma mai non si prova... Alex brollo (disc.) 21:09, 8 apr 2018 (CEST)
Naturalmente FineReader sbaglia talora anche nel senso opposto, e unisce per righe testi che dovrebbero stare separati in colonne. Anche in questo caso chi ha FineReader, quando se ne accorge, può intervenire per forzare la definizione delle aree, ma chi ha solo l'OCR prodotto da FineReader.... deve solo risistemare con molta pazienza. Oppure si può aprire il file djvu, e selezionare e copiare i rettangoli di testo... L'avete mai fatto? Piccola magia del morente formato djvu. Emulabile qui, sull'immagine della pagina, se si dispone di tutti gli inutili dati delle coordinate della parole. Sarebbe meglio che i "piani alti" pensassero di più a queste cose, e di meno alla grafica (vedi "uova di pasqua" dei pulsanti per il SAL). Alex brollo (disc.) 07:35, 9 apr 2018 (CEST)

book2scroll[modifica]

È dall'ultimo aggiornamento del software che book2scroll non mi funziona più, qualcuno sa dirmi se c'è soluzione? --Luigi62 (disc.) 18:43, 8 apr 2018 (CEST)

Vedremo; ma cosa aggiunge book2scroll al nostro Visualizzatore? --Alex brollo (disc.) 19:53, 9 apr 2018 (CEST)
Si vede l'immagine a fronte e permette di vedere velocemente errori di formattazione e a capo errati. --Luigi62 (disc.) 23:19, 10 apr 2018 (CEST)

domanda da un nuovo utente... Sherlock Holmes e altri[modifica]

Salve a tutti. Vorrei chiedere qualcosa per evitare di fare errori. Lavoro per un editore di Lucca (rectius, associazione culturale, ma comunque editore, con proprio ISBN e ISSN) e con loro stiamo realizzando una ripresa e valorizzazione del giallo d'autore.

Ci siamo accorti che il giallo qua su wikisource compare poco, principalmente credo in quanto relativamente nuovo e quindi con poche traduzioni in pubblico dominio. Noi rilasciamo tutte le traduzioni sotto creative commons e alcune anche in BY-SA o BY. Detto questo, possiamo pubblicarle, visto che sono edite anche in formato cartaceo (sempre con ISBN e/o ISSN) dato che siamo noi gli autori oppure no? Come funziona la cosa?

Inoltre, ovviamente possiamo scansionare il testo ma ci sembra un passaggio decisamente ridondante dato che come editori abbiamo i testi originali in Latex, da dove è possibile estrarre il testo e incollarlo. C'è qualche procedura particolare in questi casi o bisogna sempre passare per la strada ordinaria?

Grazie mille e scusate il disturbo.

Andrew D.

Nessun disturbo!
Naturalmente possono essere pubblicate qui solo le traduzioni di autori in PD (Coyle lo è ovviamente), rilasciati in CC BY SA da tutti i traduttori. Se la stessa edizione (meglio cartacea) riporta esplicitamente la licenza CC BY o CC BY SA, spero che non ci siano problemi; meglio comunque seguire la procedura OTRS, su cui altri possono darti indicazioni (per me è un mistero burocratico). Stranamente, ci sono problemi tecnici nell'importazione di testi "nati digitali", wikisource è molto più adatta alla riproduzione di libri cartacei; ma in qualche modo si risolvono. C'è qualche libro online per dargli un'occhiata? --Alex brollo (disc.) 23:51, 8 apr 2018 (CEST)

Notifica a Phe riguardo l'ultima novità[modifica]

Ho avvisato Phe dei lavori in corso su Metastasio (la cosa si vede bene qui: Catone in Utica/Atto secondo). Già qualche anno fa con Phe avevamo discusso sull'utilizzazione del "testo mappato", in quel caso Phe aveva realizzato un tool in grado di fornire la rappresentazione hOCR della pagina, partendo dai file "dsed". Queata soluzione (che consiste nell'importazione dell'xml tal quale con elaborazione locale, invece di utilizzare un tool su Labs, con tutti i vantaggi/svantaggi conseguenti) penso sia una novità assoluta. --Alex brollo (disc.) 12:42, 9 apr 2018 (CEST)

Partito l'esperimento "usare il djvu in file pdf", in Indice:Metastasio, Pietro – Opere, Vol. II, 1913 – BEIC 1884499.pdf. Il pdf è tal quale il pdf BEIC, il testo è stato brutalmente caricato spezzettando il file _djvu.xml di Internet Archive. Lo sgtrato testo (orribile) del pdf originale viene completamewnte ignorato. Mi raccomando: se provate, ricordatevi di scrivere reorder a inizio pagina, immediatamente prima di <OBJECT, poi pigiate pure Alt+7 o il link a postOCR in sidebar in tutte le pagine contenenti testo teatrale in versi (ossia: quasi tutte). In quelle completamente in prosa pigiate pure direttamente postOCR. Per favore provate! --Alex brollo (disc.) 19:38, 9 apr 2018 (CEST)
Sulla pagina Pagina:Metastasio, Pietro – Opere, Vol. II, 1913 – BEIC 1884499.pdf/221 mette tutto come <poem>, è normale? --divudi (disc.) 12:26, 10 apr 2018 (CEST)
Sì, la parola magica reorder fa inserire anche un poem. In varie pagine bisogna spostarlo (immediatamente dopo il titolo scena e io personaggi), talora aggiungerne qualcuno (nelle pagine con fine scena/inizio scena), ma sono cose che si fanno in un battibaleno. Naturalmente tutto funzia anche sotto eis. (grazie di aver provato divudi!) --Alex brollo (disc.) 13:14, 10 apr 2018 (CEST)
Lanciata notifica dei lavori in wikisource-l; se son rose (e se schivo il ricovero in manicomio o_O) fioriranno. Intanto continuo a navigare nel magico mare di Metastasio. --Alex brollo (disc.) 11:40, 11 apr 2018 (CEST)
Nessuna risposta, nessun commento.... per me stanno preparando la camicia di forza :-( --Alex brollo (disc.) 17:47, 15 apr 2018 (CEST)

Imagine...[modifica]

Non è un errore, ma una citazione dei Beatles.

Imagine una roba come il vecchio Ritaglio, che permetta di selezionare dall'immagin e della pagina un rettangolo. E poi di definire con un click l'area come "Poesia", e che in risposta vi venga restituito il testo OCR formattato completamente come poesia: tutto, poem, suddivisione in strofe, indentature dei versi, numerazione dei versi.

Adesso si può fare; basta lavorarci un po'. :-) --Alex brollo (disc.) 07:26, 12 apr 2018 (CEST)

meeegiic --divudi (disc.) 10:33, 12 apr 2018 (CEST)
"I dati son, ma chi pon mano ad essi?" Noi itwikisourciani! :-) --Alex brollo (disc.) 11:12, 12 apr 2018 (CEST)

Tech News: 2018-15[modifica]

20:09, 9 apr 2018 (CEST)

Testo in greco. Pagine che si bloccano[modifica]

Ho qualche difficoltà con delle pagine del testo „Ortiz - Per la storia della cultura italiana in Rumania.“, primo problema: se guarda l'indice vedrà che ci sono delle pagine al 25%, appena provo ad usare gli strumenti di rilettura si blocca la pagina; secondo problema : ci sono tanti testi in greco, ho provato a trascrivere ma alcune volte non conoscendolo ho qualche difficoltà a capire le lettere quindi dove trovo testi in greco li taglio e li metto come se fossero immagini dal testo originale. Mi può aiutare? @Alex brollo . AndreeaCostin (disc.) 09:57, 10 apr 2018 (CEST)

@AndreeaCostin Volentieri! Basta che mi dai del tu!
Pagine che si bloccano: purtroppo è un problema noto che non sono ancora riuscito a risolvere. Ci sono alcuni caratteri erronei nell'OCR che creano dei loop in postOCR: < > { } [ ]. La soluzione (non ottimale) è quella di ricercarli e eliminarli prima di lanciare postOCR. Esiste uno script "preOCR" che li elimina, ma è pericolosissimo, perchè lanciato su pagine già formattate causa un vero disastro.
testo in greco: no, la soluzione di inserirle come immagine non va bene. Va invece inserito il template {{Greco da controllare}}, la pagina viene categorizzata e i nostri "grecisti" prima o poi se ne occupano; poer urgenze si può segnalare le pagine cion un messaggio a @OrbiliusMagister. --Alex brollo (disc.) 10:20, 10 apr 2018 (CEST)
@Alex brollo ahaha va bene , grazie mille ! Un'altra cosa :) , come faccio ad inserire i testi delle poesie in due colonne separate una di fianco all’altra, come ad esempio in questo pagina https://it.wikisource.org/wiki/Pagina:Ortiz_-_Per_la_storia_della_cultura_italiana_in_Rumania.djvu/239 ? Ho cercato esempi ma non sono riuscita a trovare nulla. AndreeaCostin (disc.) 11:27, 10 apr 2018 (CEST)
prova con templare Colonna e AltraColonna (ma in Ns0 viene visualizzata in successione) oppure puoi inserire il testo in una semplice tabella.--stefano mariucci (disc.) 12:10, 10 apr 2018 (CEST)
confermo, ✔ Fatto (ma ho usato table e td perchè non mi funziava il markup tabella, e non ho avuto il tempo di indagare.... mi sono spicciato...) Alex brollo (disc.) 12:13, 10 apr 2018 (CEST)

Defunto anche CropTool[modifica]

Oltre a book2scroll (opzionale, come tool), sembra defunto anche CropTool (e questo è un grosso guaio....) :-(

A voi funzia? --Alex brollo (disc.) 15:09, 10 apr 2018 (CEST)

ho provato da mobile e tutto funziona regolarmente. --stefano mariucci (disc.) 16:32, 10 apr 2018 (CEST)
Grazie riproverò, forse sono incappato in un problema occasionale. --Alex brollo (disc.) 08:24, 11 apr 2018 (CEST)
@Stefano mariucci Confermo, falso allarme, scusate. Alex brollo (disc.) 11:03, 11 apr 2018 (CEST)

Un momento di attenzione, bitte.[modifica]

Salve, sono stato assente per un paio di giorni ma ho lavorato (anche) per la causa. Ieri pomeriggio, a Milano, ho avuto una simpatica chiacchierata con Marco Chemello e Marta Arosio di Wikimedia Italia cui avevo fatto presente i problemi che stanno arrivando da IA e del rantolante formato Djvu. Tempo fa, in questo bar, eravamo partiti da una semi-proposta di chiedere a WM se potevano acquistare un paio di licenze di FineReader da consegnare a due utenti particolarmente bravi ed assidui (chiariamo: io non lo sono, non sto parlando pro domo mea) allo scopo si fornire un OCR di buona qualità ad altri utenti che si trovassero nella necessità di crearlo (o perfezionarlo) e che non abbiano il programma installato). A fronte di questa proposta è stato richiesto una impegno della nostra comunità a confrontarci, "scegliere" gli utenti ritenuti adatti, e mandare il tutto allo scopo di far decidere al Direttivo se sia possibile o meno finanziarre il "progetto". Fin qui tutto facile, credo. A parte il reperimento degli schiavetti, dovrebbe non essere difficoltoso reperire una somma in fin dei conti modesta (per le "loro" tasche). Ci sono speranze di un finale positivo.

Sono però sorte piccole difficoltà quando siamo passati ad esaminare l'intero problema. È chiaro che it.Source non è figlia di un dio minore. Lo è -si direbbe- tutta la source mondiale. Tutti i difetti che stiamo riscontrando sono appiccicati a tutte le source(s). quindi la mega richiesta di intervento -in atto su Meta- dovrebbe far muovere i "piani davvero alti" alla ricerca di una soluzione globale. Temo, purtroppo che i risultati saranno lenti e non è nememnoc certo che arrivino.

Ciò premesso, a quanto ho capito (se sbaglio corrigetemi), anche FineReader si è messo a fare i capricci almeno per quanto riguarda il formato Djvu. Se ciò corrisponde a realtà, sia l'opzione "piani davvero alti" sia la "OCR fatto in casa con FineReader" richiedono un raccogliemnto della tribu attorno al fuoco per esaminare al meglio il problema e vedere cosa sia possibile fare almeno in attesa che all'Alto arrivi qualche segno di ravvedimento.

Dopo il pistolotto passo a chiedere a "color che sanno":

  1. Dobbiamo/è possibile continuare con Djvu oppure
  2. decidere e far decidere quale altro formato sia utilizzabile in modo che quello che è stato finora fatto non vada disperso.

Nel primo caso,

  1. Fine Reader, in rapporto a Djvu, è affidabile? (Inutile spendere solti per un SW che deve poi essere buttato)
  2. Esiste -eventualmente- un SW altrettanto valido (e magari free)? Se si, quale?

Nel secondo caso

  1. come sarà possibile muoversi? (Leggo cose strabilinati da Alexbrollo, che "valore" hanno? Chiarisco: saranno certo meraviglie ma poi se la burocrazia superiore non si schioda...)
  2. Eventuali raccordi con Commons e altri progetti che interagiscono (Wikidata, ad esempio soffre, per gli stessi problemi)
  3. Varie ed eventuali

So per certo di essere stato contestualmente prolisso e carente nell'esposizione. Perdono. Ma era per iniziare una discussione che - ritengo- dovrebbe essere partecitativa al massimo per cercare di chiarire problemi, possibili soluzioni, richieste, e "forza contrattuale". OK tribu siamo attorno al fuoco... :) Silvio Gallio (disc.) 14:32, 11 apr 2018 (CEST)

Rispondo con ordine,
Primo caso.
1) FineReader 11 (penultimo rilascio del software) certamente sì. Finereader 12 (ultimo rilascio) sulla carta sì, ma non l'ho provato. Le ultime versioni dei grossi "motori" FineReader, come FineReader 14, non lo supportano più, ho scritto ad ABBYY chiedendo specifiche sulla loro "politica" ma non ho ancora avuto risposta.
2) Che io sappia, nessun altro software OCR esporta direttamente in djvu. E comunque noi non abbiamo bisogno di un software OCR qualsiasi, ma del migliore software OCR esistente. Con un OCR scadente i tempi di rilettura raddoppiano-triplicano.
Secondo caso.
1) I test recentissimi (ultimi 3 giorni dall'ideazione alla realizzazione: era facile, bastava avere il coraggio di provare) dimostrano che non abbiamo bisogno di file djvu ma dello strato testo mappato facilmente estraibile dal djvu ma ricavabile anche da qualsiasi altra buona rappresentazione del testo mappato (xml di DjvuToy, formato dsedlisp-like, hOCR, e anche dallo spaventoso xml che IA pubblica come _abbyy.gz).
2) Ho individuato un grosso problema: i migliori sviluppatori mediawiki non conoscono wikisource, e i migliori esperti di wikisource non sono programmatori ad altissimo livello. Bisognerebbe prendere alcuni degli sviluppatori migliore e chiuderli in una cella in isolamento fintanto che non hanno prodotto un paio di migliaia di buone pagine proofread. Senza eis, ovviamente, eis avrebbero dovuto da tempo immaginarlo e realizzarlo loro. Si può fare? :-) --Alex brollo (disc.) 14:52, 11 apr 2018 (CEST)
Per chiarire di cosa stiamo parlando con riferimento al "testo mappato", ho aperto la pagina Progetto:Trascrizioni/Testo "mappato" in cui infilo alcune riflessioni e - pian piano - arriveremo anche alla nuova trovata ... Alex brollo (disc.) 18:50, 11 apr 2018 (CEST)
A me interessa sapere se oggi possiamo fare il M&S anche con altri formati. Xavier121 19:08, 11 apr 2018 (CEST)
Chiariamo la domanda. Il Match richiede obbligatoriamente, al momento, un djvu con strato testo. Lo split è totalmente indipendente, purchè si aggiungano - con qualsiasi trucco - i "codici split" ossia: il codice del formato:
==[[Pagina:... nome pagina....]]==
Se il testo da "splittare" contiene una qiualsiasi indicazione dei fine pagina e del numero pagina, il codice split si può ottenere in qualche modo "automatico"; se non ce l'ha, bisogna aggiungerlo. Alex brollo (disc.) 19:51, 11 apr 2018 (CEST)
@Alex brollo: cosa vuol dire "Le ultime versioni dei grossi "motori" FineReader, come FineReader 14, non lo supportano più".
Nelle specifiche tecniche di FineReader 14 trovo scritto: "FORMATI DI SALVATAGGIO DOCUMENTI: Formati immagine: TIFF, JPEG, JPEG 2000, JBIG2, PNG, BMP, PCX, DjVu".
Quindi non capisco: il DjVu è supportato o no da FineReader14 ? --Accurimbono (disc) 09:53, 13 apr 2018 (CEST)
Nella ver 12 non te lo da& come formato default, te lo devi andare a cercare "in altri formati"... magari piano piano vogliono farlo passare in secondo piano... --divudi (disc.) 10:49, 13 apr 2018 (CEST)
@Accurimbono, Divudi85 Sono desolato, non so che pagina avevo consultato e non l'avevo trovato. Scusatemi del falso allarme. Alex brollo (disc.) 11:35, 13 apr 2018 (CEST)
Ci mancherebbe Alex, era solo per chiarirmi le idee, perché avevo una mezza intenzione di comprarmelo, ma ultimamenti ho problemi di connessione e avevo rimandato l'acquisto a tempi migliori. --Accurimbono (disc) 16:51, 13 apr 2018 (CEST)
Infatti, Alex, a me interessa estendere il Match, altrimenti un lavoro come quello su Scrittori d'Italia neanche partirebbe! Xavier121 17:17, 13 apr 2018 (CEST)
@Xavier121 In che senso? Hai dato un occhio alle novità in Metastasio? Non c'è match, non c'è split, non c'è più nemmeno il djvu, lo strato testo del file pdf viene totalmente ignorato... ma c'è il magnifico strato testo xml del djvu (che è quello che ci serve). Alex brollo (disc.) 17:14, 14 apr 2018 (CEST)

──────────────────────────────────────────────────────────────────────────────────────────────────── @Xavier121 Confermo: lo split funziona anche su pagine pdf, il match non mi pare. Alex brollo (disc.) 12:39, 16 apr 2018 (CEST)

Help matematico-statistico[modifica]

Qualcuno mi può aiutare nel campo del w:clustering partizionale (ed eventualmente gerarchico) senza che gli venga un coccolone? --Alex brollo (disc.) 11:54, 12 apr 2018 (CEST)

Forse non serve; poichè quello che mi interessa è riconoscere e aggregare parti di testo con caratteristiche simili anche se non identiche, probabilmente basta individuare "quanta" differenza dà, all'occhio umano, una sensazione chiara e definita ma non tanto forte da essere sgradevole. Quella "quantità di differenza" è stata studiata e codificata dai compositori delle pagine nel corse dei secoli.
Una indentazione di paragrafo di 2-3 pixel sarebbe confusa e difficile da vedere; una indentazione di parecchi em sarebbe sgradevole. --Alex brollo (disc.) 15:43, 13 apr 2018 (CEST)

Testi con molti autori[modifica]

Hola, capita abbastanza spesso di trovare appendici scritte da autori diversi dal principale, ho sempre il dubbio sul come comportarmi al momento della creazione dell'indice e poi delle sottopagine. Mi è capitato recentemente con Il Baretti e ora con questa strenna curata da B. E. Maineri. Sarebbe meglio dare alla sottopagina un nome tipo titolodelsaggio (autore)? meglio specificarlo soltanto dentro la pagina con un AutoreCitato, o altro? --divudi (disc.) 11:01, 13 apr 2018 (CEST)

In ciascuna sottopagina si può forzare, dentro il template {{IncludiIntestazione}}, un autore (o una piccola lista di autori, max 5) diverso da quello della pagina principale, con il parametro opzionale autore=. --Alex brollo (disc.) 11:40, 13 apr 2018 (CEST)
Perfect, tipo così giusto? (avevo in parte dedotto da questa modifica di candalua). nell'indice posso mettere * Titolo di taldeitali? --divudi (disc.) 12:10, 13 apr 2018 (CEST)
In campo titolo di {{Indice sommario}} puoi mettere quello che vuoi.... template e markup speciale esclusi. --Alex brollo (disc.) 15:45, 13 apr 2018 (CEST)
Mi direste se è eccessivo/inutile/dannoso quel che ho fatto su questo indice e qui? --divudi (disc.) 13:16, 15 apr 2018 (CEST)
Io avrei usato serenamente Autore:Autori vari e non linko, all'interno del testo, nessuno degli autori; ma non credo che sia una regola, piuttosto una preferenza. Tenete conto che il dato "testo di autori vari" non è affatto privo di informazione utile (indica una raccolta di testi di vari autori); naturalmente serve poi che pezzo per pezzo l'intera raccolta sia collegato al suo specifico autore. --Alex brollo (disc.) 17:45, 15 apr 2018 (CEST)
Concordo che l'informazione testo-con-più-di-un-autore non è una informazione inutile, anzi! si potrebbe forse ottenere (boh) contando le slash dentro il campo autore? l'uso di autori vari però è urendo e deprecato da decenni (in campo biblitoecario) --divudi (disc.) 12:50, 16 apr 2018 (CEST)
@Divudi85 Urendo o no, come vengono indicate in campo bilbliotecario le antologie? Non dirmi che vengono indicate sempre con l'elenco completo degli autori perchè non ci credo. Nelle pubblicazioni scientifiche (per i singoli lavori, non certo per la rivista) in genere si menzionano alcuni autori, quelli iniziali che in genere sono i "principali", con l'aggiunta di et al, nelle citazioni di antologie non ho idea. --Alex brollo (disc.) 13:27, 16 apr 2018 (CEST)
@Alex brollo la scheda di un testo con più di tre autori si intesta al titolo --divudi (disc.) 14:08, 16 apr 2018 (CEST)
@Divudi85 Ossia: l'informazione "quest'opera ha più di tre autori" ossia: "opera di autori vari" è rappresentata, nell'intestazione della scheda, nella semplice assenza di menzione degli autori, se non ho capito male. E' così? --Alex brollo (disc.) 07:36, 18 apr 2018 (CEST)
Si, anche se dipende sempre da chi ha catalogato e da quando lo ha fatto, le regole nuove non vengono applicate retroattivamente quindi gli opac sono un casino.
L'espressione AA.VV., che sta per "autori vari", un tempo molto diffusa, oggi non deve più essere utilizzata. Tutti i cataloghi e le bibliografie che si attengono agli standard internazionali, infatti, elencano le opere di più autori (che sono molto numerose) sotto il cognome del primo autore, oppure, in particolare se gli autori sono più di tre, sotto il titolo: quindi l'espressione AA.VV. non è di alcun aiuto nel trovare il documento che si sta cercando! Le citazioni bibliografiche di Claudio Gnoli - AIB
--divudi (disc.) 14:04, 18 apr 2018 (CEST)
p.s. le antologie, altro caso di molteplici autori, hanno spesso un curatore, si può intestare a lui... --divudi (disc.) 14:07, 18 apr 2018 (CEST)
Tanto per andare più a fondo nel rapporti fra metadati bibliografici (Aubrey ha sempre sostenuto che è una cosa terribilmente intricata... ha ragione...) ci sono due casi ben distinti: quello in cui un'opera è stata scritta a più mani (es. pubblicazioni scientifiche, forse anche saggi) e quello invece in cui un'edizione raccoglie opere o frammenti di opere di più autori, ciascuna di un autore solo . --Alex brollo (disc.) 16:07, 19 apr 2018 (CEST)

Contorni area di edit[modifica]

Ciao a tutti, mi capita da un paio di giorni di non avere più i contorni delle aree di edit, footer, header. Le aree ci sono e tuto funziona ma mancano le linee di contorno e tutto e fuso in uno sfondo bianco. Immaginate una videata bianca con solamente le scritte: Intestazione (non inclusa):, Corpo della pagina (da includere):, Piè di pagina (non incluso) ed una barra di scorrimento al centro fra l'area di edit e quella dell'immagine proofread. --stefano mariucci (disc.) 11:17, 15 apr 2018 (CEST)

Succede anche a me. Temo sia un problemino di qualche gadget costruito "in casa"... perché avevo installato la bottoniera e Alex mi ha caricato la sua (credo) dopodiché, appunto, sono scomparsi i contorni. Ma non sembra gravissimo una volta abituati; solo scomodo. --Silvio Gallio (disc.) 11:25, 15 apr 2018 (CEST) M forse è solo il nuovo SW, bah --Silvio Gallio (disc.) 11:33, 15 apr 2018 (CEST)
Ciao @Silvio Gallio grazie del riscontro. Io ho windows 10 e non ho modificato alcunchè delle impostazioni. Solo che all'improvviso... Cmq hai ragione, è solo scomodo e tutto tornerà come prima e tutto questo resterà uno dei tanti misteri. ;) --stefano mariucci (disc.) 11:38, 15 apr 2018 (CEST)
Anch'io win10 ma non credo sia lì il problema. Forse sto dando ad Alex una "colpa" non sua ed è stata solo coincidenza. Vedremo. Al solito. --Silvio Gallio (disc.) 14:09, 15 apr 2018 (CEST)
Quando vi assalgono questi dubbi, guardate se la stessa cosa succede anche in un'altra wikisource qualsiasi. Se succede, i nostri gadget e le nostre stranezze (per quanto audaci) certamente non c'entrano; sono al lavoro i "piani alti". --Alex brollo (disc.) 14:20, 15 apr 2018 (CEST)

testo illeggibile[modifica]

Buondì! Ne Pagina:Il_Baretti_-_Anno_I,_n._1,_Torino,_1924.djvu/4 - prima colonna - nono capoverso - ultimo rigo: "al calco dell’ Ulisse", l'"Ulisse" è sbagliato, ma non è leggibile. Come lo segnalo? Stessa cosa nella quarta colonna - settimo rigo, dopo la parola "si può intendere in un ?" Grazie --Lisannaa (disc.) 09:20, 16 apr 2018 (CEST)

il primo non lo riesco a contestualizzare l'altro è in un senso più profondo P.S. linka sempre la pagina dove hai il problema così si fa più in fretta a confrontarsi --divudi (disc.) 09:55, 16 apr 2018 (CEST)
se fosse "al calco dell'Ilisso" (di Fidia)? Ilisso inteso come fiume Ilissos, mmh qui ci vuole qualcuno con una formazione classica...
West pediment A Parthenon BM.jpg
--divudi (disc.) 10:11, 16 apr 2018 (CEST)
Confermo Ilisso e senso,  :) --Xavier121 10:35, 16 apr 2018 (CEST)
Anch'io Ccnfermo Ilisso e senso. Da questa pagina risulta che calchi dei marmi di Elgin tra cui evidentemente l'Ilisso siano stati inviati a Roma, Firenze, Perugia e Carrara (oltre a Mosca e altre città degli USA), ma non Venezia. Presumo si tratti di un errore dell'autore dell'articolo. - εΔω 15:39, 16 apr 2018 (CEST)
Digressione tecnica (abbiate pazienza): il Baretti dimostra in maniera particolarmente chiara il problema della insufficiente risoluzione dell'immagine, dovuta a una serie di occasioni di degrado. Il primo degrado avviene con la scansione a risoluzione insufficientemente alta; il secondo con la trasformazione delle immagini originali in djvu (altra compressione più o meno spinta), il terzo, grave in Baretti, è la riduzione delle dimensioni dell'immagine a soli 1024 pixel di larghezza, più che sufficienti per un libro, ma assolutamente insufficenti per una rivista con testo in più colonne. Rimedio immediato: se non si dispone dell'originale, almeno, in caso di dubbio o difficoltà di lettura, consultare le immagini originali. Rimedio possibile ma ci si deve lavorare: se l'opera è caricata su IA, sostituire al volo l'immagine a fronte "automatica" con il migliore jpg disponibile su IA, si potrebbe fare ma... sarebbe un ulteriore gadget aggiunto ai troppi che abbiamo già. --Alex brollo (disc.) 22:22, 16 apr 2018 (CEST)
Visto e tentato di zoomare il pdf originale, vedo che nel Baretti già il primo degrado è tremendo.... soprattutto a causa della memorizzazione nel pdf usando, mi pare, una compressione jpg. Se già le immagini originali hanno seri problemi, c'è poco da fare (se non... ripetere la scansione con una risoluzione elevata e salvando in formati lossless, "senza perdite"). Alex brollo (disc.) 22:38, 16 apr 2018 (CEST)

Avviso: lavori in corso su xml2text.js[modifica]

Nei prossimi giorni prevedo di effettuare una revisione molto profonda dello script che traduce xml in testo (utilizzato sperimentalmente per Metastasio). Così com'è funziona molto bene, ma la struttura del codice non permette una comoda implementazione di ulteriori sviluoppi. Non meravigliatevi di mancati funzionamenti/malfunzionamenti (e grazie agli audaci che hanno provato....) --Alex brollo (disc.) 13:37, 16 apr 2018 (CEST)

Tradotto, significa che i signori con i pantaloni bianchi ti hanno trovato? :) --Silvio Gallio (disc.) 15:50, 16 apr 2018 (CEST)
Già; a naso (le mani non posso usarle per la tastera, con la camicia di forza) vado benino con i caratteri normali, ma con i caratteri che richiedono di pigiare contemporaneamente più tasti vado a rilento. --Alex brollo (disc.) 22:43, 16 apr 2018 (CEST)

Tech News: 2018-16[modifica]

17:20, 16 apr 2018 (CEST)

Aiuto link![modifica]

Salve, un amico di 'Pedia mi ha scritto :" Wikisource contiene una pagina dedicata a Silvio Gallio {{interprogetto|s=Autore:Luigi Barzini (1874-1947)}} Non so perchè nella talk mostra il tuo nick, ma se ci vai sopra ti manda alla pagina in wikisource di Barzini! Il responsabile indiretto è Template:Interprogetto, guardando il quale vedi che la causa prima è stata la rivoluzione di mettere wikidata al centro dello smistamento. nella voce su Barzini il link a wikisource lo trovi in Luigi_Barzini_(1874-1947)#Altri_progetti." Quello che si vede nella mia talk su 'Pedia è un po' diverso ma il succo è che il mio nome è linkato a Autore:Barzini. Ora non è che mi disperi di essere associato tanto in alto ma credo sia meglio che qualcuno di esperto sistemi il malippo. Io, ovviamente, non saprei nemmeno come e non è detto che non sia il diretto responsabile... Help! --Silvio Gallio (disc.) 19:00, 16 apr 2018 (CEST)

Dolente di deluderti, ma non vi è alcun legame tra questi due grandi personaggi. il template Interprogetto (quello di it.wiki, non il nostro) è fatto per essere usato solo dalla pagina che rappresenta il soggetto che si vuole linkare agli altri progetti. Quindi per default mostra il nome pagina come etichetta del link. Ergo se lo usi nella tua pagina ma lo fai puntare a Barzini, ti mostra Silvio Gallio; se lo usi su Wikisource:Vattelapesca ti mostra: "Wikisource ha una pagina dedicata a Vattelapesca". Se si vuole mostrare un'altra cosa, c'è il parametro etichetta. In ogni caso è un template di pedia, quindi noi non c'entriamo un bel nulla. Can da Lua (disc.) 19:29, 16 apr 2018 (CEST)
Nessuna delusione, anzi, anche Barzini come scrittore mi piace non poco ho alcune riserve sul colore. Passerò il problema a 'Pedia Grazie.--Silvio Gallio (disc.) 20:18, 16 apr 2018 (CEST)

Post-OCR[modifica]

Ho avuto problemi:

non ha cambiato l'apostrofo
non ha eliminato i ritorni a capo.

Lo so che è colpa mia, ma io ho almeno la scusa dell'età.

--Carlo M. (disc.) 14:33, 18 apr 2018 (CEST)

p.s.: Non ha eliminato le righe vuote in fondo alla pagina. --Carlo M.

Please link ad una pagina dove è avvenuto il fattaccio. --Alex brollo (disc.) 14:58, 18 apr 2018 (CEST)
Alex brollo, i miei ultimi tre contributi: Pagina:Rivista italiana di numismatica 1895.djvu/240 e successive (i parte corrette a mano). --Carlo M. (disc.) 15:36, 18 apr 2018 (CEST)
Visto, interessante, anche a me non corregge gli apostrofi. Mi pare di ricordare che si tratta di un meccanismo di sicurezza che evita il blocco pagina (non sempre ci riesce... ) nel caso che nel testo ci siano caratteri critici - in questo caso, potrebbero essere le parentesi quadre. Fortunatamente è un fenomeno raro. --Alex brollo (disc.) 15:48, 18 apr 2018 (CEST)
Alex brollo, a me sembra che faccia solo quello che è segnato nella regex del file e null'altro: niente spazio prima della virgola, no ritorni a capo. In genere se ha problemi gira per un po' e poi lo dice (apre una finestra e dice "brutto cazzone avariato"; ma io non me la piglio). Boh. --Carlo M. (disc.) 15:56, 18 apr 2018 (CEST)
vediamo se il problemuccio si risolve.... --Alex brollo (disc.) 17:16, 18 apr 2018 (CEST)

──────────────────────────────────────────────────────────────────────────────────────────────────── OK (grazie al risolvitore) La RIN ne sarà contenta. --Carlo M. (disc.) 20:48, 18 apr 2018 (CEST)

IA Upload funziona di nuovo[modifica]

Appena fatto la prova con questo mio upload di archive... [30] MILAGRO! --divudi (disc.) 15:01, 18 apr 2018 (CEST)

Benissimo. Ho visto che ci sono almeno due o tre motivi diversi per cui IA Upload si impalla. Probabilmente li stanno individuando e correggendo. --Alex brollo (disc.) 15:54, 18 apr 2018 (CEST)
Hei ma funziona davvero? Sbubi (disc.) 09:01, 20 apr 2018 (CEST)
Giuro, try it! : ) --divudi (disc.) 16:01, 21 apr 2018 (CEST)

Statistiche wikisource impallate[modifica]

Se guardate qui: https://tools.wmflabs.org/phetools/statistics.php?diff=1 dove dovrebbe comparire la tabella del lavoro dell'ultimo giorno su tutte le wikisource, notate che per oggi le wikisource di quasi tutto il mondo sono state ferme e inoperose. Per fortuna non è vero :-) --Alex brollo (disc.) 17:19, 18 apr 2018 (CEST)

Oggi rifunziona :-) --Alex brollo (disc.) 07:45, 19 apr 2018 (CEST)

Pagine con immagini in mezzo al testo[modifica]

Buongiorno! Non riesco a fare queste pagine, hanno l’immagine in mezzo al testo, se aprite i link capite. Mi potete aiutare? grazie ! https://it.wikisource.org/w/index.php?title=Pagina:Ortiz_-_Per_la_storia_della_cultura_italiana_in_Rumania.djvu/54&action=edit&redlink=1 ✔ Fatto, --Xavier121 10:47, 19 apr 2018 (CEST) https://it.wikisource.org/w/index.php?title=Pagina:Ortiz_-_Per_la_storia_della_cultura_italiana_in_Rumania.djvu/55&action=edit&redlink=1 ✔ Fatto --stefano mariucci (disc.) 21:00, 21 apr 2018 (CEST) https://it.wikisource.org/w/index.php?title=Pagina:Ortiz_-_Per_la_storia_della_cultura_italiana_in_Rumania.djvu/59&action=edit&redlink=1 ✔ Fatto --stefano mariucci (disc.) 21:00, 21 apr 2018 (CEST) AndreeaCostin (disc.) 10:27, 19 apr 2018 (CEST)

Autore:Antonio Olivieri[modifica]

@Accurimbono, Candalua, Mizardellorsa (e Carlo Morino): mi sembra evidente che il signor Olivieri descritto nella pagina NON POSSA essere l'autore del saggio che gli viene attribuito.

Si tratta invece dell'omonimo medievista che lavora all'Uni-to. questo. Cambiamo tutti i dati su data o facimme 'n'atra scheda? E se sì (come immagino debba essere) che nome?

--Carlo M. (disc.) 09:11, 20 apr 2018 (CEST)

Su Wikidata è stato fatto un mischione dei due personaggi. Direi di tenere la nostra pagina e l'elemento collegato per lo storico contemporaneo (come era in origine), e fare un nuovo elemento per l'artista settecentesco (per il quale non credo ci serva avere una pagina). Can da Lua (disc.) 09:27, 20 apr 2018 (CEST)
✔ Fatto Il riferimento ISNI è esso stesso un mischione dei due, ma per ora l'ho lasciato allo storico e ho segnalato la confusione a quelli dell'ISNI. Segnalo ai Wikidatari che c'è un utilissimo strumento per spostare le proprietà da un elemento ad un altro: per abilitarlo va aggiunto al common.js la seguente riga:
mw.loader.load( '//www.wikidata.org/w/index.php?title=User:Matěj_Suchánek/moveClaim.js&action=raw&ctype=text/javascript' );

Can da Lua (disc.) 09:51, 20 apr 2018 (CEST)

@Candalua. Grazie

Ho mandato un msg tramite academia.edu per avere ulteriori dati. Spero che risponda. --Carlo M. (disc.) 10:25, 20 apr 2018 (CEST)

Documentazione dell'avventura xml[modifica]

Segnalo due pagine di documentazione sull'affascinante (ma un pochino ostica) avventura xml, che i più audaci di voi stanno seguendo:

Non occorre che vi dica la fatica di documentare cose che sono molto complesse e in piena evoluzione anche per me.... e di cui nemmeno io, al momento, ho le idee chiarissime riguardo i possibili sviluppi. --Alex brollo (disc.) 09:13, 20 apr 2018 (CEST)

In Indice:Metastasio, Pietro – Opere, Vol. III, 1914 – BEIC 1885240.pdf nuovo episodio dell'avventura _djvu.xml, testata una soluzione per permettere di caricare l'xml sulle pagine per tutti coloro che possono far correre uno script python ma che non dispongono di un bot. Il primo esperimento mi pare riuscito (e documenta anche che si può fare lo split su pagine pdf). --Alex brollo (disc.) 15:49, 21 apr 2018 (CEST)

Instagram e comunità It-N wikimedia[modifica]

Segnalo w:it:Wikipedia:Bar/Discussioni/Proposta creazione pagina Instagram WikipediaIT--Alexmar983 (disc.) 15:09, 21 apr 2018 (CEST)

Rilettura[modifica]

Ciao, se fossi sicuro di non combinare un pasticcio lo farei io. Noto che il testo in rilettura è fermo da quasi tre mesi. Suggerirei di cambiarlo con La metà del mondo vista da un'automobile visto che da un solo mese e 4 giorni è passato il 110 anniversario dell'inizio dell'avventura (per Barzini) che è stato convocato da Albertini il 18 marzo e spedito a Parigi. Il testo mi pare adatto, tutto settantacinquato e di un certo interesse, oltre che di lettura scorrevole, quasi un romanzo. Al di là dei miei gusti, credo che sia ora di cambiare. Un salutone veloce. --Silvio Gallio (disc.) 13:18, 22 apr 2018 (CEST)