Wikisource:Bar/Archivio/2016.08: differenze tra le versioni

Da Wikisource.
Contenuto cancellato Contenuto aggiunto
Riga 223: Riga 223:


{{rientro}} Accetto il discorso della qualità, ma credo che la direzione della soluzione sia sbagliata. Nel senso non tecniclo, ma ''politico-sociale'': secondo me non possiamo pensare che la soluzione sia dare altro lavoro a Xavier o Alex. Se fosse così, peggioreremmo ulteriormente la situazione di un progetto già "difficile". La soluzione deve essere condivisa e discussa con tutti gli altri: con i francesi, con Tpt che gestisce il tool IA Upload, con tutti quanti. Altrimenti abbiamo perso in partenza, IMO. Proverò a scrivere in lista. [[User:Aubrey|Aubrey]] ([[User talk:Aubrey|disc.]]) 19:28, 12 mag 2016 (CEST)
{{rientro}} Accetto il discorso della qualità, ma credo che la direzione della soluzione sia sbagliata. Nel senso non tecniclo, ma ''politico-sociale'': secondo me non possiamo pensare che la soluzione sia dare altro lavoro a Xavier o Alex. Se fosse così, peggioreremmo ulteriormente la situazione di un progetto già "difficile". La soluzione deve essere condivisa e discussa con tutti gli altri: con i francesi, con Tpt che gestisce il tool IA Upload, con tutti quanti. Altrimenti abbiamo perso in partenza, IMO. Proverò a scrivere in lista. [[User:Aubrey|Aubrey]] ([[User talk:Aubrey|disc.]]) 19:28, 12 mag 2016 (CEST)
:Cioè, quale processo avete usato? In particolare, siete partiti dai TIFF o dai JP2? [[Utente:Nemo_bis|Nemo]] 20:08, 12 mag 2016 (CEST)


== Inversione di pagine ==
== Inversione di pagine ==

Versione delle 20:08, 12 mag 2016

Archivio delle discussioni del mese di agosto dell'anno 2016

Categoria: Archivio Bar 2016 Bar   Archivio    agosto 2016 


T-shirt su meta

Conoscete m: Merchandise giveaways/Nominations? L'avevo segnalata a wikivoyage ma poi c'ra stato un picco di utenze italiane e mi ero fermato. Io ho avuto la maglietta mesi fa, anche Orbilius... chi manca all'appello? Ho lasciato una nomina di incoraggiamento, divertitevi... --Alexmar983 (disc.) 10:33, 1 mag 2016 (CEST)[rispondi]

Ottima idea! Ho supportato le candidature di @Alex brollo e @Candalua. Aubrey (disc.) 11:18, 1 mag 2016 (CEST)[rispondi]
Grazie della nomination... anche se forse meriterei una nomination particolare come creatore di bordelli... ;-) --Alex brollo (disc.) 10:54, 2 mag 2016 (CEST)[rispondi]
non ringraziare troppo Alex brollo, ti contatteranno fra più di sei mesi e qualunque cose vorrai non l'avranno... in sintesi è solo svuotamento di magazzini. Lo so ci sono passato... ma se sei perfido come me puoi a tua volta nominare qualcun altro :D--Alexmar983 (disc.) 15:42, 2 mag 2016 (CEST)[rispondi]
Ce l'avranno una t-shirt con il famoso motto "Cave pediam"? Altro non voglio.... :-) --Alex brollo (disc.) 16:26, 2 mag 2016 (CEST)[rispondi]

Statistiche: il ritratto della nostra comunità

Oggi ho riguardato le statistiche di attività, in particolare quella che mostra la consistenza delle nostre pagine nsPagina per SAL nel corso del tempo. E' un ritratto fedele, vedo all'opera una comunità operosa e stabile, che da anni mantiene salda la propria "politica" e che nel tempo incrementa regolarmente, anche se leggermente, la sua attività. Una comunità "in equilibrio". Mi piace :-)


Volendo nella linea del SAL 100% si possono visualizzare dei piccoli, ma significativi scalini... cascano sempre in novembre, guarda caso ;-) --Alex brollo (disc.) 16:50, 2 mag 2016 (CEST)[rispondi]

Secondo te vale la pena di usare una politica francopolacca ed importare miriadi di libri e pagine SAL 25% pur di forzare il M&S e diminuire i testi non proofread? Secondo me sì, dato che negli anni fr. source e pl.source hanno raggiunto risultati impressionanti in tal senso. Ne approfitto per incitare @Mizardellorsa a privilegiare le opere proofread ;) - εΔω 19:28, 2 mag 2016 (CEST)[rispondi]


La cosa che mi piace è che mi pare stiamo proprio arrivando ad una curva parabolica, il che dimostra una comunità in crescita. Speriamo bene :-) Aubrey (disc.) 19:25, 2 mag 2016 (CEST)[rispondi]
Umilmente: secondo me vale veramente la pena importare miriadi di libri e pagine SAL 25% pur di forzare il M&S se si vuole essere, come spesso dichiariamo, differenti dalle altre biblioteche on line. Ci siamo sempre dichiarati di essere qualitativamente unici o, per lo meno, questo è l'obiettivo per il quale IO NOI facciamo parte di questa comunità. Nell'ottica di ciò proporre sempre più testi Proofread aumenta questa qualità. Certo è che bisogna gestirla: ricerca testo digitalizzato, importazione, M&S, rilettura, ecc. So che ci sono molti testi no proofread e per qualcuno mi ero ripromesso di metterci mano alla fine del lavoro che sto seguendo. Adesso però che ci penso, non saprei come rintracciare la categoria dei testi non proofread. Si potrebbe inserire la categoria in HomePage come sono ben evidenziati i testi per SAL? Poi, si potrebbe creare un progetto dedicato al M&S? Sarebbe un bell'aiuto se gli utenti attivi ben consolidati, dedichino un periodo (a propria scelta o definito dagli amministratori) anche di pochi giorni o addirittura un vero e proprio dal - al per l'avanzamento del progetto M&S. Se questo progetto esistesse, io mi sentirei obbligato, in quanto utente attivo ed abituale a parteciparvi/impegnarmi. --Stefano mariucci (disc.) 13:41, 3 mag 2016 (CEST)[rispondi]
Io non faccio mistero di muovermi con obiettivi diversi: Per i testi in lingua ladina, con l'appendice in lingua romancia lo scopo che mi prefiggo, con l'aiuto della sezione ladina dell'Università di Bressanone, è di raccogliere e pubblicare tutti i testi disponibili scritti in tali lingue liberi da diritti. Tutte le volte che c'è un testo a stampa free si può seguire la strada del proofread, ma molti testi scritti nel secolo XIX o all'inizio del secolo XX compaiono in edizione a stampa spesso solo in riviste o libri editi recentemente con a fianco la traduzione tedesca coperta da copyrigt. Nel caso di opere presenti nella biblioteca Tessemann si può aggiungere un link alla pagina esatta, ma non realizzare una copia prooferad perchè l'Istituto ladino della Val Badia e la Biblioteca provinciale rilasciano le loro opere in CC, ma con la clausola NC. La soluzione più semplice è appunto caricare il solo testo ladino e tutte le volte che è possibile, mettere un link al sito dove è presente. Il nostro scopo è di diffondere la conoscenza, non battere record statistici.-Mizar (ζ Ursae Maioris) (disc.) 15:31, 3 mag 2016 (CEST)[rispondi]

22:09, 2 mag 2016 (CEST)

Franco Fochi

Come si può constatare i libri su wikisource sono spesso "vecchi"... e allora mi son detto qualche giorno fa... facci(am)o qualcosa!

Ho scritto a w:Gianni Fochi, figlio di w:Franco Fochi, a cui linkerò questa discussione. Di entrambi curai la voce su wikipedia (fra l'altro in w:Franco Fochi c'è una ripetizione di testo, qualcuno di voi può provvedere?)

Ebbene dopo aver scritto alla sorella, mi ha fato sapere venti minuti fa che i due avrebbero acconsentito a cedere i diritti di alcune opere edite di padre, che abbiano superato i vent'anni di durata del loro ultimo contratto editoriale. Queste sarebbero:

  • "Piccoli scrittori", manuale di composizione per le scuole medie inferiori (con belle illustrazioni umoristiche), Edizioni Scolastiche Mondadori, 1963.
  • "Pedalare e vedere", manuale di cicloturismo, Centro Turistico Giovanile, 1958.
  • "Pisa e il suo verde piano", S.E.I., 1961.
  • "Lingua in rivoluzione", Feltrinelli, 1966.

Gianni Fochi è certo modesto quando parla del padre di cui teme le opere non possano suscitare un grande interesse nei lettori moderni. Io dico che è un timore infondato, anzi penso che siano volumi di pregio. Conclude Fochi Se la cosa ti sembrasse sensata, noi rinunceremmo volentieri per queste opere alle (del resto nulle) possibilità di sfruttamento economico ulteriore.

Fochi è giornalista e conosce bene le norme del copyright editoriale in Italia, il che è un vantaggio. Bisogna come sempre passare per il sistema di ticket OTRS, fra l'altro con doppia autorizzazione (sua e della sorella), ma mi proverò a occupare io al 100% di questo noioso passaggio.

Spero nel caso di confidare su un buon supporto da parte della comunità di wikisource, mi semplificherebbe la vita. Soprattutto mi farebbe piacere avere un po' di supporto perché sarebbe un bel precedente per wikisource in italiano, da citare anche in futuro. Ci sono molti famigliari di letterati o accademici che avrebbero interesse a anteporre la diffusione di certe opere ai loro diritti commerciali. Questo gesto, se ripetuto, ci permetterebbe di introdurre in wikisource testi vecchi di "soli" 50-60 anni rispetto ai 75-100 attuali.--Alexmar983 (disc.) 16:09, 3 mag 2016 (CEST)[rispondi]

temo comunque che per il manuale di composizione, non avendo dettagli su di chi siano le illustrazioni umoristiche, ci siano meno chance. In ogni caso vedremo in dettaglio su quali libri non c'è il problema del diritto d'autore di eventuali illustrazioni non fatte da Fochi. --Alexmar983 (disc.) 16:40, 3 mag 2016 (CEST)[rispondi]
Complimentoni, mi sembra un'ottima notizia. Appena viene perfezionato il permesso tramite OTRS credo che la comunità di darà il dovuto sostegno. --Accurimbono (disc) 17:12, 3 mag 2016 (CEST)[rispondi]
Complimenti davvero, mi pare un'ottima notizia e un ottimo precedente (abbiamo avuto qualche donazione in passato, ma non tante, e sono sempre belle e importanti). Wikimediani che bazzicano l'OTRS ne abbiamo, per cui chiedi pure. Ovviamente, sarebbe fantastico se loro:
avessero file digitali (non credo)
potessero prestar(ti?ci?) copie cartacee da digitalizzare. Aubrey (disc.) 17:58, 3 mag 2016 (CEST)[rispondi]
Il piano sarebbe questo: mandiamo al servizio OTRS la lunga e noiosa richiesta e vediamo se ci sono problemi (tipo vogliono sapere meglio i dettagli di diritti dell'editore) e ce la prendiamo "con calma". Nel frattempo passa minimo un mesetto, si fa estate e quando torno in Italia provo a passare da Fochi a prendere i libri di persona, magari una deviazione mentre torno dall'aeroporto. A fin agosto ricorre l'anniversario della morte, sarebbe bello riuscire a digitalizzare un'opera (la meno controversa, suppongo una di quelle senza immagini) entro quella data. Io posso scansionare a casa, basta che poi mi diate indicazioni precise su formato. --Alexmar983 (disc.) 05:03, 4 mag 2016 (CEST)[rispondi]

Avviso memoRegex

Ho iniziato l'aggiornamento di memoRegex, i pulsanti sono stati rinominati in "salva regex", "carica regex" e "esegui regex" e la pagina Aiuto:MemoRegex è stata aggiornata. L'aggiornamento è parziale, implementa solo alcune novità "di base", ci vado cauto ma sono script traditori.... sappiatemi dire. --Alex brollo (disc.) 00:06, 4 mag 2016 (CEST)[rispondi]

BAT man

Come vi ho accennato alle volte, personalmente NON uso gran parte dei gadget ma ho raccolto tutto ciò che mi serve in un Big Anonymous Tool (BAT) che ha alcune caratteristiche:

  • ha "tutto dentro" ed è indipendente da qualsiasi gadget o script locale (tranne quelli generali)
  • è indipendente dal progetto (ossia, funziona, quasi completamente, in qualsiasi progetto source; io lo uso su mul.source e su it.source)
  • è completamente sotto controllo dell'utente registrato, senza necessità di ulteriori "privilegi" e senza utenza Amministratore (sysop), perchè non tocca il nsMediaWiki ma solo sottopagine della pagina Utente.
  • è unico e centralizzato su mul.source.
  • opzionalmente è fortemente personalizzabile attraverso una pagina personale di puro testo (la mia configurazione personale qui sta in Utente:Alex brollo/PersonalButtons)

La pagina doc originale sta su mul.source, dove ho sviluppato il tool in un lungo periodo di sosta e riflessione, oggi l'ho clonata qui: Utente:Alex brollo/BAT man. Non è aggiornata con le ultime novità ma approfitterò degli sviluppi recenti su memoRegex ed altro per aggiornarla.

Beninteso: il tool nasce proprio per essere personale ossia: per darmi la possibilità di provare e di pasticciare SENZA disturbare il progetto e gli altri utenti; quindi NON vi spingo minimamente a provarlo; ma mi pare giusto condividerlo. --Alex brollo (disc.) 08:20, 4 mag 2016 (CEST)[rispondi]

PS: Se visitate la pagina Utente:Alex brollo/BAT man lasciate un commento o almeno la vostra firma in Discussioni utente:Alex brollo/BAT man: grazie! --Alex brollo (disc.) 17:36, 4 mag 2016 (CEST)[rispondi]

Riforma costituzionale Boschi-Renzi

Ho creato la pagina sulla Disposizioni per il superamento del bicameralismo paritario, la riduzione del numero dei parlamentari, il contenimento dei costi di funzionamento delle istituzioni, la soppressione del CNEL e la revisione del titolo V della parte II della Costituzione (cd. riforma costituzionale Boschi-Renzi). Il titolo non rispetta lo standard delle leggi costituzionali e non può rispettarlo perché non è stata ancora promulgata (lo sarò dopo l'eventuale sì al referendum). Magari ci possono essere titoli migliori ma non mi venivano in mente. La formattazione invece è sicuramente migliorabile. In ogni caso mi pare utile che fosse presente. --Jaqen (disc.) 18:55, 4 mag 2016 (CEST)[rispondi]

Grazie Jaqen. Ma perchè mi viene in mente automaticamente la famosa e brillante, ancorchè sintetica, recensione de La corazzata Potëmkin, fatta dal rag. Fantozzi? Alle volte queste associazioni di idee sono veramente inspiegabili. --Alex brollo (disc.) 20:15, 4 mag 2016 (CEST)[rispondi]

Un breve saluto

Salve ragazzi, rubo qualche byte di questo bar per un saluto; scusatemi se non sono stato presente (ma ho seguito tutte le discussioni) e spero di essere operativo a breve. Da una breve occhiata mi accorgo di dover togliere molti bottoni che non funzionano più: sarà cambiato qualcosa, immagino.
P.S. Devo ammettere di non aver ben capito queste regex, ma mi riprometto di studiarle meglio appena possibile. :-)
Buon lavoro wikisourciano!--Barbaforcuta (disc.) 20:36, 7 mag 2016 (CEST)[rispondi]

Grande @Barbaforcuta, bentornato! Dai ragazzi che ci siamo tutti ormai :-D Aubrey (disc.) 11:44, 9 mag 2016 (CEST)[rispondi]
@Barbaforcuta bentornato anche da parte mia! :) --Accurimbono (disc) 14:02, 9 mag 2016 (CEST)[rispondi]
Io sono "piccolo" ma leggendo i tuoi interventi so che sei un grande. Ben tornato anche da parte mia. --Stefano mariucci (disc.) 14:42, 9 mag 2016 (CEST)[rispondi]
Grazie a tutti! @Stefano mariucci Beh tutti siamo grandi nel nostro piccolo; spero solo di non essermi arrugginito.--Barbaforcuta (disc.) 23:59, 9 mag 2016 (CEST)[rispondi]

Statistiche di visite su Wikisource

Il grande MusikAnimal, ha fatto una cosa che mancava da tempo: ha inserito nel tool di visualizzazione anche la possibilità di vedere le visite a tutto il sito. Per cui si possono fare interessanti comparazioni come questa. Il sito ci sarà molto utile per i nostri "contest" e campagne, è sempre bene misurare l'impatto. Aubrey (disc.) 11:44, 9 mag 2016 (CEST)[rispondi]

in effetti prima o si usava la hom page o amen. Non che desse un'idea anche quella, ma tutto il sito è un'altra cosa.--Alexmar983 (disc.) 14:09, 9 mag 2016 (CEST)[rispondi]
Per curiosità, qualcuno riesce scoprire cosa sia successo su mul.source ad inizio aprile? εΔω 07:15, 11 mag 2016 (CEST)[rispondi]

Il problema Internet Archive: urge decisione pdf/djvu

Che famo con i pdf di IA? Ne abbiamo già parlato, ci sono tre vie:

  1. cominciare a utilizzare direttamente i pdf di IA e non pensarci più
  2. creare laboriosamente i djvu con tecniche manuali (tipo passaggio del PDF a FineReader11; cosa riservata ai pochissimi fra noi che hanno il programma)
  3. scovare un metodo per produrre dei buoni djvu dai file IA (recuperando anche il loro OCR) con un tool che faccia tutto da solo.

Per sfida sto esplorando la terza via (se avrò qualche risultato lo riporterò in Bar tecnico), che non è affatto semplice, ma rinuncerei prontamente se la maggioranza di noi propendesse per la prima soluzione (MOLTO più user-friendly). --Alex brollo (disc.) 12:34, 9 mag 2016 (CEST)[rispondi]

Sinceramente, io propenderei senza grossi patemi per la prima soluzione. Il tempo dei nostri utenti più esperti è prezioso, va rispettato e usato con parsimonia, e per quanto anche io provi affetto per il djvu è una tecnologia che ha perso. Il PDF funziona, il tool IA upload lo carica senza problemi, di fatto a noi non cambia nulla (se non che vengono caricati PDF su Commons e la gente può leggerli meglio...). Il djvu è morto, lunga vita al djvu. Aubrey (disc.) 13:07, 9 mag 2016 (CEST)[rispondi]
@Nemo bis Mi spiace un pochino per il tempo impiegato a penetrare nei misteri del djvu, ma già mi sono procurato qualche attrezzo per maneggiare i pdf (ai cultori della materia suggerisco di esplorare xpdf; accetto altri suggerimenti). Proporrei di partire subito con la sperimentazione utilizzando i tasti ancora non convertiti in djvu con tecniche artigianali, nella collezione caricata su IA a cura di Nemo dalle biblioteche milanesi. Alex brollo (disc.) 13:25, 9 mag 2016 (CEST)[rispondi]
Ho sempre salvato in djvu perché formato vincente in un certo periodo della nostra avventura, ma quello che desideravo era maneggiare le scansioni perché piene di errori e wm non graditi. Spesso, come su OPAL, anche senza OCR. Se i pdf di IA saranno buoni si caricheranno così come sono; se non rispondono per qualche motivo alle nostre aspettative si protranno (dovranno: mi aspetto anche una decisione sulla qualità del nostro progetto) lavorare e ricaricare su commons. A quel punto salvarli in un formato o nell'altro è mera questione di spunta nelle opzioni di salvataggio. --Xavier121 13:40, 9 mag 2016 (CEST)[rispondi]
Ma, non ho capito: supponendo di usare d'ora in avanti solo i pdf, stiamo parlando di rinunciare al text layer? O vogliamo comunque generare un OCR e ficcarlo in qualche modo nel pdf? Oppure salvarlo per conto suo? Mi sembra che in ogni caso ci siano comunque dei passaggi da fare a mano... P.S. Comunque prima di prendere decisioni avventate cerchiamo di scoprire cosa stanno facendo i francesi... e se riescono a far fare l'ocr al tool ia-upload. Can da Lua (disc.) 14:04, 9 mag 2016 (CEST)[rispondi]
@Candalua Chiariamo un equivoco: i pdf di IA hanno il loro bravo OCR e dal punto di vista dell'utente comune non c'è alcuna differenza con i djvu (tanto, l'immagine a fronte in nsPagina è in entrambi i casi un jpeg derivato). E' opportuno fare un po' di verifiche per controllare che non si "incanti" qualche tool avanzato che si aspetta un nome nsIndice e un nome nsPagina che termini con .djvu invece che con .pdf, tutto qui.
Là dove casca l'asino sono alcune procedure molto particolari che richiedono di "sbisigare" a fondo nella struttura del testo mappato; ma sono cose che al 99% (e più) degli utenti non interessano affatto.
I pdf Google hanno una struttura diversa, il che potrebbe provocare l'assenza dei trattini per le parole spezzate a fine riga; anche qui, bisognerebbe provare. Occorre fare una bella pagina di aiuto per illustrare i (parecchi) programmi che consentono di manipolare i pdf (es. cancellare o aggiungere pagine, rioprdinarle, estrarre il testo, estrarre le immagini, cropparle....). Ottima l'idea di vedere che fa fr.source, scandaglierò le loro pagine discussione, ma invito anche voi a farlo, ed eventualmente a chiedere a qualche utente che conoscete. (alex sloggato) 193.43.176.15 14:54, 9 mag 2016 (CEST)[rispondi]
Ecco il primo: Indice:Tarchetti - Paolina.pdf. L'uploader di Tpt funziona senza battere ciglio: avvisa solo che verrà caricato come pdf. Però.... i problemi ci sono, eccome se ci sono.... :-(
Aprite una pagina qualsiasi e li constaterete.
Procedo nella terza via. --Alex brollo bis (disc.) 15:41, 9 mag 2016 (CEST)[rispondi]
Solo per non generare panico, comunico che qualche giorno prima su richiesta di Edo si era creato questo, ed è la qualità minima richiesta per ogni scansione che si desidera insierire su questo progetto, pena l'abbandono generale della pagina indice. I derivati di IA da tiff o da altre sorgenti sono terribili, anche sui djvu qualche volta la compressione era eccessiva. Io penso sia un DOVERE occuparsi del lavoro offline sui testi, perché le buone scansioni fanno buono anche il progetto in generale e una pagina chiara stimola i contributori. Come Aubrey, anch'io penso che il tempo sia importante, ma ritengo che spenderlo in queste cose non sia perso. Se esiste un tool meglio, altrimenti procurarsi un buon programma. :) --Xavier121 16:05, 9 mag 2016 (CEST)[rispondi]
Il mio spirito ecoinformatico piange a vedere un testo così banale produrre un djvu di oltre 50 Mby, fra l'altro con un bel po' di fatica e buttando via un OCR già fatto; lascio a Xavier la seconda via e procedo con la terza :-)
Il file Indice di prova lo marcherei con un chiaro messaggio "FILE TEST" e lo conserverei a futura memoria della schifezza che vien fuori. --Alex brollo (disc.) 16:34, 9 mag 2016 (CEST)[rispondi]
Secondo me la cosa migliore è parlarne in wikisource-l o nei Bar dei progetti più grossi. Non ho ben capito l'orrore che descrive @Alex brollo non ho visto cose che non vedevo anche in altri libri. Spezzare il testo a fine riga può essere risolto da un postOCR come al solito? Idealmente, comunque, bisogna lavorare sul tool IA Upload, perchè viene usato da tutti e si risparmi un bel po' di tempo a far le cose lì invece che ognuno per sè (sempre che si riesca a lavorare "a monte"). Aubrey (disc.) 17:27, 9 mag 2016 (CEST)[rispondi]
Fatica non direi :) Però i 50 MB si potrebbero ridurre a 15/20 senza significativa perdita di qualità (uso impostazioni predefinite sia per testi brevi che lunghi e non vado oltre i 50/60 MB in genere, ma nel caso di testi piccoli la dimensione potrebbe apparire eccessiva. La banda mi assiste, caricarli non è un problema, Commons fino a 100 MB! Ricordo che spesso nelle immagini, come negli OCR, compare la fastidiosissima digitized by Google: lavorarli diventa inevitabile. --Xavier121 18:41, 9 mag 2016 (CEST)[rispondi]
Ciao a tutti, giusto domani cominceremo a scansionare e caricare i testi di Cesare Battisti, per un progetto GLAM della Biblioteca comunale di Trento. Quale è dunque la nuova procedura? Cambia qualcosa nella produzione delle scansioni? In quali formati e in che definizione è opportuno farle? Penso che io e @Susan bibtn saremo spesso qui a chiedere aiuto! Grazie --EusebiaP (disc.) 22:14, 9 mag 2016 (CEST)[rispondi]
Ho notizia di un tool per la conversione pdf->djvu di Phe, Tpt mi ha dato questo link: https://tools.wmflabs.org/phetools/hocr_cgi.py ma non riesco a capire come "chiamarlo".
@Aubrey Ma tu hai aperto una pagina qualsiasi di Indice:Tarchetti - Paolina.pdf? Ti piacciono le immagini delle pagine, ti piace l'OCR.... o_O ? Sono solo io che vedo immagini illeggibili e un testo che fa pietà (e non solo per spaziature di parole e di linee, ci sono anche inspiegabili spostamenti di parole)? Alex brollo (disc.) 23:58, 9 mag 2016 (CEST)[rispondi]
PS: a questo punto getto la spugna e ritorno all'edit e al mio amato BAT per uso personale. Aspettando che i francesi facciano qualche miracolo. Certo che IA ci ha tirato un bel bidone.... che peccato. Alex brollo (disc.) 00:02, 10 mag 2016 (CEST)[rispondi]
@EusebiaP, Susan bibtn a noi va benissimo la qualità dei testi di OPAL (per praticità), in pdf. Se poi avete tempo di creare anche cartelle zip con dentro tiff alta qualità, meglio, ma non è indispensabile. --Xavier121 11:00, 10 mag 2016 (CEST)[rispondi]

01:22, 10 mag 2016 (CEST)

Pensiero in libertà sulle immagini delle pagine

Cos’è l’immagine di una pagina? Una scansione o una foto di una pagina. Ma cos’è l’oggetto rappresentato da questa immagine? Una pagina. Bianca, all’origine; escludendo le immagini a inchiostri colorati, nel 99% dei libri antichi è una pagina bianca con "macchie" di inchiostro nero.

Quindi: la migliore e più fedele rappresentazione dell’oggetto-pagina dovrebbe essere un’immagine in bianco e nero.

Qual è il nostro scopo: importare la migliore rappresentazione della scansione, o la migliore rappresentazione dell’oggetto? Io propendo personalmente per la seconda; e quindi continuerò a lambiccarmi il cervello - a tempo perso - sulla migliore trasformazione possibile delle immagini delle scansioni in B/N. Via con lo studio dell'adapting threshold--Alex brollo (disc.) 09:15, 10 mag 2016 (CEST)[rispondi]

Però, Alex, bisogna che ci si metta d’accordo: prima dicevi che la qualità dei PDF di adesso è tropo bassa (ed effetivamente è più bassa), adesso dici che vuoi compiere trasformazioni per togliere il colore naturale dell’immagine.... Secondo me sono in contraddizione. Per quel che mi riguarda, io sono per la via più semplice che porta al risultato più naturale e allo stesso tempo leggibile: io credo che non ci siano utenti che vengono in Wikisource e usino il nsPagina per leggere un libro guardando solo le scansioni.

Credo che la Proofread extension sia stata un’ottima invenzione per aumentare la qualità dei nostri testi e anche per rassicurare il lettore che stava leggendo un’edizione particolare, dandogli la possibilità di controllare lui stesso. Con il pdf secondo me c’è il rischio che la gente si scarichi quello e se lo legga senza di noi. Per quanto anche io preferisca una bellissima scansione a supporto di un testo, mi interessa molto di più che il nuovo OCR non faccia schifo, e che non rallenti il lavoro della comunità, che, a mio parere, è quello di trascrivere e rendere leggibili (e interconnessi) testi. Aubrey (disc.) 10:17, 10 mag 2016 (CEST)[rispondi]

  • Ma sempre con tutta la stima del mondo per il lavoro che hai fatto e che farai! A me dispiace perdere info grafiche dalla fonte perché è lavoro buttato dell’operatore che ha creato il file immagine. Abbiamo sempre a che fare con libri: il b/n è freddissimo e irreale, mi allontana. --Xavier121 10:50, 10 mag 2016 (CEST)[rispondi]
@Xavier121 Non ho una risposta precisa; ma tu immagini che veramente che Paolina sia stata stampata su carta grigio-scuro? E se è stata stampata su carta bianca come è piuttosto probabile, con inchiostro nero, è più fedele al libro un’immagine grigio-scura o un’immagine BN? Rispetto molto la fatica di chi ha scensionato, ma rispetto di meno gli artefatti che ha infilato nella scansione. Una buona scansione dovrebbe essere al massimo color carta di fondo con caratteri belli neri ben contrastati e ben dettagliati.
@Aubrey La prima cosa che fa un programma OCR tipo FineReader è quella di trasformare (faticosamente) le immagini in B/N per poi passarle agli algoritmi di riconoscimento carattere. Dandogli ottime immagini B/N il tempo di elaborazione si riduce moltissimo senza alcuna perdita di informazione testuale. Su certe paginacce prodotte a colori ad altissima risoluzione da C.R. (6000px, talora 12000 px di lato) il povero FineReader11, per caricarne una, stava parecchio più di un minuto.... la stessa immagine in BN richiedeva pochissimi secondi. Stessi tempi enormi per le elaborazioni (raddrizzamenti, deskewing ecc); stessa cosa con ScanTailor. Alex brollo (disc.) 11:16, 10 mag 2016 (CEST)[rispondi]
@C.R. Beninteso.... paginacce riguarda solo le loro enormi dimensioni, nap.source è stata un’avventura magnifica, e non è detto che sia finita :-) Alex brollo (disc.) 12:13, 10 mag 2016 (CEST)[rispondi]
IMHO: il file della scansione ha una sua vita autonoma in Commons e deve essere della miglior qualità grafica possibile, la trascrizione che da questo deriva dovrebbe essere facilitata dalle elaborazioni di questo file, ma senza per questo compromettere la qualità della scansione iniziale.
In altre parole a me, come utente, piace avere la possibilità di scegliere tra il leggere il libro originale scansionato al meglio (avendo la possibilità di "sfogliarlo" virtualmente) e leggere la sua trascrizione testuale derivata con il bonus di avere collegamenti ad autori e testi citati, la comodità di poter fare una ricerca testuale, portabilità su ebook reader, etc.. --Accurimbono (disc) 14:13, 10 mag 2016 (CEST)[rispondi]
Proprio di questo stiamo parlando; le immagini originali delle scansioni non hanno la miglior qualità grafica possibile, una fedelissima conversione (perchè le immagini originali sono sempre convertite, compresse ecc) riproduce con la stessa esattezza l’oggetto e gli artefatti. Secondo me, ricostruire l’immagine della pagina, com’era appena stampata, sarebbe la migliore rappresentazione dell'edizione. Certo, se invece dell’edizione volessimo riprodurre l’esemplare, il libro concreto individuale, allora anche la muffa, l'ingiallimento delle pagine, le macchie di sugo di pomodoro avrebbero la loro bella importanza ..... ;-) resterebbero però da correggere, anche in questo caso, le deformazioni prospettiche, la planarità, e l'irregolare illuminazione, che nei vecchi libri è estremamente fastidiosa. Alex brollo (disc.) 15:29, 10 mag 2016 (CEST)[rispondi]
Esempio, imo, straordinario: prima edizione delle Novelle rusticane, testo caricato il 9 maggio 2016 da Ruggeri! La qualità è discreta e risponde alle nostre esigenze: l'OCR in queste condizioni sarà ottimo e complessivamente, non inserendo alcuna compressione aggiuntiva, ne verrà fuori un file da 10/15 MB fedele all'originale. Come si può rinunciare a tutto questo? N.B. Se sfogliate il testo linkato troverete una chicca pazzesca! --Xavier121 19:02, 10 mag 2016 (CEST)[rispondi]
Ma infatti bisogna capire se il PDF di quella cosa viene bene o meno. Che sia djvu o pdf a me ne cale: con Xavier anche io penso che sia bello e naturale, per l'utente, vedere il colore vero della carta. Poi, che il nostro software, per sè stesso, se lo converta in binario o b/n o esadecimale, è una cosa da software, per lui: credo che l'utente necessiti di una foto a colori. Aubrey (disc.) 19:34, 10 mag 2016 (CEST)[rispondi]
Guardate questa immagine a destra derivata da quell'orrendo pdf di IA. Non è B/W, è "B/carta ingiallita" e scegliendo meglio il colore potrebbe diventare un "color wikisource", il migliore sfondo possibile per "riposare gli occhi" durante la rilettura, sempre lo stesso. E' ottenuta dal djvu (locale) File:Paolina.djvu. E' un file fatto di una sola pagina, ma guardate il suo peso: 9 kbyte. Questo significa - arrotondando in eccesso - che 200 di queste pagine peserebbero 2Mbyte, invece che 50Mbyte; non solo, ma IMHO sono pagine migliori. Proseguo ancora un po' - al 90% resterà uno delle mie divagazioni senza esito. Alex brollo (disc.) 22:06, 10 mag 2016 (CEST)[rispondi]
@Alex brollo quello che è possibile riprodurre con una scansione è solo l'ESEMPLARE, che esiste come oggetto reale. L'"EDIZIONE" è un concetto astratto che non esiste materialmente e quindi non è possibile scansionare. Volerla recuperare a ritroso a partire da una o più scansioni dei singoli esemplari, credo IMHO che sia velleitario e una sorta di POV. Esempio: tu puoi sostenere (in base a cosa?) che la carta originariamente fosse stata bianca, io potrei sostenere (in base a cosa?) che la carta originariamente fosse stata gialla, qualcun altro potrebbe sostenere una delle mille sfumature intermedie... sarebbe in ogni caso un intervento posticcio e gratuito sulla scansione dell'esemplare. Che la scansione vada fatta tecnicamente al meglio (luce, a fuoco, margini, planarità, allineamento, risoluzione, etc..) è giusto, ma ulteriori elaborazioni sinceramente non le vedo come migliorative al fine di avere su Commons la migliore scansione possibile. --Accurimbono (disc) 09:30, 11 mag 2016 (CEST)[rispondi]
@Alex brollo cmq nulla vieta di fare dei file derivati ed elaborati della scansione originale. Le finalità e gli usi di questi possono essere diverse. E' il bello di wiki. --Accurimbono (disc) 09:31, 11 mag 2016 (CEST)[rispondi]
@Accurimbono Quasi tutte le scansioni sono più o meno elaborate rispetto alla "scansione iniziale". Lo stesso FineReader, in fase di trasformazione delle scansioni originali e di allestimento dei file derivati con strato OCR, si "prende delle piccole libertà di default" indispensabili alla corretta interpretazione del testo (divisione delle facciate; raddrizzamento) e alcune elaborazioni non automatiche sono indispensabili per la produzione dell'OCR mappato (correzione di artefatti da curvatura), oltre alle libertà maggiori di default per la compressione delle immagini. Che per produrre un file immagine con testo mappato occorra qualche post-elaborazione dell'immagine scansionata originale non è in discussione; stiamo discutendo su quanto può essere post-elaborata, in termini quantitativi, non qualitativi. Se non lo teniamo presente la discussione da pratica diventa teorica, di principio, e non ne usciamo vivi :-) Alex brollo (disc.) 11:23, 11 mag 2016 (CEST)[rispondi]
Ho il sospetto che la carta "bianca" come quella che si usa attualmente sia un prodotto della chimica moderna e che il "bianco" del '700 fosse molto meno "bianco" di ora. --Carlo M. (disc.) 12:10, 11 mag 2016 (CEST)[rispondi]
Mi sembra che i pareri siano comunque allineati: purchè l'OCR sia buono, ok a qualche decina di mByte in più tanto su Common c'è posto e la banda che si usa per il proofreading è la stessa. Ho sottomano anche quello che serve per la struttura djvu "photo", tipo Xavier, cercherò di battere anche questa strada. Prima di abbandonare tutto cercherò di documentare un po' del magico mondo in cui mi sono addentrato. Magari la discussione la continuiamo in qualche pagina dedicata. Alex brollo (disc.) 13:14, 11 mag 2016 (CEST)[rispondi]
@Xavier121, Accurimbono, Aubrey Ho furiosamente approfondito la questione, e sono riuscito a ricavare, dai file IA, un djvu eccellente (qualità foto) di Paolina, che ho caricato in locale qui: File:Digitami LO10534041.djvu. La cosa interessante è che lo strato testo è quello di IA, e tutto il processo di derivazione NON necessita di FineReader, ma solo di programmi "liberi" (DjvuLibre e applicazioni grafiche tipo ImageMagick o simili). Una conclusione importante: NON bisogna usare il file IA PDF perchè le immagini sono compresse in modo eccessivo e già rovinate irremediabilmente; bisogna partire dalle immagini raccolte nello zip _jp2.zip, NON dalle immagini originali _images.zip perchè NON combaciano con l'OCR. Altra nota tecnica: il visualizzatore IA NON usa nè il djvu (ora inesistente) NE' il pdf; le immagini sono quelle del file _jp2.zip; quindi il djvu che si produce da quelle immagini ha - almeno potenzialmente - la stessa definizione grafica (eccellente) di quella del visualizzatore.
L'intero processo di trasformazione _jp2.zip + _djvu.xml -> file djvu con strato OCR può essere totalmente automatizzato; l'unico dato che serve è l'id di IA e i programmi che servono esistono sia in ambiente Windows che in ambiente Linux/Unix. Alex brollo (disc.) 08:54, 12 mag 2016 (CEST)[rispondi]

Riassumento e visualizzando...

Qui sotto lo stesso particolare della pagina 4 di Paolina, in tre immagini ottenute dal pdf di IA, dal mio djvu e da quello di Xavier121:   

Come vedete, meglio lasciar perdere il pdf di IA, fa leggermente ribrezzo, mentre i due diversissimi metodi che io e Xavier121 abbiamo usato danno risultati pressochè identici e ad "alta fedeltà". Alex brollo (disc.) 16:42, 12 mag 2016 (CEST)[rispondi]

──────────────────────────────────────────────────────────────────────────────────────────────────── Accetto il discorso della qualità, ma credo che la direzione della soluzione sia sbagliata. Nel senso non tecniclo, ma politico-sociale: secondo me non possiamo pensare che la soluzione sia dare altro lavoro a Xavier o Alex. Se fosse così, peggioreremmo ulteriormente la situazione di un progetto già "difficile". La soluzione deve essere condivisa e discussa con tutti gli altri: con i francesi, con Tpt che gestisce il tool IA Upload, con tutti quanti. Altrimenti abbiamo perso in partenza, IMO. Proverò a scrivere in lista. Aubrey (disc.) 19:28, 12 mag 2016 (CEST)[rispondi]

Cioè, quale processo avete usato? In particolare, siete partiti dai TIFF o dai JP2? Nemo 20:08, 12 mag 2016 (CEST)[rispondi]

Inversione di pagine

Ciao a tutti, mi trovo 2 pagine ancora da creare invertite cioè:

  1. [la pagina djvu 282] deve essere pag. 271 del testo;
  2. [la pagina djvu 283] deve essere pag. 272 del testo.

Gentilmente che è la pia persona che può invertirle? Grazie e buona giornata. --Stefano mariucci (disc.) 06:29, 11 mag 2016 (CEST)[rispondi]

@Stefano mariucci Stasera te lo faccio, se nessuno interviene prima. --Alex brollo (disc.) 10:28, 11 mag 2016 (CEST)[rispondi]
@Stefano mariucci Non ho dimenticato ma non ho avuto ancora tempo.... :-( --Alex brollo (disc.) 10:33, 12 mag 2016 (CEST)[rispondi]

Manoscritto "La città del sole" di Tommaso Campanella

La Biblioteca comunale di Trento possiede un manoscritto del 1602 con il testo dell'opera di Tommaso Campanella "La città del sole". Il manoscritto è particolarmente prezioso, per il fatto di essere coevo alla prima edizione dell'opera. Se ne parla in questo articolo [16]. Vorremmo contribuire a una serie di iniziative sull'Utopia, che si tengono in Trentino per tutto il 2016, con la digitalizzazione e il caricamento su Wikisource di questo manoscritto. Ho caricato su Commons una pagina perché si possa qui capire meglio di cosa si tratta [17] La volontaria di servizio civile che lavora in biblioteca, @Susan bibtn, insieme naturalmente a chi della comunità ha voglia di farlo, potrebbe occuparsi della trascrizione, anche con l'aiuto di altre edizioni trascritte. Non ho ben chiare però alcune cose: intanto, se è utile/interessante per Wikisource avere questa edizione dell'opera in formato manoscritto (ne esistono altre tre versioni ottocentesche); poi non mi pare di avere visto altri manoscritti in Wikisource e dunque non so se sia il posto giusto in cui metterlo; infine, non ho idea di quali problemi tecnici possiamo incontrare. Sarei felice di un vostro parere. Grazie --EusebiaP (disc.) 13:45, 11 mag 2016 (CEST)[rispondi]

Qualche manoscritto c'è anche su wikisource. La qualità grafica dell'immagine è magnifica; previa verifica che la conversione in pdf multipagina (con gli opportuni parametri di risoluzione/compressione) non la rovini per nulla, io il manoscritto lo caricherei su Commons. Può essere utile, anche solo per utilizzare qualche immagine sia su wikipedia, che su altri progetti (wikiquote, wikiversity....) e chissà, forse anche su wikisource, il confronto fra manoscritto e stampa coeva sarebbe molto interessante, e si potrebbe tecnicamente eseguire uno "split dopo match manuale". --Alex brollo (disc.) 10:38, 11 mag 2016 (CEST)[rispondi]
Data la particolarità dell'opera, sono d'accordo anche io con Alex che si possa caricare direttamente su Commons, per non perdere le sfumature di una bella immagine (nulla vieta anche di caricarla su Archive, ci mancherebbe: solo, l'immagine che noi vogliamo usare deve essere la più bella possibile). Non credo ci siano conflitti per il caricamento di un manoscritto su Wikisource: l'unica difficoltà sarà rileggerlo :-D Aubrey (disc.) 17:13, 11 mag 2016 (CEST)[rispondi]
Questa è una grande notizia, non possiamo che essere felici dell'inziativa e della preferenza verso il nostro progetto. I manoscritti sono oggetti affascinanti, qui un altro esempio favoloso in corso di trascrizione (nello specifico, il testo pone alcuni problemi di varianti, puntualmente segnalate e trascritte diplomaticamente, ma rappresentate in Ns0 in modo chiaro e facilmente fruibile, esempio qui). Per cose di questo tipo, lo dico chiaramente, non accetto alcun tipo di compressione o formato di covenienza: per me vale sempre la migliore immagine possibile da caricare su Commons (disponibile immediatamente a offrire il mio tempo per la lavorazione offline e il caricamento e la trascrizione). P.S. Se (vi fidate di noi e non di IA) non volete occuparvi della ricomposizione del testo in pdf o altro formato, potete condividere una cartella zip con dentro i tiff o i jpg delle singole pagine alta risoluzione, al resto, anche caricamento su commons, pensiamo noi. --Xavier121 17:42, 11 mag 2016 (CEST)[rispondi]
Grazie a tutti. Il manoscritto è ancora da fotografare, possiamo fare dei tiff o jpg ad alta risoluzione e caricarli su Commons; per tutto ciò che riguarda Wikisource invece avremo certamente bisogno del vostro aiuto un po' perché non siamo così esperte, ma anche perché è un testo particolare per cui le nostre conoscenze "di base" di Wikisource non sono sufficienti. Grazie per la vostra disponibilità, quando avremo le immagini torno qui ad avvisarvi--EusebiaP (disc.) 19:44, 12 mag 2016 (CEST)[rispondi]
@EusebiaP Se possiamo permetterci, vi consigliamo di non caricare direttamente le singole pagine su Commons; se proprio dovete fatelo su IA in una cartella zip: esiste una procedura specifica. Altrimenti, preparate la cartella con i file tiff o jpg alta risoluzione e, prima di fare altro, contattateci :) --Xavier121 20:02, 12 mag 2016 (CEST)[rispondi]

Il Corpus ladino

Grazie all'impegno di Cristian Cenci, (coordinatore per il Trentino-Alto Adige di Wikimedia.it) e l'aiuto di Eusebia l'Istituto Ladino di Vigo di Fassa ha espresso la disponibilità a rendere per noi utilizzabile il Corpus ladino che raccoglie in particolare i testi delle province di Trento e Belluno (Fassa, Fodom, Ampezzano) L'Istituto di Vigo è anche editore della rivista Mondo Ladino di cui diverse annate sono digitalizzate e bisogna per prima cosa sapere se esiste analoga volontà di concederci anche tali testi. E' sicuramente prioritario trovare il modo di ufficializzare la disponibilità dell'Istituto e creare criteri certi su quali siano i testi che possiamo caricare su wikisource. Ad esempio: le saghe ladine tradizionali sono risalenti ai secoli passati e sono state raccolte da Hugo De Rossi, che è morto nel 1940 (Il Wolf ne ha fatta una trasposizione romanzata, molto fortunata editorialmente che è coperta da diritto d'autore). Il testo del De Rossi è stato poi pubblicato su Mondo Ladino con una edizione critica particolarmente accurata a cura di Ulriche Kindle. Per fare una versione proofread non basta disporre del testo che è sicuramente P.D., ma anche del consenso dell'editore dell'edizione cartacea.

Sulla scia, si potrà arrivare anche alla definizione dei rapporti con l'Istituto Ladino di Borca di Cadore e con la Sezione ladina dell'Università di Bressanone.

Quelli fin qui esposti sono compiti soprattutto di Wikimedia.it, ma ci sono tanti aspetti che sono propri della comunità di Wikisource: aprire un progetto che sia coordinato con quello romancio, definire gli argomenti , decidere se mantenere il fassano in una sola categoria o suddividerlo in tre idiomi. L'importante è iniziare ed iniziare bene.

Il mettere a disposizione in un sito facile da consultare come è Wikisource un Corpus completo del ladino letterario, soprattutto se inserito in un progetto complessivo delle lingue retoromanze, può contribuire a far conoscere una letteratura che in passato è stata particolarmente ricca e, indirettamente aiutare a salvare una lingua che ha un numero molto ristretto di locutori, per di più suddivisi in almeno 5 idiomi differenti--Mizar (ζ Ursae Maioris) (disc.) 05:32, 12 mag 2016 (CEST)[rispondi]