Discussioni progetto:Trascrizioni

Da Wikisource.

 

Il bar del progetto Trascrizioni: discussioni generali

Nuvola filesystems folder open.png Categoria: Discussioni del progetto TrascrizioniPortale progetti  Nuvola apps noatun.png Progetto trascrizioni  Nuvola apps noatun.png Bar del progetto Trascrizioni 

Benvenuti nel Bar del progetto Trascrizioni, dove si ritrovano i wikisourciani interessati alla procedura proofread (la trascrizione di un testo con immagini delle pagine a fronte).

Questo luogo è un punto d'appoggio del Progetto Trascrizioni, in cui si possano porre domande, inserire comunicazioni e coordinare il lavoro tra gli utenti interessati al progetto.

Il Bar dispone di due salette separate, la Saletta del Benvenuto, dove possono ritrovarsi in santa pace gli utenti meno esperti, e in particolare quelli appena arrivati per bere qualcosa di forte e riprendersi dallo shock, e l'Atelier del medioevalista, per gli appassionati di testi antichi e per chi se ne è trovato uno per le mani per caso. L'ultima delle salette specializzate, aperta nei primi giorni del marzo 2009, è la Stamperia, per raccogliere le idee, scambiare esperienze e organizzare i lavori sulla nuova, e ancora sperimentale, applicazione per trasformare i nostri libri in veri libri virtuali PDF o OpenDocument Text.

Per argomenti di carattere più generale è meglio rivolgersi al Wikisource:Bar.

Archivi discussioni

Indice

[modifica] Link pagine->versione testuale

Al momento, esiste il link versione testuale -> pagina sorgente (attraverso il tl|Pagina) ma non esiste un link pagina sorgente -> versione testuale.

Ho implementato sperimentalmente in Pagina:Narcissa.djvu/3 tale link con queste operazioni:

  1. creazione di un'ancora con il tl § sulla pagina (nel caso, essendo un poemetto, ancorandolo al primo verso, con il codice: {{§|numero pagina|verso}})
  2. aggiunta di un tl|AltraVersione nell'intestazione non transclusa (nel caso, ho aggiunto {{AltraVersione|http://it.wikisource.org/wiki/Narcissa#3|Versione testuale}} subito dopo al tag <div class="pagetext"> dell'intestazione).

Nei casi "semplici", come Narcissa, in cui la versione testuale è costituita da una pagina singola, questo completa la procedura. Nei casi, invece, in cui la versione testuale è divisa in capitoli, il link all'interno del tl AltraVersione deve puntare sul capitolo specifico; questo è fattibile via bot scorrendo il codice della versione testuale e estraendo i tl|Pagina compresi dal capitolo, ricavandone l'elenco delle pagine Pagina: a cui aggiungere il link corretto.

Prima di procedere alla preparazione di un ulteriore script interattivo di Alebot, che potrebbe svolgere completamente l'intera procedura in tutti i casi, chiedo la vostra opinione sullo sporco trucco. --Alex brollo (disc.) 11:59, 6 lug 2009 (CEST)

[modifica] Raccolte di opere

Con Indice:Opere di Giovan-Batista Gelli.djvu si pone ancora un vecchio problema: la "resa testuale" di un testo stampato che raccoglie opere distinte di un autore (e si porrà il caso di testi che raccolgono opere distinte di diversi autori). Io proporrei di creare comunque una versione testuale del testo come sta, costituito per ora dal solo indice, riservandoci di decidere in un secondo momento quali voci dell'indice devono puntare su sottopagine della pagina principale, e quali voci invece devono puntare su pagine principali costituite dalle singole opere. Proverei proprio con Opere di Giovan-Batista Gelli - non escludo qualche problema nei sistemi di indicizzazione, ma fin che non si prova... --Alex brollo (disc.) 11:15, 13 lug 2009 (CEST)

Anzi: piuttosto che proporlo, lo faccio. Al massimo, si cancellerà o sposterà qualche pagina. --Alex brollo (disc.) 11:26, 13 lug 2009 (CEST)

[modifica] Nuova assegnazione SAL per pagine: "Senza testo"

Magari è passato sotto silenzio, ma se si apre in modifica una pagina proofread ci si accorgerà che i pulsanti per lo stato di avanzamento dei lavori sono diventati cinque!

il primo di tutti è senza alcuna icona e, è nuovo e serve a indicare le pagine senza testo: sarebbe l'evoluzione del template:pagina bianca. Il vantaggio di tale situazione è che questo contrassegno esclude la pagina dal proofreading, vale a dire che non rende necessario che almeno due utenti guardino tale pagina.

Questa innovazione ha due implicazioni operative:

  • Con un bot occorrerebbe sostituire tutti i template pagina bianca contrassegnando le pagine che li contengono come pagine senza testo
  • Occorrerebbe modificare il sistema di javascript che associano a un livello di SAL le varie iconette per associare l'icona 00%.svg a tale status.

Per il primo caso mi serve un botolatore, per il secondo dovrò studiarmi un po' di fogli di stile e di javascript.

Ovviamente chi è interessato può darmi una mano... - εΔω 09:05, 18 ago 2009 (CEST)

Me ne ero accorto... e non escluderei di aver rollbackato o "corretto" :(
Adesso rivedo criticamente. --Alex brollo (disc.) 21:07, 18 ago 2009 (CEST)
OK ci sono. Il codice della pagina, come lo vede il bot, è:
<noinclude>{{PageQuality|0|Alex brollo}}<div class="pagetext">
  
  
</noinclude><noinclude>
<references/></div></noinclude>
e quindi la chiave è il codice {{PageQuality|0|Alex brollo}} conficcato nell'header. In teoria l'elenco delle pagene vuote dovrebbe stare nel "Puntano qui" di tl|pagina bianca, vediamo... sono 271 pagine, di cui ho la lista. Posso far partire Alebot quando vuoi. Allora, ho capito bene? Si tratta di sostituire il PageQiality esistente con {{PageQuality|0|Alebot}}, ed eventualmente, per pulizia, di eliminare anche tutto quello che c'è nella parte testo della pagina (inp particolare il template Pagina vuota). OK? --Alex brollo (disc.) 21:30, 18 ago 2009 (CEST)

[modifica] Cenni sul caricamento via bot di testi nel nsPagina

Il caricamento di testi sul nsPagina può essere fatto via bot, e quando riesce, dà una gran soddisfazione.

Prerequisito è che all'interno del testo ci sia un chiaro "segnale" del punto di inizio pagina, e che questo segnale sia esattamente allineato con il contenuto del file djvu che verrà presentato a fronte.

I testi da LiberLiber (versione txt) ce l'hanno "forte e chiaro", e questo, ad esempio, ha consentito di caricare Zibaldone. I testi da Internet Archive (versione txt) ce l'hanno invece incompleto e confuso, essendo semplicemente il risultato della scansione nel numero pagina, con moltissimi errori: una cosa da verificare attentamente a mano. Al contrario, su Internet Archive il segnale è chiarissimo all'interno della versione djvu.xml del testo; ma il file è di una complessità tremenda, se usato a mano, perchè "mappa" le singole parole con le coordinate in pixel all'interno delle singole pagine. Per uso "umano" questo file è totalmente inutilizzabile, occorre disporre di un "estrattore" che ripeschi le singole parole, estraendole dal maragma xml, e le ricucia in pagine. E io me ne sono costruito uno.

I testi in qualsiasi formato immagine, organizzato pagina per pagina, passati a un OCR dall'utente, penso che non diano problemi, in quanto il programma OCR li organizza, suppongo, in pagine (non dispongo di questi programmi, non ne so quasi nulla).

In tutti i casi in cui si dispone di un testo continuo, senza alcun segnale di inizio-fine pagina, il segnale tocca infilarlo a mano. E' quello che faticosamente sto facendo su Zibaldone, al momento lavoro al Volume V.

Infilato il segnale di inizio pagina, uno script python può "segmentare" il testo in pagine, e può eseguire le ulteriori elaborazioni preliminari al caricamento. Si tratta - in genere - della conversione di codifica, cosa assai esoterica che mi ha a lungo dato grattacapi. Occorre infatti trasformare la codifica del testo in input in Unicode, e la manovra giusta da fare dipende dalla codifica utilizzata nel testo che si è segmentato.

Io ho utilizzato script python "do it yourself" per "battere" tutte queste strade, ma uso script "personali", non nel senso che ne sia geloso, ma che sono poco generalizzati, poco documentati, e quindi inutilizzabili per utenti che non siano me stesso. Per generalizzare il loro uso, occorerebbe innanzitutto mettersi d'accordo sul "segnale di inizio pagina", e poi crere un gruppetto di utilizzatori che usi le versioni alfa (abbozzi di prova), e poi le versioni beta (script che potrebbero anche essere "definitivi") degli script, per evitare il famoso rischio "ogni scarafone".

Se c'è qualcuno interessato, sarei ben contento di condividere tutti gli script che ho, e di raffinarli... prerequisito: una conoscenza (anche ultra-elementare) di python. --Alex brollo (disc.) 09:37, 29 ago 2009 (CEST)

Aggiungo... esiste pagefromfile.py (linkato in meta:Using_the_python_wikipediabot#Scripts), ma a un primo sguardo preferisco gli sctipt miei, che "masticano" tranquillamente testi di centinaia di pagine. --Alex brollo (disc.) 14:48, 31 ago 2009 (CEST)
Novità: nella nuova estensione proofread, dovrebbe essere previsto il caricamento automatico dell'eventuale testo integrato nel file djvu. Tale testo dovrebbe essere presente e utilizzabile nei file djvu di Internet Archive. Non ho ancora avuto occasione di verificare: qualcuno ha provato? --Alex brollo (disc.) 14:23, 7 ott 2009 (CEST)

[modifica] Sillabo

Cari amici,

ho un dilemmuccio prima di fare un lavoraccio per nulla

Abbiamo Indice:Sillabo.djvu. Queste pagine sono transcluse in Sillabo mentre in Con quanta cura (enciclica) - Sillabo/Sillabo c'è ancora il testo e non la transclusione delle pagine. Dato che volevo trasformare il primo in rinvio al secondo si pone un problema, dato che il secondo è diviso in tante pagine quanti sono i capitoli del Sillabo. Qual è la strategia migliore? Io vedo due scenari, poi ditemi voi...

  • Il più brutale: tengo il testo del Sillabo (come è ora Sillabo) unito in una sola pagina e cancello i vari capitoli in cui è stato inizialmente diviso.

Per amor di citazione dovrei trovare comunque la maniera di rendere ancorabili i vari capitoli.

  • Inserisco nel testo da transcludere i tag section che richiamerò nei vari capitoli... lavoraccio!

La seconda soluzione è la più carina tecnicamente, ma prima di sottopormi a un tour de force vedete altre soluzioni? - εΔω 12:23, 8 set 2009 (CEST)

Cancellare contenuto Sillabo e inserire redirect a Con quanta cura (enciclica) - Sillabo/Sillabo? --Xavier121 13:22, 8 set 2009 (CEST)
✔ Fatto - εΔω 16:33, 8 set 2009 (CEST)

[modifica] Bug che ci riguarda

C'è un bug (corretto nella versione del software più recente, ma non ancora implementata qui) dell'estensione ProofRead che mi ha fatto impazzire. In pratica, al momento del salvataggio della pagina viene inserito erroneamente un carattere di acapo fra la fine del testo della pagina Pagina e il "footer". Questo crea sottili problemi nella transclusione nel caso che le pagine finiscano a metà di un paragrafo.

Quindi: non impazzite se qualcosa non funziona nella transclusione e vi compare nel testo trascluso un acapo misterioso che resiste a ogni tentativo di correzione... magari mettete qui il link alla pagina incriminata, la correggerò via bot non appena il problema si sarà risolto. --Alex brollo (disc.) 14:18, 7 ott 2009 (CEST)

Mezz'ora fa, dopo una chiacchierata con Edo, mi sono reso conto che il bug è stato corretto. Ho scatenato Alebot, che sta sistemando le pagine di Indice:Zibaldone di pensieri I.djvu. Nel frattempo controllo la situazione sul volume VII. Segnalatemi altri Indici che necessitano di una ripulita! --Alex brollo (disc.) 23:57, 14 ott 2009 (CEST)
Strumenti personali