Discussioni progetto:Trascrizioni/Archivio/1: differenze tra le versioni

Contenuti della pagina non supportati in altre lingue.
Da Wikisource.
Contenuto cancellato Contenuto aggiunto
Riga 199: Riga 199:


: Agli ordini capitano, ormai è giunto il momento, :D '''[[Utente:Xavier121|<span style="color:orange;">X</span><span style="color:black;">avier</span>]][[Discussioni_utente:Xavier121|<span style="color:orange;">1</span><span style="color:black;">21</span>]]''' 11:21, 5 gen 2010 (CET)
: Agli ordini capitano, ormai è giunto il momento, :D '''[[Utente:Xavier121|<span style="color:orange;">X</span><span style="color:black;">avier</span>]][[Discussioni_utente:Xavier121|<span style="color:orange;">1</span><span style="color:black;">21</span>]]''' 11:21, 5 gen 2010 (CET)
:: Giustissimo che dopo un commento ''dotto'' ci fosse un commento ''brontolo'' :-D
:: Giustissimo che dopo un post ''dotto'' ci fosse un post ''brontolo'' :-D
:: Aggiunto un commento ''gongolo'', ossia scherzoso: mi impegno formalmente a dare un contributo all'iniziativa, spargendo ulteriori template nuovi in ogni dove --[[Speciale:Contributi/193.43.176.29|193.43.176.29]] 13:34, 8 gen 2010 (CET)
:: Aggiunto un commento ''gongolo'', ossia scherzoso: mi impegno formalmente a dare un contributo all'iniziativa, spargendo ulteriori template nuovi in ogni dove! --[[User:Alex brollo|Alex brollo]] ([[User talk:Alex brollo|disc.]]) 13:36, 8 gen 2010 (CET)

Versione delle 14:36, 8 gen 2010

Il bar del progetto Trascrizioni: discussioni generali

Categoria: Discussioni del progetto TrascrizioniPortale progetti   Progetto trascrizioni   Bar del progetto Trascrizioni 

Benvenuti nel Bar del progetto Trascrizioni, dove si ritrovano i wikisourciani interessati alla procedura proofread (la trascrizione di un testo con immagini delle pagine a fronte).

Questo luogo è un punto d'appoggio del Progetto Trascrizioni, in cui si possano porre domande, inserire comunicazioni e coordinare il lavoro tra gli utenti interessati al progetto.

Il Bar dispone di due salette separate, la Saletta del Benvenuto, dove possono ritrovarsi in santa pace gli utenti meno esperti, e in particolare quelli appena arrivati per bere qualcosa di forte e riprendersi dallo shock, e l'Atelier del medioevalista, per gli appassionati di testi antichi e per chi se ne è trovato uno per le mani per caso. L'ultima delle salette specializzate, aperta nei primi giorni del marzo 2009, è la Stamperia, per raccogliere le idee, scambiare esperienze e organizzare i lavori sulla nuova, e ancora sperimentale, applicazione per trasformare i nostri libri in veri libri virtuali PDF o OpenDocument Text.

Per argomenti di carattere più generale è meglio rivolgersi al Wikisource:Bar.

Archivi discussioni

Link pagine->versione testuale

Al momento, esiste il link versione testuale -> pagina sorgente (attraverso il tl|Pagina) ma non esiste un link pagina sorgente -> versione testuale.

Ho implementato sperimentalmente in Pagina:Narcissa.djvu/3 tale link con queste operazioni:

  1. creazione di un'ancora con il tl § sulla pagina (nel caso, essendo un poemetto, ancorandolo al primo verso, con il codice: {{§|numero pagina|verso}})
  2. aggiunta di un tl|AltraVersione nell'intestazione non transclusa (nel caso, ho aggiunto {{AltraVersione|http://it.wikisource.org/wiki/Narcissa#3|Versione testuale}} subito dopo al tag <div class="pagetext"> dell'intestazione).

Nei casi "semplici", come Narcissa, in cui la versione testuale è costituita da una pagina singola, questo completa la procedura. Nei casi, invece, in cui la versione testuale è divisa in capitoli, il link all'interno del tl AltraVersione deve puntare sul capitolo specifico; questo è fattibile via bot scorrendo il codice della versione testuale e estraendo i tl|Pagina compresi dal capitolo, ricavandone l'elenco delle pagine Pagina: a cui aggiungere il link corretto.

Prima di procedere alla preparazione di un ulteriore script interattivo di Alebot, che potrebbe svolgere completamente l'intera procedura in tutti i casi, chiedo la vostra opinione sullo sporco trucco. --Alex brollo (disc.) 11:59, 6 lug 2009 (CEST)[rispondi]

Raccolte di opere

Con Indice:Opere di Giovan-Batista Gelli.djvu si pone ancora un vecchio problema: la "resa testuale" di un testo stampato che raccoglie opere distinte di un autore (e si porrà il caso di testi che raccolgono opere distinte di diversi autori). Io proporrei di creare comunque una versione testuale del testo come sta, costituito per ora dal solo indice, riservandoci di decidere in un secondo momento quali voci dell'indice devono puntare su sottopagine della pagina principale, e quali voci invece devono puntare su pagine principali costituite dalle singole opere. Proverei proprio con Opere di Giovan-Batista Gelli - non escludo qualche problema nei sistemi di indicizzazione, ma fin che non si prova... --Alex brollo (disc.) 11:15, 13 lug 2009 (CEST)[rispondi]

Anzi: piuttosto che proporlo, lo faccio. Al massimo, si cancellerà o sposterà qualche pagina. --Alex brollo (disc.) 11:26, 13 lug 2009 (CEST)[rispondi]

Nuova assegnazione SAL per pagine: "Senza testo"

Magari è passato sotto silenzio, ma se si apre in modifica una pagina proofread ci si accorgerà che i pulsanti per lo stato di avanzamento dei lavori sono diventati cinque!

il primo di tutti è senza alcuna icona e, è nuovo e serve a indicare le pagine senza testo: sarebbe l'evoluzione del template:pagina bianca. Il vantaggio di tale situazione è che questo contrassegno esclude la pagina dal proofreading, vale a dire che non rende necessario che almeno due utenti guardino tale pagina.

Questa innovazione ha due implicazioni operative:

  • Con un bot occorrerebbe sostituire tutti i template pagina bianca contrassegnando le pagine che li contengono come pagine senza testo
  • Occorrerebbe modificare il sistema di javascript che associano a un livello di SAL le varie iconette per associare l'icona a tale status.

Per il primo caso mi serve un botolatore, per il secondo dovrò studiarmi un po' di fogli di stile e di javascript.

Ovviamente chi è interessato può darmi una mano... - εΔω 09:05, 18 ago 2009 (CEST)[rispondi]

Me ne ero accorto... e non escluderei di aver rollbackato o "corretto" :(
Adesso rivedo criticamente. --Alex brollo (disc.) 21:07, 18 ago 2009 (CEST)[rispondi]
OK ci sono. Il codice della pagina, come lo vede il bot, è:
<noinclude>{{PageQuality|0|Alex brollo}}<div class="pagetext">
  
  
</noinclude><noinclude>
<references/></div></noinclude>
e quindi la chiave è il codice {{PageQuality|0|Alex brollo}} conficcato nell'header. In teoria l'elenco delle pagene vuote dovrebbe stare nel "Puntano qui" di tl|pagina bianca, vediamo... sono 271 pagine, di cui ho la lista. Posso far partire Alebot quando vuoi. Allora, ho capito bene? Si tratta di sostituire il PageQiality esistente con {{PageQuality|0|Alebot}}, ed eventualmente, per pulizia, di eliminare anche tutto quello che c'è nella parte testo della pagina (inp particolare il template Pagina vuota). OK? --Alex brollo (disc.) 21:30, 18 ago 2009 (CEST)[rispondi]

Cenni sul caricamento via bot di testi nel nsPagina

Il caricamento di testi sul nsPagina può essere fatto via bot, e quando riesce, dà una gran soddisfazione.

Prerequisito è che all'interno del testo ci sia un chiaro "segnale" del punto di inizio pagina, e che questo segnale sia esattamente allineato con il contenuto del file djvu che verrà presentato a fronte.

I testi da LiberLiber (versione txt) ce l'hanno "forte e chiaro", e questo, ad esempio, ha consentito di caricare Zibaldone. I testi da Internet Archive (versione txt) ce l'hanno invece incompleto e confuso, essendo semplicemente il risultato della scansione nel numero pagina, con moltissimi errori: una cosa da verificare attentamente a mano. Al contrario, su Internet Archive il segnale è chiarissimo all'interno della versione djvu.xml del testo; ma il file è di una complessità tremenda, se usato a mano, perchè "mappa" le singole parole con le coordinate in pixel all'interno delle singole pagine. Per uso "umano" questo file è totalmente inutilizzabile, occorre disporre di un "estrattore" che ripeschi le singole parole, estraendole dal maragma xml, e le ricucia in pagine. E io me ne sono costruito uno.

I testi in qualsiasi formato immagine, organizzato pagina per pagina, passati a un OCR dall'utente, penso che non diano problemi, in quanto il programma OCR li organizza, suppongo, in pagine (non dispongo di questi programmi, non ne so quasi nulla).

In tutti i casi in cui si dispone di un testo continuo, senza alcun segnale di inizio-fine pagina, il segnale tocca infilarlo a mano. E' quello che faticosamente sto facendo su Zibaldone, al momento lavoro al Volume V.

Infilato il segnale di inizio pagina, uno script python può "segmentare" il testo in pagine, e può eseguire le ulteriori elaborazioni preliminari al caricamento. Si tratta - in genere - della conversione di codifica, cosa assai esoterica che mi ha a lungo dato grattacapi. Occorre infatti trasformare la codifica del testo in input in Unicode, e la manovra giusta da fare dipende dalla codifica utilizzata nel testo che si è segmentato.

Io ho utilizzato script python "do it yourself" per "battere" tutte queste strade, ma uso script "personali", non nel senso che ne sia geloso, ma che sono poco generalizzati, poco documentati, e quindi inutilizzabili per utenti che non siano me stesso. Per generalizzare il loro uso, occorerebbe innanzitutto mettersi d'accordo sul "segnale di inizio pagina", e poi crere un gruppetto di utilizzatori che usi le versioni alfa (abbozzi di prova), e poi le versioni beta (script che potrebbero anche essere "definitivi") degli script, per evitare il famoso rischio "ogni scarafone".

Se c'è qualcuno interessato, sarei ben contento di condividere tutti gli script che ho, e di raffinarli... prerequisito: una conoscenza (anche ultra-elementare) di python. --Alex brollo (disc.) 09:37, 29 ago 2009 (CEST)[rispondi]

Aggiungo... esiste pagefromfile.py (linkato in meta:Using_the_python_wikipediabot#Scripts), ma a un primo sguardo preferisco gli sctipt miei, che "masticano" tranquillamente testi di centinaia di pagine. --Alex brollo (disc.) 14:48, 31 ago 2009 (CEST)[rispondi]
Novità: nella nuova estensione proofread, dovrebbe essere previsto il caricamento automatico dell'eventuale testo integrato nel file djvu. Tale testo dovrebbe essere presente e utilizzabile nei file djvu di Internet Archive. Non ho ancora avuto occasione di verificare: qualcuno ha provato? --Alex brollo (disc.) 14:23, 7 ott 2009 (CEST)[rispondi]

Sillabo

Cari amici,

ho un dilemmuccio prima di fare un lavoraccio per nulla

Abbiamo Indice:Sillabo.djvu. Queste pagine sono transcluse in Sillabo mentre in Con quanta cura (enciclica) - Sillabo/Sillabo c'è ancora il testo e non la transclusione delle pagine. Dato che volevo trasformare il primo in rinvio al secondo si pone un problema, dato che il secondo è diviso in tante pagine quanti sono i capitoli del Sillabo. Qual è la strategia migliore? Io vedo due scenari, poi ditemi voi...

  • Il più brutale: tengo il testo del Sillabo (come è ora Sillabo) unito in una sola pagina e cancello i vari capitoli in cui è stato inizialmente diviso.

Per amor di citazione dovrei trovare comunque la maniera di rendere ancorabili i vari capitoli.

  • Inserisco nel testo da transcludere i tag section che richiamerò nei vari capitoli... lavoraccio!

La seconda soluzione è la più carina tecnicamente, ma prima di sottopormi a un tour de force vedete altre soluzioni? - εΔω 12:23, 8 set 2009 (CEST)[rispondi]

Cancellare contenuto Sillabo e inserire redirect a Con quanta cura (enciclica) - Sillabo/Sillabo? --Xavier121 13:22, 8 set 2009 (CEST)[rispondi]
✔ Fatto - εΔω 16:33, 8 set 2009 (CEST)[rispondi]

Bug che ci riguarda

C'è un bug (corretto nella versione del software più recente, ma non ancora implementata qui) dell'estensione ProofRead che mi ha fatto impazzire. In pratica, al momento del salvataggio della pagina viene inserito erroneamente un carattere di acapo fra la fine del testo della pagina Pagina e il "footer". Questo crea sottili problemi nella transclusione nel caso che le pagine finiscano a metà di un paragrafo.

Quindi: non impazzite se qualcosa non funziona nella transclusione e vi compare nel testo trascluso un acapo misterioso che resiste a ogni tentativo di correzione... magari mettete qui il link alla pagina incriminata, la correggerò via bot non appena il problema si sarà risolto. --Alex brollo (disc.) 14:18, 7 ott 2009 (CEST)[rispondi]

Mezz'ora fa, dopo una chiacchierata con Edo, mi sono reso conto che il bug è stato corretto. Ho scatenato Alebot, che sta sistemando le pagine di Indice:Zibaldone di pensieri I.djvu. Nel frattempo controllo la situazione sul volume VII. Segnalatemi altri Indici che necessitano di una ripulita! --Alex brollo (disc.) 23:57, 14 ott 2009 (CEST)[rispondi]

Senofonte

Sto lavoricchiando a due opere di Senofonte abbandonando temporaneamente il mio ruolo di aiutante di Alebot. Ho incontrato vari problemi che pongono svariati interrogativi... il primo è la qualità della traduzione settecentesca: la costruzione dei periodi è così intricata che rende certi passaggi quasi incomprensibili. Il secondo, una serie di seri problemi della relazione "molti a molti" (il testo originale raccoglie opere di due autori diversi, e di uno, Senofonte, raccoglie più opere).Il terzo è che ho l'impressione che il traduttore sia caduto in qualche trabocchetto della lingua greca o abbia interpretato con una certa libertà... parla di staffili e staffe, ad esempio, quando mi risulta che avebbero dovuto trascorrere quasi 1000 anni prima della loro scoperta...

Comunque, ho trascrirtto fedelmente il testo; chiedo l'aiuto di chi conosce abbastanza greco da scovare nella wikisource greca, se ci sono, le due opere su cui sto lavorando per aggiungere l'interlink. Io ho interlinkato la versione francese, che pare più fedele (niente staffe....); sulla source inglese purtroppo le due opere non sono ancora trascritte.

Ledue opere da interlinkare con la versione greca sono Dell'arte di cavalcare e Del carico del generale della cavalleria. Grazie! --Alex brollo (disc.) 00:24, 25 nov 2009 (CET)[rispondi]

Caro Alex,

Quanto all'interlink il testo greco di ambo le opere per ora è solo presso il Progetto Perseus 1 e 2. Lì tra l'altro c'è anche una traduzione inglese. Appena posso proverò a leggere degli scampoli della traduzione italiana per capire cosa abbia combinato il nostro traduttore, ma che i traduttori meno accorti tendano ad attualizzare anche a sproposito non è certo una fatto sporadico che riscontro spesso anche nelle correzioni di compiti in classe. Lungi da me e da chiunque correggere la traduzione d'autore. Semmai in pagina di discussione potrai profonderti in commenti e supposizioni. Sul secondo problema avrema da discustere con più calma. - εΔω 01:32, 25 nov 2009 (CET)[rispondi]

Me ne guarderò bene dal "profondermi". Alla fine ho capito: wikisource è una fonte, e restituisce un testo maneggevole, facilmente utilizzabile, e molto fedele, per chiunque altrove voglia utilizzarlo secondo le sue possibilità e i suoi interessi. Nella rilettura, annoterò i passi in cui l'italiano è incomprensibile, ho visto che spesso, rileggendo più volte, in giorni diversi, il significato poi emerge... per i casi più disperati chiederò aiuto. Grazie! --Alex brollo (disc.) 18:07, 25 nov 2009 (CET)[rispondi]
Su el.source un utente mi ha incoraggiato a inserire le due opere da Perseus... Vediamo se ne viene fuori un AM ("Sembrava impossibile, ma ce l'abbiamo fatta") ;-) --Alex brollo (disc.) 09:05, 26 nov 2009 (CET)[rispondi]
Primi timidi tentativi su una sandbox: el:User:Alex brollo/1. Ma poi ho pensato che posso usare anche una sandbox "nostrana"... lo farò. --Alex brollo (disc.) 11:01, 26 nov 2009 (CET)[rispondi]

Senofonte II

Finita la trascrizione delle due opere di Senofonte che mi interessavano, dopo una rapida incursione su el.source sono comparsi là i due originali in greco, tratti da Perseus. Mi domando se fosse accettabile una leggera integrazione di formattazione,rispetto all'originale (senza modificare il testo) anche qui su it.source, per renderlo più facilmente confrontabile con l'originale. Se mi date l'OK potrei ideare qualche trucco per rendere visibile tale formattazione aggiuntiva solo nella versione testuale mediante il solito bravo tl|Pt o analogo.

  1. divisione del testo in sezioni, come su Perseus
  2. numerazione delle sotto-sezioni, come su Perseus e quindi su el.source

Che ne dite? date un'occhiata a el:Ιππαρχικός e confrontatela con Del carico del generale della cavalleria (in questo caso la visualizzazione a fronte proprio non funziona) o a el:Περὶ Ἱππικῆς e Dell'arte di cavalcare (qui funziona, ma occorrerebbe la suddivisione in sezioni e sotto-sezioni).--Alex brollo (disc.) 00:38, 28 nov 2009 (CET)[rispondi]

Di sto, ma precisiamo un paio di punti:
su Perseus la frammentazione in microsezioni è sistematica e fissa, a volte anche indipendentemente dalle sezioni del testo stesso, dunque non ne seguirei l'esempio.
Sulla seconda soluzione sono moderatamente favorevole ma dato che potremmo creare un precedente potenzialmente pericoloso desidero che un numero congruo di partecipanti dia il suo assenso per poter invocare il consenso a questa eccezione. - εΔω 10:46, 28 nov 2009 (CET)[rispondi]
Attendo. Tenete conto che il riferimentonon è direttamente Perseus, ma l'originale el.source, che in questo caso ha importato l'idea Perseus. La formattazione quindi servirebbe, in questo come in altri casi, ad adeguare una versione secondaria source con la versione originale source, quando presente, rendendo molto più agevole ed efficace l'interlinking. --Alex brollo (disc.) 13:40, 28 nov 2009 (CET)[rispondi]
Pensandoci bene: nulla impedisce (se gli amici di el.source sono d'accordo) di fare una "buona" suddivisione in microsezioni su el.source e di riprenderla qui. Tuttavia la suddivisione Perseus sarebbe più facile da seguire, per me, perchè la traduzione inglese farebbe da "stele di Rosetta". --Alex brollo (disc.) 18:01, 28 nov 2009 (CET)[rispondi]

Aiuto per pagina principale

Cari amici,

sto meditando su come porre in evidenza in pagina principale qualche opera che ricada in questo progetto. Ho pensato a questo: possiamo richiedere la rilettura di opere al 75% Siccome l'attuale SAL funziona per le singole pagine ma solo parzialmente per gli indici, che ne direste se tappassimo questo buco?

Il lavoro è già iniziato: in alcuni indici il template:Qualità è stato posto. Poniamolo in tutti secondo la tabella qui proposta e creiamo un elenco di opere al 75% —non saranno certo molte— Un elenco così, mantenuto in una pagina apposita (che so, una a caso come Wikisource:Aiuta Wikisource) sarebbe un bel richiamo. - εΔω 17:06, 5 dic 2009 (CET)[rispondi]

Proposta per trascrizioni inverse

Cari amici,

L'elenco dei testi per le trascrizioni inverse è ora in ordine alfabetico, ma la necessità di vedere le note per capire a che punto è un lavoro è operativamente controproducente: propongo una ristrutturazione dell'elenco ordinando i testi per stato di avanzamento dei lavori

  1. Edizioni Wikisource: quelli finiti e sistemati(ora in fondo)
  2. Testi al 75%: quelli solo da rileggere
  3. i veri testi "da trascrizione inversa" cioè quelli con versione testuale completa e pagina indice ma senza versione testuale
  4. i testi con versione testuale completa ma senza indice
  5. i testi con versione testuale, proofread o indice mancanti

Il vero elenco sarebbe quello delle ultime tre categorie. È troppo complicato? Si può semplificare? Se non ricevo feedback procedo domani. - εΔω 19:07, 14 dic 2009 (CET)[rispondi]

Tips & tricks

Una furiosa galoppata nel magico mondo dei template Intestazione mi ha dato l'opportunità di innumerevoli "incastramenti" e per evitare ad altri cefalee vi elenco alcuni dei miei errori, così voi li schivate.

tag noinclude, includeonly, onlyinclude

Mi sono scervellato per trovare il trucco per transcludere una pagina in modo che conservi questi tag nel codice transcluso. Dopo innumerevoli tentativi mi sono deciso a entrare in #wikisource e ho interpellato l'oracolo ThomasV. La sua risposta: "You cannot". Breve e chiara. ;-)

tag onlyinclude

Nel corso della transclusione di una pagina ha un bellissimo effetto: "marca" l'unica parte della pagina che va transclusa, ma ne permette comunque la visualizzazione diretta (e quindi è diverso da includeonly, che marca un'area che va solo inclusa e non visualizzata!). Questo mi ha consentito, in Testo di prova, un trucco magico: esattamente come siamo abituati a fare nelle pagine discussione per l'infotesto, a ottenere un tl Intestazione per le pagine delle sezioni/capitoli semplicemente transcludento l'intera pagina principale, dove il tl Intestazione è marcato con tag onlyinclude. Problema: il tag viene valutato immediatamente... agisce comunque, anche se è messo dentro tag nowiki e addirittura dentro tag di commento html. Il che è inatteso e può causare cefalee da debugging.

tag section

Immaginate che ci siano due section, una '''<section begin=autore ignoto />''' e una <section begin=autore />. Aimè, transcludendo la sezione chiamata autore il sistema trova anche la section '''<section begin=autore ignoto />. Il problema si risolve usando le virgolette: se ci sono spazi dentro il nome della section, scrivete '''<section begin="autore ignoto" /> e risparmierete una seconda cefalea.

Appello ai trascrittori esperti

Cari amici,

dopo il dotto post di Alex volo molto più basso, e porto un'esperienza assai terra terra:

Ieri Didimo69 mi chiese come sezionare una pagina in due parti perché andassero transcluse in due capitoli diversi.

Provai a spiegarglielo, rendendomi conto così che non c'è alcun aiuto per queste operazioni ormai consuete in fase di trascrizione.

Facciamo altri esempi? eccoli:

  • Come fare con le note che proseguono nella pagina successiva?
  • Come fare per le parole spezzate a cavallo di pagina?
  • Come formattare un titolo con centrature e dimensioni enormi?
  • Come usare i tag poem con le poesie che continuano per più pagine?

E mi fermo perché queste sono solo tre delle problematiche più ricorrenti.

Occorre una "guida per il trascrittore" for the rest of the world, non per noi. Siccome il futuro è nelle trascrizioni è meglio che ne poniamo le basi ora.

In secondo luogo, prima che passi troppo tempo, è bene porre in una sezione apposita del progetto l'elenco dei template usati nelle trascrizioni (da {{titolo}} a {{pt}}: qualcosa mi dice che essi sono più di quelli che si creda a un primo sguardo, e che sono destinati ad aumentare.

Io non sono l'utente più adatto, dato che il progetto mi riguarda più tangenzialmente di quanto appaia: mi piacerebbe se Xavier si occupasse di questo. - εΔω 10:39, 5 gen 2010 (CET)[rispondi]

Agli ordini capitano, ormai è giunto il momento, :D Xavier121 11:21, 5 gen 2010 (CET)[rispondi]
Giustissimo che dopo un post dotto ci fosse un post brontolo :-D
Aggiunto un commento gongolo, ossia scherzoso: mi impegno formalmente a dare un contributo all'iniziativa, spargendo ulteriori template nuovi in ogni dove! --Alex brollo (disc.) 13:36, 8 gen 2010 (CET)[rispondi]