Discussioni progetto:Trascrizioni/Atelier

Da Wikisource.
Jump to navigation Jump to search
L'atelier del medievalista

Nuvola filesystems folder blue open.png Categoria: Discussioni del progetto TrascrizioniPortale progetti  Nuvola apps noatun.png Progetto trascrizioni  Nuvola apps noatun.png Il bar del progetto Trascrizioni  Nuvola apps noatun.png Atelier del medioevalista 

Questo spazio è dedicato alla discussione dei problemi che si incontrano nella trascrizione di testi antichi (manoscritti o opere del XV, XVI e XVII secolo) e all'elaborazione di linee guida condivise nell'affrontare questi testi particolarmente difficili. La difficoltà è aumentata dal fatto che l'OCR è del tutto inutilizzabile con questi testi, e generalmente si trovano online le sole immagini delle pagine, da trascrivere manualmente. Ulteriore difficoltà, le differenze ortografiche con l'italiano moderno e la presenza di varianti ortografiche della stessa parola all'interno dello stesso testo, che rendono assolutamente inutilizzabile, perché distruttivo, l'uso di qualsiasi bot ortografico.


(Lista opere antiche)

Alcuni punti da discutere e su cui decidere[modifica]

Al fine da produrre un "indice dei temi" propongo una serie di sottotitoli da sviluppare. Aggiungete tutti gli ulteriori argomenti che non sono elencati. Molti argomenti sono già stati trattati nel Bar Letterario, e nel bar del Progetto Qualità, un link allle discussioni precedenti sarebbe probabilmente opportuno. --Alex brollo (disc.) 11:24, 14 ago 2008 (CEST)

  • Gli errori ortografici/tipografici originali
  • La gestione degli errata corrige originali
  • La gestione delle parole spezzate a fine pagina e delle parole di richiamo alla pagina successiva

Un WIP per cominciare[modifica]

Cari "amici della lampada",

ho iniziato a buttar giù la pagina fatidica. Ora devo scappare, ma almeno qualcosa ora c'è. Ho preso le indicazioni emerse finora e le sto scrivendo un po' con particolari un po' con sintesi. sotto con le riflessioni. - εΔω 18:59, 20 ago 2008 (CEST)

Magnifico. Riorganizzo in una semplice lista i titoli degli argomenti qui sopra e incoraggio la migrazione delle discussioni punto a punto nella pagina discussione di Wikisource:Convenzioni di trascrizione. Grazie Edo. --Alex brollo (disc.) 10:40, 21 ago 2008 (CEST)

Domanda sciocca: cos'è un'edizione wikisource?[modifica]

Cos'è un'edizione wikisource? Lo so che è il massimo livello SAL ma la domanda che mi pongo - anche in relazione alla importante messa a punto di Edo - è: un'edizione wikisource è solo la versione tesuale dell'opera, o anche la corrispondente pagina Indice: e connesse pagine Pagina? Detto altrimenti: le pagine Indice: e Pagina: sono solo degli strumenti usati per costruire la vera edizione wikisource, o sono qualcosa di più?

Se fosse vera la prima, ci potrebbero essere varie e comode opportunità di annotare la versione Indice: e Pagina:... purchè ogni annotazione sia circondata da un bel tag <noinclude> e quindi non compaia affatto nella versione testuale. Esempi:

  • si potrebbero mettere annotazioni nello spazio footer non incluso;
  • si potrebbero inserire tag <ref> purchè circondati da <noinclude>;
  • si potrebbero inserire note in pieno testo (es.: grafia alternativa di una parola fra parentesi) o wikilink a pagine di discussione o altro sempre tra tag <noinclude>.

Rispetto allo statement di Edo (ogni commento va sulla pagina di discussione della pagina) nella bozza del lavoro menzionato nel precedente messaggio, queste soluzioni hanno una immediatezza di evidenza molto maggiore, anche se introducono, ovviamente, un maggior rischio di errore. --Alex brollo (disc.) 10:58, 21 ago 2008 (CEST)

Mmm, credo di capire cosa dici. Il fatto è che le edizioni Wikisource nacquero per fare una salto di qualità rispetto alla semplice rilettura di un testo: si volle affermare che era importante rileggere la stessa edizione cartacea del testo (mentre prima ci si fidava della fonte online- se c'era). Quello che tu dici sarebbe una cosa in più, una sorta di di edizione critica wikisource. Parliamone: ci sono grossi vantaggi ed enormi svantaggi, quindi io sono per discutere per rimanere coerenti a anche aperti alle novità.
L'idea di accogliere user generated content in Wikisource va discussa bene, perchè si tira dietro molte altre questioni, per esempio le traduzioni fatte dagli utenti.
A mio parere ci si può pensare sforzandosi di lascire intatto tuto quello che abbiamo costruito. In questo senso, un NAMESPACE apposito per testi tradotti/testi critici potrebbe essere una buona soluzione. Discutiamo dunque anche sulla struttura, che è parte integrante e fondamentale quanto i principi. Aubrey 11:15, 21 ago 2008 (CEST)
Ma se le pagine Index: e le pagine Pagina: non fossero altro che tools intermedi per costruire la versione testuale, quella di riferimento, ogni aggiunta al loro interno, purchè non inclusa nella "vera" opera wikiwource, non violerebbe il principio "Nessun contributo originale"... non so se usiate molto le aree header e footer nascoste delle pagine Pagina:, ad esempio, su en.wiki sono usate come "garbage collector" senza tanti problemi: ma il loro contenuto è ben visibile, e passato il primo momento di disorientamento ritengo la loro evidenza molto utile.
Mi sono reso conto che la carne al fuoco, anche senza affrontare il tema traduzioni/testi critici, è tanta che sono perfettamente convinto di rimandare un'eventuale discussione sul tema sine die. --Alex brollo (disc.) 12:31, 21 ago 2008 (CEST)
In compenso hai tirato fuori dall'armadio l'ennesima questione generale che non può rimanere inespressa a costo di gravi rischi. L'avvento delle pagine con testo a fronte sembra aver relegato in un angolo le versioni testuali, al punto che mi chiedevo se fosse così necessario creare la pagina principale della versione cartacea dopo aver creato la pagina indice del volume scansionato pagina per pagina. Ebbene, la questione è assolutamente sottovalutata in quanto le versioni testuali sono il luogo dove la "costellazione" di pagine trova una sua forma leggibile copiabile e stampabile in forma unitaria. Ecco, tu in questo intervento mi porti una posizione radicalmente opposta che considera le pagine proofread come un laboratorio, un ring dialettico in cui esercitare edit war e infarcire di <noinclude> ogni lettera (a proposito, le parole contrassegnate con {{?}} compaiono in arancio anche nella versione cartacea dove tale contrassegno non ha significato?), tanto il garbage non compare nella versione testuale? Pensandoci bene non sono convinto che le sezioni di intestazione e pie' di pagina siano state pensate come luogo per note e commenti, quanto come dei "noinclude automatici" in cui inserire intestazioni e annotazioni già presenti nella pagina. Resto dell'idea che è meglio rendere lievissimamente più macchinosa la procedura di critica confinandola alla pagina di discussione e sganciandola fisicamente dal namespace pagina, in modo da non ritrovarci con murales e thread fiammeggianti travestiti da apparato critico. Chiunque ci riderebbe dietro. In definitiva sarei dell'idea di non considerare un namespace "ancillare rispetto all'altro", ma
  • ricordare che il "noinclude" serve per "escludere formattazioni e codice non voluto dalla versione testuale" e non per "aggiungere materiale originale che non si vuole mostrare nella versione testuale"
  • ricordare che la versione testuale è pur sempre quella che presenta il risultato di un gran lavoro compiuto su numerose pagine in un formato consolidato e pratico.- εΔω 16:44, 21 ago 2008 (CEST)
Come piccolo sigillo a latere noto che su Wikinotizie, ogni notizia ha una sua linguetta "opinoni" in cui sparare i propri POV senza toccare la notizia. al limite dotiamoci di un gadget così per le nostre esternazioni critiche.
Le parole in arancio generate da Template:? devono sparire, tutte; i casi peggiori richiederanno la consulenza di un esperto. Il primo template che avevo scritto conteneva al suo interno un tag noinclude proprio per evitare la loro evidenziazione anche nella versione testuale; poi ho dovuto constatare che mettere un noinclude all'interno di un template non è una ottima idea. Volevo approfondire, ma poi mi sono accorto che in fondo era utile vederle anche là, molto più difficile dimenticarsene. :-(
Per quanto riguarda altre note, noticine e commenti OK, pagina di discussione. Lo farò. A malincuore, poco convinto, ma lo farò. --Alex brollo (disc.) 01:03, 22 ago 2008 (CEST)

Dizionario ortografico Firefox "Italiano XVI Secolo" :-)[modifica]

Ho il piacere di dirvi che so come sostituire il dizionario italiano moderno IT-it che corre su Firefox con un qualsiasi lista di parole, tratte da qualsiasi testo txt con la routine che Vandenberg ha chiamato "Python wordlist generator". Una volta attivato, penso che potrebbe essere un utilissimo strumento per evitare gli errori di trascrizione.

I passi da fare sono in sostanza due:

  • creare un nuovo profilo Firefox e caricarci il dizionario italiano;
  • trovare il file it-IT.dic che sta in una directory nascosta (sul mio pc sta in: C:\Documents and Settings\User\Dati applicazioni\Mozilla\Firefox\Profiles\9vdp11mk.Wiki\extensions\it-IT@dictionaries.addons.mozilla.org\dictionaries\it-IT.dic; notare il Wiki in grassetto, è il nome del profilo Wiki che sto usando) ed editarlo. Notate il numero in prima riga: è il numero totale di righe del file, meglio aggiornarlo per bene). E' un semplice file testo, con fineriga "alla linux", ma funziona anche con fineriga DOS. Le parole sono semplicemente elencate in ordine alfabetico, una per riga, "case insensitive".

Interessante anche il file persdict.dat che invece è il "raccoglitore" delle parole aggiunte mediante la funzione "Aggiungi al dizionario" di Firefox.

Si apre la prospettiva di creare (e condividere) vari dizionari specializzati, uno per ogni epoca storica... mi sembra una cosa piuttosto interessante. Ma intanto, visto che siamo nell'Atelier, pensiamo (se lo ritenete interessante) a qualche dizionario per l'italiano del XV-XVI secolo. --Alex brollo (disc.) 23:20, 23 ago 2008 (CEST)

Sorpresa[modifica]

In un forum equestre, ho nominato i tituli, e ho postato l'immagine dei tituli di Corte. La risposta di un'utente è stata testualmente:

Quill-Nuvola.svg
«Oh mamma, quanto ho maledetto quelle abbreviazioni quando studiavo paleografia...»

. Prima che me lo chiediate... si, l'ho invitata immediatamente a bere qualcosa qui. Chissà... ;-) --Alex brollo (disc.) 15:52, 8 set 2008 (CEST)

Trascrizione diplomatica, critica... o ambedue?[modifica]

Essendomi di nuovo avvicinato a un testo antico (1571) mi sono rifatto la antica domanda: trascrizione diplomatica, critica... o ambedue?

Esiste la terza possibilità; esiste in particolare la possibilità - giocando un po' con stili e js - di "marcare", per una parola, varie varianti e visualizzarne una o l'altra con un pulsante. Quindi, lastessa trascrizione potrebbe trasformarsi, con un click, da edizione "diplomatica" a "diplomatica ma con convenzioni di trascrizione" a "critica"; e avendo pazienza non c'è limite al numero di varianti che potrebbero essere "annidate" dentro allo stesso testo. Si potrebbe arrivare facilmente all'impacchettamento, in un unico testo, delle varianti di diverse edizioni.

Che dite: faccio un paio di test di fattibilità? :-) --Alex brollo (disc.) 18:02, 18 gen 2013 (CET)

Non è un lavoro mastodontico Alex? O è cosa che puoi fare via Bot? Lagrande (disc.) 07:33, 19 gen 2013 (CET)
Bella iniziativa, sono interessato a vedere i risultati dei test di fattibilità. --Accurimbono (disc) 09:59, 19 gen 2013 (CET)
E' molto interessante, ma parlane anche con Boschetti, se riesci, dato che è una roba da filologi e lui in Java sa programmare. Magari ti aiuta a disegnare la struttura dell'accrocchio... Aubrey McFato 10:31, 19 gen 2013 (CET)
De minimis non curat praetor... lasciamo Boschetti alle sue cose esoteriche; questa è una cosa semplice.
Template di prova, dal codice banalisssssimo: {{Var}}; mettiamo nel prima parametro la versione diplomatica della parola, nel secondo la versione "espansa" (ossia: secondo le convenzioni di trascrizione), nel terzo la versione "critica" (ortografia attuale). Prendiamo Caual, Caval, Cavallo -> {{Var|Caual|Caval|Cavallo}} e ficchiamo questo codice identico in tre celle di una tabella:
Caual Cavallo Caual Cavallo Caual Cavallo
Il risultato IO lo vedo "giusto", adesso porto il mio css in Common.css così lo vedrete giusto anche voi: purgate, purgate...;-)
Se versione espansa e versione critica corrispondono basta naturalmente dare due soli parametri:{{Var|Caual|Caval}}
Caual Caval Caval Caual Caval Caval Caual Caval Caval
Lascio al lettore la soluzione del problema quando il parametro è uno solo, ossia nei casi in cui le versioni coincidono :-P --Alex brollo (disc.) 11:41, 19 gen 2013 (CET)

Aggiornamento[modifica]

Le righe css sono diventate solo due. L'accrocchio funziona sia in nsPagina (scatta in automatico la visualizzazione diplomatica) che in ns0 (scatta la critica). Questo in totale automatismo, basta applicare il {{Var}}.

Adesso si tratta di costruire un pulsante (meglio: una hot-key) che faccia gran parte del lavoro dell'applicazione di Var. --Alex brollo (disc.) 19:17, 19 gen 2013 (CET)

AIUTO! Un altro template e un'altra complicazione. In questo caso la ritengo necessaria, ma è il caso di guardarsi intorno prima per vedere come si sono regolati francesi e portoghesi in casi simili. So che hanno un sistema per alternare due letture di uno stesso testo in due grafie al clic di un pulsante ma non ho approfondito tale sistema. - εΔω 07:09, 20 gen 2013 (CET)
Nulla in contrario se verrà messa nel lungo (e talora utile) deposito delle idee in sonno. Io intanto continuo a pensare a come costruire il dizionario ortografico DIY, che potrebbe benissimo associarsi a questa idea (e far fare anche un passo avanti all'annosa questione di AutoreCitato). Nella mia zucca vedo una pagina tipo quelle standard (esempio: MediaWiki:Gadgets-definition) che abbia una struttura del genere:
caual=={{Var|caual|caval|cavallo}} 
quãdo=={{Var|quãdo|quando}}
Manzoni=={{AutoreCitato|Alessandro Manzoni|Manzoni}} 
....
Il che, ideato un singolo pulsante/hotkey, potrebbe portare all'applicazione di Var con tre click (due per selezionare la parola, uno per attivare l'applicazione del template; complesso ma facile, nel mondo wikisource di cose complicate e difficili....
La collocazione di questo elenco la vedrei bene in Discussioni indice; diventerebbe un "dizionario ortografico opera-specifico" niente male. --Alex brollo (disc.) 10:45, 20 gen 2013 (CET)
Scusate ma nel caso di edizione diplomatica della commedia del landino, per esempio, non si avrebbe una pagina piena di template causa alto numero di convenzioni tipografiche del XV secolo? Non si era detto che troppi template sono un male? Mi sfugge qualcosa? --Xavier121 12:13, 20 gen 2013 (CET)
Volendo, basterebbe un template, a cui vengono passati, come parametri, le due/tre varianti dell’intera pagina. In questo momento la cosa è pensata per pezzi di testo di estensione inferiore a un paragrafo (che possono essere racchiusi dentro a un tag span); ma nulla impedisce di costruire un template più potente, che si appoggi a un tag div, per esempio. C'è molto da pensare e da provare; siamo appena ai test di fattibilità.
Sto provando in pratica la cosa. Ho rinunciato alle u -> v e alle s lunghe; mi limito a registrare con Var i tituli tipo quãdo -> quando, nõ -> non. Sembra che la cosa funzi (vedi Pagina:Ordini di cavalcare (1571).djvu/33 e precedenti e loro transclusione in ns0). --Alex brollo (disc.) 00:35, 22 gen 2013 (CET)

Passetto[modifica]

La strada per accumulare dentro Discussioni:Indice dati utili alle sostituzioni automatiche nelle pagine (il "dizionario opera-specifico) è aperta; chi ha "i giocattoli" acchiappa, all'apertura in edit di una pagina, il contenuto della corrispondente pagina Discussioni indice, oltre ai testi della pagina precedente e della precedente ancora. Questo significa che sono disponibili, se esistono, i dati contenuto in una struttura tipo quella ipotizzata sopra. Adesso vediamo cosa farne :-)

Candalua, se mi leggi: il trova & sostituisci potrebbe essere migliorato facendogli importare l'eventuale selezione nei due campi "trova" e "sostituisci", sarebbe molto più rapido. Se poi apparisse in un box "fixed" sarebbe meglio ancora. --Alex brollo (disc.) 07:28, 21 gen 2013 (CET)