Discussioni progetto:Qualità/Semantizzazione

Da Wikisource.
Jump to navigation Jump to search

Impressionante. Non so giudicare l'utilità complessiva della cosa, non conoscendo Wikisource abbastanza bene (aspetto che facciate una lista di cose che questo sistema rende possibili), ma vi prego, spostate l'"area dati" da qualche altra parte! Qualcosa come Template:Dati/{{FULLPAGENAME}}, ed eventualmente in futuro un namespace apposito. Il wikitesto delle vostre pagine è già abbastanza spaventoso. ;-) --Nemo 09:07, 12 ott 2010 (CEST)

Bravo Nemo, hai centrato il punto più controverso. Tuttavia la mia scelta non è casuale, è frutto di tantissimi esperimenti (tutti conclusi negativamente perchè è bene che le pagine non siano "anomale"... nella gestione automatica dei contenuti avere pagine "anomale" crea parecchi problemi. Fra io e Edo, non immagini quante pagine Template:Dati/{{FULLPAGENAME}}, frutto delle mie "sperimentazioni preliminari", abbiamo già cancellato senza rimpianto... anzi: con grande sollievo!). La mia speranza è che, superato lo shock iniziale, l'utente si abitui, e soprattutto apprezzi il "magico" aggiornamento dei dati via bot o, in futuro, addirittura istantaneo via js. Comunque la cosa va discussa a fondo. --Alex brollo (disc.) 10:02, 12 ott 2010 (CEST)
PS: non posso invece fare una lista esaustiva delle "cose possibili", ma solo qualche esempio; perchè la lista sarebbe spaventosamente lunga... tende all'infinito; infatti, il calcolo combinatorio può aiutare a immaginare le possibili combinazioni elementari di n variabili-opera per m variabili-autore (e non è affatto escluso che si semantizzino anche altre cose), ma poi ciascuna delle combinazioni può essere montata, formattata, derivata .... alcune discussioni recenti mi hanno consentito di rilevare la vera differenza fra pedia e source: pedia maneggia concetti, source (e non solo: anche books, anche dizionario, anche species...) maneggia dati... purtroppo il progetto leader è pedia, che di un approccio rigorosamente "databasesco" non sa che farsene; ha bisogno di altri strumenti, e gli altri progetti devono arrangiarsi. Non si spiega diversamente il curioso disinteresse di pedia per #lst: ogni mio tentativo di incoraggiarne l'implementazione è sempre finito con un "grazie, ma non ci serve". :-( --Alex brollo (disc.) 11:20, 12 ott 2010 (CEST)
Non ho capito (scusa l'ignoranza), che cosa c'è di complicato nell'includere (parti di) una pagina (via lst) collocata in un namespace diverso? --Nemo 11:51, 12 ott 2010 (CEST)
La difficoltà non sta in quel punto. La difficoltà consiste nell'evitare che queste pagine o sottopagine "anormali" si mescolino a quelle "normali" nelle statistiche, estrazioni, manipolazioni di bot nostri e altrui... forse la soluzione sarebbe proprio quella di un ns apposito "privato", e forse sarà quella la soluzione finale; magnifica per le pagine in ns0, molto più fastidiosa nelle opere di altri ns come Autore (mi disturberebbe molto un nome pagina dipo Dati:Autore:Alessandro Manzoni, per quel doppio due punti, so già che prima o poi nascerebbero casini; e d'altronde, anche Dati:Alessandro Manzoni non va bene; nè mi va bene la sostituzione di Autore: con Autore_... insomma non mi va bene niente, come al solito... ;-) ). --Alex brollo (disc.) 12:33, 12 ott 2010 (CEST)
Però... passeggiando... mi è venuta un'idea: e se l'area dati sparisse nel momento del caricamento della pagina, e ricomparisse nel momento del submit? ;-) Che ne dici Nemo? --Alex brollo (disc.) 19:32, 12 ott 2010 (CEST)

Microdati[modifica]

4 anni dopo la lista di cose possibili ancora non c'è. :-) Aggiungo allora l'uno e unico desiderata: microdata sulle opere. Quando [1] mostrerà qualcosa di utile sarà contento, di tutto il resto mi importa molto poco. (Ovviamente la soluzione di lungo periodo in teoria sarebbe m:Book management o qualche altra mirabolante estensione, ma ci vorranno dieci anni almeno.) --Nemo 10:19, 7 dic 2014 (CET)

Ho visto la discussione su wikisource-l e pensavo di tradurre il messaggio qui sotto, ma magari ci chiariamo le idee fra di noi prima?

Considerazioni sui metadati bibliografici[modifica]

Ciao a tutti, mi sono riletto la questione Semantizzazione e volevo tirare un paio di conclusioni, fresco anche del lavoro dell'ultimo mese di scaricarmi i metadati bibliografici delle opere di Wikisource (inizialmente, solo testi al 100%, ma discuteremo poi anche di questo).

Per iniziare, questo è il pezzo di codice HTML di La guerra nelle montagne. Guardiamolo insieme:

<div style="display:none">inglese
<p>Rudyard Kipling
1917
G
1917
Anonimo
Indice:La guerra nelle montagne.djvu
Prima guerra mondiale
La guerra nelle montagne
Intestazione
15 ottobre 2014
100%
Da definire
</p>
</div><span id="textquality" class="100%"></span><span id="dati" style="display:none; speak:none" data-annodipubblicazione="1917" data-annoditraduzione="1917" data-argomento="Prima guerra mondiale" data-cittaincuieavvenutalaprimarappresentazione="" data-corsodilaurea="" data-eventualesecondoannodipubblicazione="" data-eventualesottotitolo="" data-eventualetitoloalternativo="" data-facolta="" data-giornodellaprimarappresentazione="" data-inizialedeltitolo="G" data-linguaoriginaledeltesto="inglese" data-nomedellapaginaprincipale="" data-nomedellaversione="" data-nomeecognomedelcorrelatore="" data-nomeecognomedelrelatore="" data-nomeecognomedeltraduttore="Anonimo" data-nomeecognomedellautore="Rudyard Kipling" data-nomeecognomedellautoredellemusiche="" data-organismoemittente="" data-progetto="" data-secolodipubblicazione="" data-teatroincuieavvenutalaprimarappresentazione="" data-titolo="La_guerra_nelle_montagne" data-universita="" data-urldellaversionecartaceaafronte="Indice:La guerra nelle montagne.djvu"></span><div class="ws-noexport" style="display:none; speak:none">
<p><span class="metadata"><dc:title>La guerra nelle montagne</dc:title></span>
<span class="metadata"><dc:creator opt:role="aut">Rudyard Kipling</dc:creator></span>
<span class="metadata"><dc:date>1917</dc:date></span>
<span class="metadata"><dc:subject>Prima guerra mondiale</dc:subject></span>
<span class="metadata"><dc:rights><a rel="nofollow" class="external text" href="https://creativecommons.org/licenses/by-sa/3.0/deed.it">CC BY-SA 3.0</a></dc:rights></span>
<span class="metadata"><dc:rights><a rel="nofollow" class="external text" href="https://www.gnu.org/copyleft/fdl.html">GFDL</a></dc:rights></span>
<span class="metadata"><dc:relation>Indice:La guerra nelle montagne.djvu</dc:relation></span>
<span class="metadata"><dc:identifier>//it.wikisource.org/w/index.php?title=La_guerra_nelle_montagne&oldid=1462425</dc:identifier></span>
<span class="metadata"><dc:revisiondatestamp>20141015132420</dc:revisiondatestamp></span>
<span class="metadata" title="permalink">//it.wikisource.org/w/index.php?title=La_guerra_nelle_montagne&oldid=1462425</span>
<span class="metadata" title="revisiontimestamp">20141015132420</span>
</p>
</div><div id="ws-data" class="ws-noexport" style="display:none; speak:none">
<p><span id="ws-title">La guerra nelle montagne</span>
<span id="ws-author">Rudyard Kipling</span>
<span id="ws-translator">Anonimo</span>
<span id="ws-scan">La guerra nelle montagne.djvu</span>
<span id="ws-publisher">Casa editrice Risorgimento</span>
<span id="ws-place">Milano</span>
<span id="ws-year">1917</span>
<span id="ws-birthdate">1865</span>
<span id="ws-deathdate">1936</span>

Come vedete, abbiamo i dati interessanti (i soliti metadati: titolo, autore, ecc.) mostrati diverse volte:

  • dentro un <div style="display:none">, ma senza essere formattati/legati a specifiche tag
  • dentro un <span id="dati">, ognuno con i suo tag data-.
data-annodipubblicazione="1917"
data-annoditraduzione="1917"
data-argomento="Prima guerra mondiale"
data-cittaincuieavvenutalaprimarappresentazione=""
data-corsodilaurea=""
data-eventualesecondoannodipubblicazione=""
data-eventualesottotitolo=""
data-eventualetitoloalternativo=""
data-facolta=""
data-giornodellaprimarappresentazione=""
data-inizialedeltitolo="G"
data-linguaoriginaledeltesto="inglese"
data-nomedellapaginaprincipale=""
data-nomedellaversione=""
data-nomeecognomedelcorrelatore=""
data-nomeecognomedelrelatore=""
data-nomeecognomedeltraduttore="Anonimo"
data-nomeecognomedellautore="Rudyard Kipling"
data-nomeecognomedellautoredellemusiche=""
data-organismoemittente=""
data-progetto=""
data-secolodipubblicazione=""
data-teatroincuieavvenutalaprimarappresentazione=""
data-titolo="La_guerra_nelle_montagne"
data-universita=""
data-urldellaversionecartaceaafronte="Indice:La guerra nelle montagne.djvu"
notare che ci sono un sacco di metadati (anche per le tesi di laurea, i testi teatrali), ma non l'editore...
C'è anche uno <span id="textquality" class="100%">, che ci dà il SAL.
  • dentro uno <span class="metadata">, con dei tag Dublin Core.
<span class="metadata"><dc:title>La guerra nelle montagne</dc:title></span>
<span class="metadata"><dc:creator opt:role="aut">Rudyard Kipling</dc:creator></span>
<span class="metadata"><dc:date>1917</dc:date></span>
<span class="metadata"><dc:subject>Prima guerra mondiale</dc:subject></span>
<span class="metadata"><dc:rights><a rel="nofollow" class="external text" href="https://creativecommons.org/licenses/by-sa/3.0/deed.it">CC BY-SA 3.0</a></dc:rights></span>
<span class="metadata"><dc:rights><a rel="nofollow" class="external text" href="https://www.gnu.org/copyleft/fdl.html">GFDL</a></dc:rights></span>
<span class="metadata"><dc:relation>Indice:La guerra nelle montagne.djvu</dc:relation></span>
<span class="metadata"><dc:identifier>//it.wikisource.org/w/index.php?title=La_guerra_nelle_montagne&oldid=1462425</dc:identifier></span>
<span class="metadata"><dc:revisiondatestamp>20141015132420</dc:revisiondatestamp></span>
<span class="metadata" title="permalink">//it.wikisource.org/w/index.php?title=La_guerra_nelle_montagne&oldid=1462425</span>
<span class="metadata" title="revisiontimestamp">20141015132420</span> 
I metadati sono praticamente gli stessi, in più ci sono giusto il permalink, il revisiondatestamp, il revisiontimestamp.
<span id="ws-title">La guerra nelle montagne</span>
<span id="ws-author">Rudyard Kipling</span>
<span id="ws-translator">Anonimo</span>
<span id="ws-scan">La guerra nelle montagne.djvu</span>
<span id="ws-publisher">Casa editrice Risorgimento</span>
<span id="ws-place">Milano</span>
<span id="ws-year">1917</span>
<span id="ws-birthdate">1865</span>
<span id="ws-deathdate">1936</span>
Ci sono le date di nascita e morte dell'Autore, e anche il publisher che non veniva visualizzato nei nostri dati in italiano.

Ora. Per il mio lavoro, ho usato questo (orribile) script qui:

https://github.com/Aubreymcfato/ws_scraper

che non fa altro che guardare la pagina HTML e prendere i metadati (un po' dai microformat e un paio dai data- in italiano). Quelli che secondo me sono i più interessanti sono:

  • titolo della pagina
  • titolo del libro. Ogni tanto sono differenti (es. "Amori (Savioli)" è il titolo della pagina, ma l'opera si chiama "Amori")
  • link alla pagina Indice, se c'è. Questo a me personalmente è utile perchè in questo modo posso andare a prendere la copertina.
  • autore
  • editore
  • data di pubblicazione (come sappiamo, questo è un tema molto complicato...ci sono diverse date, soprattuto quando un libro è una traduzione o riedizione)
  • soggetti e argomenti
  • i diritti (anche se a me non interessano perchè tutta Wikisource è in CC-BY-SA, e quindi lo definisci a priori).


L'OAI-PMH è comodissimo (sono dati già sia strutturati che aggiornati), ma ha l'enorme problema che lavora *solo* con le pagine Indice. Questo è un problema perchè le pagine Indice hanno titoli di un certo tipo, e in realtà le opere che a noi interessano spesso sono all'interno (le poesie, i saggi, i racconti). Tendenzialmente, vedo con più favore fare uno scraping via API sul namespace 0, perchè la comunità lavora nel ns0 per far sì che i testi siano trovabili e reperibili dall'utente. Il namespace Indice è utilissimo, ma sull'"oggetto libro", fa altro. Credo che sia importantissimo lavorare sui metadati in ns0.

Il mio script può essere enormemente migliorato di suo, ma come vedete c'è casino. Non ho fatto i controllo con versioni inglesi o francesi, ma forse sarebbe da fare. Avere un 'modo unico per esporre i metadati sarebbe importante. Direi che possiamo partire a discutere da qui. --Aubrey (disc.) 12:44, 7 dic 2014 (CET)

Aggiungo che (in teoria) il convertitore EPUB di Tpt prende direttamente i dati in microformat, da tutte le pagine, sia ns0 che nsIndice. Aubrey (disc.) 11:08, 8 dic 2014 (CET)
Il problema dei dati ha i seguenti aspetti:
  1. il dato vero e proprio;
  2. il suo formato;
  3. la sua collocazione;
  4. la sua rappresentazione.
Nel tempo, su wikisource ne abbiamo fatte di tutti i colori. Ad esempio, nel vecchio Infotesto i dati sull'edizione c'erano, ma per alcuni il formato era tale da renderli inutilizzabili (impossibile distinguere, dalla stringa complessiva, i singoli dati su titolo, autore, editore, anno, luogo di pubblicazione). Col tempo, siamo migrati al proofread, e il "contenitore di dati" è diventato la pagina Indice; poi è stato elaborato su Commons il template Book, e anche lì c'erano gli stessi dati; poi c'era, e c'è, l'intrico dei diversi Intestazione, contenenti dati diversi per ogni progetto. Fermo restando la confusione su cosa i dati contenessero e dove stessero, sono incominciati a pervenire sugegrimenti e proposte su comne rappresentarli, e l'impressionante elenco di Aubrey è la conseguenza di un'idea non male: nell'incertezza, rappresentiamoli in tutte i formati html suggeriti.
Aggiungerei comunque il livello codice wiki, che poi è il livello dove i stanno i dati originali e quindi, a mio parere, il più importante, essendo tutti gli altri dati derivati. A livello del codice wiki i dati sono rappresentati in due modi distinti: come "area dati", con la nostra originale metodica delle section (che sarà pure un hackeraggio ma al momento è l'unica per scambiare i dati fra pagine diverse) e come valori dei vari parametri dei template base, Intestazione, Autore, quello della pagina Indice, l'antico e glorioso Infotesto.
Con l'avvento di wikidata, si è chiarito finalmente che non abbiamo le idee chiare su nulla - nemmeno su cos'è un'opera; figuriamoci su quali sono i suoi metadati e su quale dovrebbe essere la loro rappresentazione. Alex brollo (disc.) 15:54, 10 dic 2014 (CET)