Wikisource:OAI-PMH

Da Wikisource.

OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting o Protocollo per il raccoglimento dei metadati dell'Open Archive Initiative) è un protocollo sviluppato dall'Open Archives Initiative come infrastruttura di comunicazione fra archivi digitali. È utilizzato per raccogliere (o collezionare) i metadati dei documenti in un archivio affinché i servizi possano essere costruiti utilizzando metadati da più archivi. Una implementazione dell'OAI-PMH deve supportare metadati rappresentati in Dublin Core, ma può supportare altre rappresentazioni.
Il protocollo è spesso chiamato semplicemente protocollo OAI. E' perlopiù utilizzato in ambito Open access.

Funzionamento[modifica]

L' uscita OAI è Special:ProofreadIndexOai.

I verbi si richiamano con il suffisso ?verb=.

Sono:

  • Identify
  • ListRecords = fai la lista dei record (cioè dei libri)
  • ListSets
  • ListMetadataFormats
  • ListIdentifiers

Il prefisso &metadataPrefix= permette di specificare lo schema di metadati da usare.

I set hanno il prefisso &set=.

Esempi:

  • l'uscita OAI della categoria dei libri al 100%, cioè tutti i libri riletti e corretti dalla comunità si richiama con:
https://it.wikisource.org/wiki/Special:ProofreadIndexOai?verb=ListRecords&metadataPrefix=prp_qdc&set=edizioni_wikisource

Sets[modifica]

I sets sono basati sulle Categorie e possono essere configurati (da un amministratore) su Mediawiki:Proofreadpage_index_oai_sets. La pagina contiene un array JSON del tipo:

{
  "test": { //spec of the set ie its ID
    "name": "Test", //The set name
    "category": "tests_list", //The category to use, without the "Category:" prefix
    "description": "A test set." //Description of the set, optional
  }
}
  • Pagina di configurazione
https://it.wikisource.org/wiki/MediaWiki:Proofreadpage_index_data_config

Il codice generato è:

<record>
<header>
<identifier>
oai:it.wikisource.org:prpIndex/De%27_matematici_italiani_anteriori_all%27invenzione_della_stampa.djvu
</identifier>
<datestamp>2012-08-27T19:51:56Z</datestamp>
<setSpec>edizioni_wikisource</setSpec>
</header>
<metadata>
<prp_qdc:qdc xmlns:prp_qdc="http://mediawiki.org/xml/proofreadpage/qdc/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://mediawiki.org/xml/proofreadpage/qdc/ //it.wikisource.org/wiki/Speciale:ProofreadIndexOaiSchema/qdc">
<dc:type xsi:type="dcterms:DCMIType">Text</dc:type>
<dc:format xsi:type="dcterms:IMT">text/html</dc:format>
<dc:format xsi:type="dcterms:IMT">image/vnd.djvu</dc:format>
<dc:creator>Bartolomeo Veratti</dc:creator>
<dc:title xml:lang="it">De' matematici italiani anteriori all'invenzione della stampa</dc:title>
<dc:publisher xml:lang="it">Tipografia degli Eredi Soliani</dc:publisher>
<dcterms:spatial xml:lang="it">Modena</dcterms:spatial>
<dcterms:issued xsi:type="xsi:decimal">1860</dcterms:issued>
<dc:language xsi:type="dcterms:RFC5646">it</dc:language>
</prp_qdc:qdc>
</metadata>
</record>

Conversione in EPUB[modifica]

Il tool che converte i libri in EPUB è disponibile all'indirizzo

http://wsexport.wmflabs.org/tool/book.php

Quali libri sono indicizzati?[modifica]

"Proofread Page" è il nome del software che permette di trascrivere un testo con la scansione a fronte (è un'estensione di MediaWiki).

Quindi, l'uscita OAI-PMH c'è solo per quei libri che hanno subito il trattamento "proofread page", cioè sono stati digitalizzati, caricati e trascritti pagina per pagina. I vari libri di Wikisource presi, per esempio, da Liber Liber (come si faceva nei primi anni, fino al 2007) non sono presenti in quest'uscita OAI-PMH. Per tutti quei libri lì non ci sono "metadati strutturati", ma solo una struttura all'interno dei template di Wikisource (quindi, per andarli a prendere, uno dovrebbe fare un crawler/bot/script che cerchi i metadati giusti nelle pagine giuste). In questo caso, ha senso usare le API o i dump e i vari script.