Wikisource:Siti autorevoli/Internet archive

Internet Archive: Biblioteca digitale con sede fisica a San Francisco sorta nel 1996. Presenta un vasto catalogo di opere difficilmente reperibili. qui il link per i testi in italiano.

Servizi e file disponibili

La pagina principale di un testo si presenta così:

A sinistra, un menu per accedere al testo, per scaricare l'ebbok in diversi formati. E' importante osservare che se esiste, fra i file indicati, un file "Full text", significa:

che il testo è stato sottoposto a elaborazione OCR;
che il testo è anche integrato in un "layer" del file djvu; cioè, scaricando e portando su Commons il file djvu, il testo diventa automaticamente "disponibile" all'interno dei progetti wiki. Ovviamente questa è la procedura più semplice e veloce.

Per caricare nelle pagine Wikisource il "layer di testo" contenuto nei file djvu, o nei file accessori, ci sono vari sistemi; per i file descritti qui sopra, il passaggio è automatico (grazie ad uno script dell'utente ThomasV).

File djvu.txt e djvy.xml

In basso, un importante link poco visibile (All files: HTTP) porta a un'importante sottopagina "tecnica" ilcui contenuto è illustrato dallo screenshot seguente.

In questa pagina un lungo elenco di file scaricabili. Oltre al file djvu, il più importante, molto importanti il file djvu.txt (che contiene il testo contenuto nell'intero djvu) e il file djvu.xml (che contiene lo stesso testo, ma con ogni singola parola "mappata" per pagina e per posizione nella pagina).

Come utilizzare con efficienza i file di Internet Archive

Trovata un'opera interessante (particolarmente utile, per le ricerche, la ricerca per autore), avviene spesso che l'opera sia disponibile in più di una versione. Occorre verificare, in questo caso, quale sia la versione migliore:

per qualità dell'edizione
per completezza della scansione fotografica (talora vi sono pagine scannerizzate male o pagine mancanti)
per qualità del testo da OCR (opportuna una buona occhiata a Full text).

Il passo successivo è il caricamento del file djvu su Commons, sempre che sia utilizzabile tenuto conto delle norme sul copyright USA e italiane.

Una volta caricato il file djvu su Commons, può essere creata su Wikisource una pagina Indice che automaticamente "aggancerà" le pagine djvu e renderà anche possibile, se esiste nel file djvu, il recupero, automatico o via script, del testo incorporato.

Utenti tutor

Per un aiuto sulla fase di caricamento dell'opera su Commons e sulla preparazione della pagina Indice, puoi chiedere a qualsiasi amministratore che trovi attivo nella pagina delle ultime modifiche.

Strategie per l'importazione automatica del testo e la correzione automatica di piccoli "scannos" ricorrenti

Vi sono due strade alternative fra cui scegliere. La correzione automatica dei piccoli scannos (errori caratteristici dell'interpretazione OCR) varia a seconda dell'alternativa scelta. Tale correzione è molto importante perchè accelera moltissimo la revisione e la rende molto meno tediosa (gran parte degli errori consiste in anormale spaziatura in relazione alla punteggiatura, e in "lapsus frequenti", come rendere con una r i caratteri l' ).

Strategia 1: utilizzare il tool di ThomasV

L'utilizzo del tool di caricamento automatico del testo, quando il file djvu possiete un "text layer", è molto semplice: basta creare una pagina, e compare "automagicamente" il testo incorporato nella pagina djvu.

La qualità del testo varia: talora è un guazzabuglio di caratteri (succede con pagine con immagine sfuocata o difettosa, frontespizi con caratteri molto grandi e con font inusuale) che è bene cancellare e riscrivere daccapo a mano; in media la qualità è buona, talora molto buona, e tutto quello che serve è una serie di piccoli ritocchi e la correzione "umana" di alcune parole mal interpretate.

I ritocchi comprendono:

correzione della spaziatura connessa alla punteggiatura;
riunione delle parole spezzate a fine riga;
eliminazione dei caratteri acapo conservando i doppi acapo;
trasformazione degli apostrofi da dattilografici a tipografici;
normalizzazione delle virgolette.

Nel caso delle poesie, occorre inoltre

aggiungere il tag poem
eliminare, spesso, i doppi a capo.

Molte di queste correzioni possono essere fatti con pochi click chiamando funzioni javascript. Non preoccuatevi se la cosa vi sembra aliena: anche se non avete idea di cosa sia javascript,o lo sapete vagamente ma non avete laminima idea di come utilizzarlo, tutto si risolve nel far comparire qualche tastino o qualche link in più nella vostra finestra di modifica. Basta che chiedete aiuto a qualcuno, che vi aiuti.

Utenti disponibili dare una mano con javascript:

Utente:Alex brollo

Strategia 2: tools e tecniche per caricare i testi "in massa"

Esiste la possibilità di caricare i testi di IA "in massa" sulle pagine Pagina:. E' difficile immaginare come queste tecniche risultino, alla fine, più efficenti del tool di ThomasV; è bene tuttavia sapere che esistono, per utilizzarle in casi particolari o in casi in cui non si disponda di un djvu con layer di testo.

Caricamento via bot, script djvutext.py

Lo script legge, pagina per pagina, il layer testo del file djvu e lo scrive nella corrispondente pagina Pagina:. La sua azione, al momento, è esattamente identica a quella del tool di ThomasV ma il caricamento avviene "in massa": tutte le pagine vengono caricate così come sono nel layer, al ritmo di 5-10 pagine al minuto.

Utenti a cui chiedere l'attivazione della procedura di caricamento:

Utente:Alex brollo

Riferimento per i bottolatori (su it.source occorre una versione modificata di djvutext.py!):

Utente:Alex brollo

Caricamento via bot, script vari "fai da te"

Alebot accede a alcuni script "fai da te" per caricare in nsPagina testi a partire dal file djvu.xml di IA, o da qualsiasi file testo dove sia presente un chiaro messaggio di "inizio e numero pagina". Nel caso dei file di Internet Archive (djvu con layer di testo), è preferibile utilizzare il tool di caricamento automatico di ThomasV descritto più sopra.