Aiuto:Match and Split

Questa pagina è una piccola guida al Match and Split. Si può consultare la guida originale di ThomasV qui (in inglese).

Cos'è il Match and Split

Mettiamo di avere un testo non-proofread, cioè non accompagnato dalle scansioni del testo originale. Vogliamo farlo diventare proofread. Per ottenere ciò, è necessario che il nostro testo venga spezzettato in vari frammenti, ognuno dei quali corrisponderà ad una singola pagina del testo originale, in modo da associare l'immagine di ogni pagina al frammento di testo corrispondente.

Cosa serve

un testo del namespace principale (esempio: Storia della letteratura italiana (De Sanctis)/VI)
un file .djvu contenente le immagini scansionate, caricato in una pagina Indice (esempio: Indice:Storia della letteratura italiana I.djvu).
Questo file deve avere un text layer (ad esempio, i file .djvu di Internet Archive ce l'hanno). Per approfondimenti sul formato djvu si veda Aiuto:Gestione file djvu.

La prima volta controllate che nelle preferenze sia attivato il gadget "Match and Split".

Come si fa

aprite il vostro testo in modifica, posizionatevi all'inizio del testo e premete il bottone "Match" sulla barra degli strumenti. Verrà inserito il seguente codice: ==__MATCH__:[[]]== su una nuova riga (come fosse un titolo di sezione).
Attenzione: tutto ciò che è sotto il MATCH verrà spostato nelle pagine proofread! Quindi spostate sopra il match eventuali categorie, collegamenti interwiki o template come tl:Conteggio pagine.
andate sull'Indice, e cercate la pagina da cui inizia il vostro testo (esempio: Pagina:Storia della letteratura italiana I.djvu/121).
nel MATCH, inserite tra le parentesi quadre il titolo completo di questa pagina.
salvate.
Ora nel vostro testo la parola MATCH è diventata un link. Cliccatelo e attendete pazientemente.
Quando la pagina si sarà ricaricata, vedrete la suddivisione che vi viene proposta. Controllate, aprendo le varie pagine, che la suddivisione sia giusta, ed eventualmente correggetela. Attenzione a non lasciare dei template "spezzati a metà" tra una pagina e l'altra. Salvate.
cliccate "split" in alto, ed attendete pazientemente.

IMPORTANTISSIMO: prima di cliccare "split" CONTROLLATE BENE LA PAGINA,

per evitare casi come questo in cui il sistema vi propone di creare centinaia di pagine in realtà non necessarie.

Alla fine di questo processo, avrete:

una pagina del namespace principale contenente un tag <pages/> (esempio: <pages index="Storia della letteratura italiana I.djvu" from=121 to=161 />)
una serie di pagine (esempio: Pagina:Storia della letteratura italiana I.djvu/121 e seguenti) contenenti il vostro testo di partenza. Queste pagine si trovano al SAL 25%, quindi sarà necessario ripassarle a mano (o chiedere l'intervento di un bot) per portarle al 75%.

Osservazioni

Il Match funziona solo per i file djvu, non funziona con i file pdf.
Il sistema splitta una singola pagina ns0 alla volta. Quindi se il testo è diviso in capitoli, l'intera operazione va ripetuta per ognuno.
Se nella stessa pagina finisce un capitolo ed inizia il successivo, facendo Match and Split dei due capitoli in questa pagina:
- prima viene inserito il testo del primo capitolo
- poi quando si fa il match del secondo, viene aggiunto il testo e i due testi vengono separati mediante section e da una riga orizzontale (?)
- il primo capitolo viene aggiornato col section giusto (insomma fa tutto da solo!)

Con testi in prosa, il sistema non riconosce quando una parola è spezzata su due pagine
Potrebbe essere preferibile non fare il controllo di cui al punto 7, cioè accettare la suddivisione che viene proposta e poi correggere nella ripassata finale?
Il sistema cerca di gestire il tag poem, evitando che vengano interrotti nel salto di pagina. Però a volte questo non funziona e compaiono dei poem dove non dovrebbero...
A volte il match aggiunge degli spazi bianchi all'inizio delle righe!
se una pagina esiste già, viene semplicemente saltata.

Si può tener d'occhio quello che il sistema sta facendo da questa pagina: https://tools.wmflabs.org/phetools/match_and_split.php

[Alcune osservazioni di Xavier121 e di Alex brollo spostate in Pagina discussione ]

Quando non c'è un file djvu con "text layer"

Come accennato sopra procedura è costituita da due fasi nettamente separate:

la fase Match: il bot, sulla base del primo link inserito manualmente con il codice ==__MATCH__:[[nome completo della pagina]]==, confronta il testo della pagina con il contenuto del djvu (layer testo) e individua i successivi punti di inizio pagina. Per ognuno dei punti di inizio pagina (compreso il primo, aggiunto manualmente) il bot scrive un altro codice, su una nuova riga, che ha questo aspetto: ==[[nome completo della pagina]]==. Fatto questo, Match termina; non modifica in alcun modo il nsPagina, nè esegue altre modifiche in Ns0, oltre all'aggiunta degli speciali link. La presenza di tali link viene "sentita" dal software wiki che fa comparire un'opzione split (una ulteriore linguella in testa alla pagina).
la fase Split, attivata manualmente da un click sulla lingella split: il bot sposta il testo da Ns0 a NsPagina e sostituisce il testo in Ns0 con un tag pages di transclusione. In questa fase il bot procede in modo del tutto indipendente dalla fase Match, di cui "non ha memoria".

Il fatto che le due procedure siano completamente indipendenti consente, nei casi in cui il Match non è possibile per assenza di un layer testo nel file djvu/pdf, di aggiungere manualmente i codici ==[[nome completo della pagina]]== e di lanciare successivamente lo Split, che funziona regolarmente. Si tratta di una procedura un po' laboriosa e delicata, ma organizzandosi procede piuttosto spedita con un paio di trucchi:

scaricare una copia del file djvu o pdf e tenerlo aperto con adeguato visualizzatore (DjView o un visualizzatore pdf) in una finestra ridimensionata in modo che occupi una colonna di circa 1/3 dello schermo;
copiarsi in Appunti il nome completo di una pagina Pagina dell'opera;
aprire il testo da "splittare" in modifica e ridimensionare la finestra del browser in modo che risulti affiancata alla finestra del visualizzatore e attivare l'opzione "Trova nella pagina" del browser;
nel visualizzatore, trovare la pagina corrispondente all'inizio del testo, e applicare il primo codice split usando il nome della pagina che sta sempre copiata in Appunti subito sopra l'inizio del testo in Modifica; aggiungere il codice speciale e aggiungere il numero giusto di pagina; il risultato, ad esempio per questa pagina: Pagina:Tre tribuni studiati da un alienista.djvu/109 dev'essere questo:

==[[Pagina:Tre tribuni studiati da un alienista.djvu/109]]==

copiarsi in appunti il codice completo e tenercelo;
procedere pagina per pagina con il visualizzatore (meglio usare il tasto "avanti una pagina"), e cercare nel testo in modifica la prima parola della nuova pagina. Copiaincollare il codice-link e aggiustare il numero della pagina. Ricordarsi che il codice-link deve stare su una nuova riga (ci vuole un acapo PRIMA e DOPO il codice).
Casi speciali:
1. se l'interruzione pagina cade a metà parola, spezzare la parola aggiungendo il trattino alla prima parte della parola; se si è diligenti, aggiungere subito il codice Pt secondo i propri gusti (due Pt oppure un Pt e un noinclude);
2. se l'interruzione di pagina cade a metà di un poem, chiudere il poem prima del codice-link e riaprirlo subito dopo.
Finito tutto, meglio dare un'occhiata all'anteprima per verificare che i numeri pagina formino una serie consecutiva e completa e che tutti i link abbiano lo stesso aspetto (cosa che non avviene se si è dimenticato qualche acapo o ci si è dimenticati di chiudere/aprire qualche poem)

Sembra complesso, ma non lo è molto; se si usano tutti i trucchi, ci vogliono pochi secondi per pagina; bisogna aver pazienza all'inizio, imparare bene la procedura, poi si va veloci. In un'oretta si possono splittare molti lunghi capitoli. La procedura è stata applicata per Historia della Sacra Maestà... ed è in corso di splittaggio Tre tribuni studiati da un alienista.