Aiuto:Match and Split: differenze tra le versioni

Da Wikisource.
Contenuto cancellato Contenuto aggiunto
Nessun oggetto della modifica
Accurimbono (discussione | contributi)
+ interwiki en, fr
Riga 73: Riga 73:
* Pronte per il M&S molte opere di Manzoni in [[Indice:Opere varie (Manzoni).djvu]]; nell'indice, provvisoriamente, è stato introdotto in sommario l'elenco delle opere presenti in Ns0 dell'autore (l'elenco va rivisto conservando quelle che sono comprese nel grosso file djvu).
* Pronte per il M&S molte opere di Manzoni in [[Indice:Opere varie (Manzoni).djvu]]; nell'indice, provvisoriamente, è stato introdotto in sommario l'elenco delle opere presenti in Ns0 dell'autore (l'elenco va rivisto conservando quelle che sono comprese nel grosso file djvu).
* Nota: istruire Alebot a cambiare il codice <nowiki>---- <references /></nowiki> in <nowiki>{{Sezione note}}</nowiki>
* Nota: istruire Alebot a cambiare il codice <nowiki>---- <references /></nowiki> in <nowiki>{{Sezione note}}</nowiki>


[[en:Help:Match and split]]
[[fr:Aide:Match et Split]]

Versione delle 10:38, 18 ott 2010

Questa pagina è una piccola guida al Match and Split. Si può consultare la guida originale di ThomasV qui (in inglese).

Cos'è il Match and Split

Mettiamo di avere un testo non-proofread, cioè non accompagnato dalle scansioni del testo originale. Vogliamo farlo diventare proofread. Per ottenere ciò, è necessario che il nostro testo venga spezzettato in vari frammenti, ognuno dei quali corrisponderà ad una singola pagina del testo originale, in modo da associare l'immagine di ogni pagina al frammento di testo corrispondente.

Cosa serve

La prima volta controllate che nelle preferenze sia spuntato "Usa interattivamente il bot ThomasBot".

Come si fa

  1. aprite il vostro testo in modifica, posizionatevi all'inizio del testo e premete il bottone "Match" sulla barra degli strumenti. Verrà inserito il seguente codice: ==__MATCH__:[[]]== su una nuova riga (come fosse un titolo di sezione).
  2. Attenzione: tutto ciò che è sotto il MATCH verrà spostato nelle pagine proofread! Quindi spostate sopra il match eventuali categorie, collegamenti interwiki o template come tl:Conteggio pagine.
  3. andate sull'Indice, e cercate la pagina da cui inizia il vostro testo (esempio: Pagina:Storia della letteratura italiana I.djvu/121).
  4. nel MATCH, inserite tra le parentesi quadre il titolo completo di questa pagina.
  5. salvate.
  6. Ora nel vostro testo la parola MATCH è diventata un link. Cliccatelo e attendete pazientemente.
  7. Quando la pagina si sarà ricaricata, vedrete la suddivisione che vi viene proposta. Controllate, aprendo le varie pagine, che la suddivisione sia giusta, ed eventualmente correggetela. Attenzione a non lasciare dei template "spezzati a metà" tra una pagina e l'altra. Salvate.
  8. cliccate "split" in alto, ed attendete pazientemente.

Alla fine di questo processo, avrete:

  • una pagina del namespace principale contenente un tag <pages/> (esempio: <pages index="Storia della letteratura italiana I.djvu" from=121 to=161 />)
  • una serie di pagine (esempio: Pagina:Storia della letteratura italiana I.djvu/121 e seguenti) contenenti il vostro testo di partenza. Queste pagine si trovano al SAL 25%, quindi sarà necessario ripassarle a mano (o chiedere l'intervento di un bot) per portarle al 75%.

La procedura inversa M&S in un'opera inesistente

Nonostante la procedura M&S sia creata per la trascrizione inversa, è possibile, e forse vantaggioso, utilizzare la procedura in modo "creativo" anche per i casi in cui una versione testuale già pronta non esiste ancora.

Le premesse per questa possibilità sono che esista, o sia scaricabile in qualche modo, un testo "in blocco" (ad esempio può essere utilizzato il file .....djvu.txt disponibile su IA), e che, ovviamente, sia anche disponibile un file djvu con layer di testo.

Il sistema si basa su queste due osservazioni:

  1. le procedura Match e Split sono del tutto indipendenti l'una dall'altra;
  2. la procedura Match segmenta il testo in pagine, inserendo un particolare codice nel punto di inizio di ogni pagina;
    1. eseguito il match, si ottiene semplicemente un testo con intercalati titoli di sezione di secondo livello, che contengono il link alla pagina. In questa fase (prima di lanciare lo Split) il testo può essere liberamente modificato, facendo attenzione a non toccare i "titoli di sezione speciali".
  3. La procedura Split fa due cose:
    1. copia il testo, pagina per pagina, nelle pagine linkate dal codice;
    2. nel testo da cui sono state copiate le pagine sostituisce la testo il codice di transclusione puntato sulle stesse pagine.

Quindi la procedura "inversa" consiste in:

  1. caricare il testo in blocco in una pagina Ns0 provvisoria
  2. far partire Match
  3. dopo che il Match è concluso, "aggiustare" quanto più possibile il testo (molto comodo estrarlo e procedere su un buon programma di elaborazione testi); il vantaggio è che piccoli scannos ricorrenti possono essere corretti in blocco con un solo edit, e inoltre che può essere aggiunto codice in testa alle pagine, subito sotto il codice Match, con la certezza che non confonderà il programma e che sarà ricopiato esattamente tal quale nella pagina.

Un primo test preliminare è stato fatto qui:Don_Chisciotte_della_Mancia/TestoSecondaParte, elaborando in blocco circa 250 pagine su 650, ma non si è trattato di un test "raffinato", in quanto non è stata eseguita la "pre-elaborazione post-match". La procedura potrebbe, se ben attuata, consentire anche l'introduzione dei tl|Ns0 e quindi permettere, in una seconda fase, la costruzione automatica delle pagine Ns0 dei vari capitoli; è molto probabile che risulti anche piuttosto semplice l'inserimento quasi automatico dei tl|RigaIntestazione (che dovrebbero essere messi in testa alle singole pagine, e che potrebbero essere spostati all'interno dell'header noinclude da Alebot).

Osservazioni

  • Il sistema splitta una singola pagina alla volta. Quindi se il testo è diviso in capitoli, l'intera operazione va ripetuta per ognuno.
  • Se nella stessa pagina finisce un capitolo ed inizia il successivo, facendo Match and Split dei due capitoli in questa pagina:
    • prima viene inserito il testo del primo capitolo
    • poi quando si fa il match del secondo, viene aggiunto il testo e i due testi vengono separati mediante section e da una riga orizzontale (?)
    • il primo capitolo viene aggiornato col section giusto (insomma fa tutto da solo!)
  • Con testi in prosa, il sistema non riconosce quando una parola è spezzata su due pagine
  • Potrebbe essere preferibile non fare il controllo di cui al punto 7, cioè accettare la suddivisione che viene proposta e poi correggere nella ripassata finale?
  • Il sistema cerca di gestire il tag poem, evitando che vengano interrotti nel salto di pagina. Però a volte questo non funziona e compaiono dei poem dove non dovrebbero...
  • A volte il match aggiunge degli spazi bianchi all'inizio delle righe!
  • se una pagina esiste già, viene semplicemente saltata.


Note di Xavier121

Note di Alex

  • Magnifico su Storia della letteratura italiana: non procedo per lasciare qualcosa a chi vuol provare.
  • Difficile il caso di Osservazioni sulla morale cattolica: capirtoli 1 e 2 ok, si inceppa al capitolo 3. Il problema sono le note che continuano da una pagina alla successiva.
  • Le note "semplici" sono gestite perfettamente. Anche i capitoli che iniziano a metà pagina sembrano gestiti bene.
  • Importante che il codice match stia su una riga a se stante (tipo titolo).
  • Testata su Adelchi la strategia di match and split su testo globale (capitoli riuniti in Adelchi/TestoCompleto). L'impressione è che sia conveniente il M&S sui singoli capitoli, tranne in casi molto particolari.
  • Nelle opere non proofread pare opportuna la conversione di eventuali codici di inizio sezione (tipo == ==, === === ecc) con tag di formato carattere (tipo <big> o altri), per evitare la necessità di gestire gli indici automatici
  • Opportuna l'apertura di una pagina dedicata per il governo dei lavori di trascrizione inversa mediante M&S (elenco opere di cui va ricercata e caricata una versione immagine; elenc delle opere pronte per il M&S)
  • Pronto per il M&S I promessi sposi vs. Indice:I promessi sposi (1840).djvu, caricato or ora prima di utilizzarlo, attendere che questo link: File:I promessi sposi (1840).djvu si "fluifichi"). --Alex brollo (disc.) 10:07, 7 ott 2010 (CEST)[rispondi]
  • Pronte per il M&S molte opere di Manzoni in Indice:Opere varie (Manzoni).djvu; nell'indice, provvisoriamente, è stato introdotto in sommario l'elenco delle opere presenti in Ns0 dell'autore (l'elenco va rivisto conservando quelle che sono comprese nel grosso file djvu).
  • Nota: istruire Alebot a cambiare il codice ---- <references /> in {{Sezione note}}