Aiuto:Strumenti per la rilettura: differenze tra le versioni

Da Wikisource.
Contenuto cancellato Contenuto aggiunto
Nessun oggetto della modifica
Riga 12: Riga 12:
{{Aiuto:Strumenti per la rilettura/Attivazione}}
{{Aiuto:Strumenti per la rilettura/Attivazione}}


== postOCR ==
== PostOCR ==
{{Aiuto:Strumenti per la rilettura/postOCR}}
{{Aiuto:Strumenti per la rilettura/postOCR}}


== sistema paragrafi ==
== Aggiusta paragrafi ==
{{Aiuto:Strumenti per la rilettura/sistema paragrafi}}
{{Aiuto:Strumenti per la rilettura/aggiusta paragrafi}}


== unisci linee ==
== Unisci linee ==
{{Aiuto:Strumenti per la rilettura/unisci linee}}
{{Aiuto:Strumenti per la rilettura/unisci linee}}


Riga 143: Riga 143:
L'intera funzione è scritta da [[Utente:Candalua|Candalua]], a cui vanno rivolti eventuali quesiti e suggerimenti.
L'intera funzione è scritta da [[Utente:Candalua|Candalua]], a cui vanno rivolti eventuali quesiti e suggerimenti.
Lo script è attualmente (febbraio 2011) in pieno sviluppo, quindi il comportamento delle funzioni potrà essere soggetto a modifiche.
Lo script è attualmente (febbraio 2011) in pieno sviluppo, quindi il comportamento delle funzioni potrà essere soggetto a modifiche.
<!-- == Inserimento <nowiki>{{testo}}</nowiki> ==
== Inserimento <nowiki>{{testo}}</nowiki> ==
Il gadget trasforma l'output di DynamicPageList in un elenco "fisico" di {{tl|testo}}.
Il gadget trasforma l'output di DynamicPageList in un elenco "fisico" di {{tl|testo}}.


Riga 152: Riga 152:
Per attivarlo, occorre quindi entrare in modifica in una pagina che comprenda codice DynamicPageList, visualizzare l'anteprima e a questo punto attivare il link '''<nowiki>Inserimento {{testo}}</nowiki>'''.
Per attivarlo, occorre quindi entrare in modifica in una pagina che comprenda codice DynamicPageList, visualizzare l'anteprima e a questo punto attivare il link '''<nowiki>Inserimento {{testo}}</nowiki>'''.


Il gadget è sperimentale e non va utilizzato se non in casi particolari.-->
Il gadget è sperimentale e non va utilizzato se non in casi particolari.


== spostamento note ==
== spostamento note ==

Versione delle 23:23, 15 gen 2015

Aiuto: Guida agli Strumenti per la rilettura

Categoria: Guida al RegexMenuFrameworkManuale   Caratteristiche di Wikisource   Guida ai gadgets 
Gli strumenti per la rilettura sono alcune semplici funzionalità aggiunte che aiutano a svolgere azioni ripetitive, facilitando la formattazione e la rilettura di un testo.

Come attivarlo

Per attivare gli strumenti di rilettura, bisogna anzitutto aprire la pagina Preferenze e andare alla sezione Accessori. Alla voce Strumenti di modifica si trova l'opzione Strumenti di rilettura: cliccando sulla casella di spunta, verranno attivate alcune funzioni ausiliarie durante la fase di rilettura.

In pratica, durante la modifica di una singola pagina, apparirà nella colonna laterale sinistra di Wikisource, sotto ai collegamenti normalmente presenti, una nuova sezione intitolata Strumenti di rilettura in cui sono raccolti alcuni collegamenti aggiuntivi. Ciò che apparirà sarà simile all'immagine sulla destra.

Ecco come appaiono gli strumenti di rilettura (Gennaio 2015).

Per utilizzare gli strumenti di rilettura è sufficiente premere i collegamenti elencati oppure, dove presenti, utilizzare le scorciatoie da tastiera (Alt+5, Alt+6, ...).

Funzioni attivate

  1. trova & sostituisci
  2. elimina riga 1 Alt+5 (in parte deprecato)
  3. aggiusta paragrafi Alt+6
  4. postOCR Alt+7
  5. unisci linee Alt+8
  6. RigaIntestazione Alt+9 (deprecato)
  7. Numero riga ogni 3
  8. Numero riga ogni 4
  9. Numero riga ogni 5
  10. Num. riga ogni fine strofa
  11. Elimina tutti i {{R}}
  12. converti é -> è (può essere ottenuto con Trova e sostituisci)
  13. virgolette
  14. spostamento note
  15. iniziale maiuscola (per le opere in versi)


PostOCR

Lo strumento postOCR, richiamabile da tastiera con la combinazione Alt+7, ingloba diverse operazioni di correzione del testo ed ha un duplice scopo: rimuovere gran parte dei difetti tipicamente presenti in un testo ottenuto da software OCR - denominati scannos - e inserire automaticamente del codice di formattazione. La versione attuale dello script preserva le parti già formattate - tabelle, link, template, ... - e ciò consente di eseguirlo più volte senza causare modifiche indesiderate alla struttura della pagina; ad esempio, grazie a postOCR è possibile velocizzare la procedura di inserimento degli apostrofi tipografici 1 ponendo in fase iniziale degli apostrofi dattilografici - più facilmente inseribili tramite tastiera - e lanciando poi un'istanza dello strumento.

La quantità di operazioni effettuate da postOCR fa di questo strumento un'importante risorsa durante lo svolgimento dell'attività che costituisce il "cuore pulsante" di Wikisource: la correzione del testo e l'inserimento di template ricorrenti in nsPagina. E lo è nonostante alcune delle sue funzioni siano eseguite automaticamente durante il caricamento del testo fornito dal software OCR in una nuova pagina, poiché esso incorpora alcune procedure che possono essere riutilizzate durante la fase di modifica - e che, se conosciute, consentono di svolgere il lavoro più efficacemente.

Approfondimento: come funziona?

Prima di iniziare ad usare postOCR e per comprenderne appieno l'utilità, occorre avere le idee ben chiare riguardo le operazioni - ripetitive e laboriose - necessarie per trasformare il testo prodotto da un software OCR, anche di elevata qualità, in un lavoro che soddisfi ai requisiti di correttezza e buona formattazione di Wikisource.

Un elenco (incompleto) delle azioni da svolgere per correggere il testo è il seguente:

  1. Rimuovere porzioni di testo non facenti parte del corpo della pagina, come intestazione di pagina, piè di pagina e residui di pagine precedenti o successive.
  2. Verificare che quanto riportato, punteggiatura compresa corrisponda fedelmente all'originale a fronte.
    1. Correggere gli errori di scansione generici;
    2. Correggere gli errori di scansione specifici per l'opera su cui si sta lavorando;
  3. Ricomporre le parole spezzare a fine riga, trascurando inizialmente gli "a capo".
  4. Sistemare le spaziature in corrispondenza dei segni di interpunzione.
  5. Convertire gli apostrofi dattilografici in apostrofi tipografici (ove previsto).
  6. Marcare le aree in versi con i tag <poem>...</poem>.
  7. Nei testi in prosa, esternamente alle aree in versi:
    1. Identificare i paragrafi aggiungendo una riga vuota tra la fine di un paragrafo e l'inizio del successivo;
    2. Ricomporre ogni paragrafo rimuovendo gli "a capo" presenti tra i suoi periodi.

All'interno del namespace Pagina vanno poi eseguite le seguenti operazioni:

  1. Aggiungere in testa alla pagina, nella sezione header, l'intestazione. Ciò dev'essere fatto utilizzando il template {{RigaIntestazione}}, opportunamente compilato: in genere, si devono inserire il numero di pagina ed un riferimento all'opera o al capitolo.
  2. Sistemare le parole spezzate a inizio o fine pagina, usando il template {{Pt}} ("parola tronca" 2).
  3. Verificare se sono presenti citazioni ad autori o opere ed eventualmente aggiungere i riferimenti mediante i template {{AutoreCitato}} e {{TestoCitato}}.
  4. Sistemare le note a piè di pagina usando i tag <ref>...</ref>
  5. Aggiungere, se presente, il piè di pagina nella sezione footer, utilizzando {{PieDiPagina}}.

Eseguendo postOCR, vengono automatizzate una buona parte delle azioni contenute nella prima lista e l'inserimento dell'intestazione di pagina. La procedura può essere poi completata - dopo aver marcato le aree in versi! - con l'utilizzo degli strumenti aggiusta paragrafi e unisci linee. Per la correzione di errori "opera-specifici", postOCR agisce in cooperazione con trova e sostituisci; questa procedura è tuttavia complessa, data la necessità di caricare in memoria e salvare in una pagina le liste di sostituzioni "opera-specifiche" che sono state "ricordate", e verrà trattata a parte.

L'automazione dell'inserimento dell'intestazione di pagina si basa sull'analisi - lettura e caricamento in memoria - del testo completo presente due facciate prima rispetto a quella corrente, alla ricerca della presenza del template {{RigaIntestazione}}. Le intestazioni di pagina sono infatti simili rispettivamente per il recto ed il verso di una pagina di libro 3, tranne che per il numero di pagina; da libro a libro, l'intestazione di pagina può differire in base al capitolo. Ciò che fa postOCR è leggere la riga di intestazione ottenuta, identificare il numero di pagina, adeguarlo per la pagina attualmente in fase di modifica, e inserire in header il risultato ottenuto; nel caso di un cambio radicale di intestazione da una pagina all'altra, è necessaria una correzione manuale. Lo script non inserisce nessuna riga di intestazione se si verifica una condizione tra:

  1. L'analisi non restituisce alcuna riga di intestazione - quindi, nella facciata ispezionata non si trovava alcun template {{RigaIntestazione}}.
  2. Nella pagina che si sta modificando è già presente {{RigaIntestazione}}.

Inoltre, prima di inserire un nuovo template {{RigaIntestazione}}, postOCR verifica - in caso non vi sia ancora alcuna riga di intestazione - la corrispondenza della prima riga del corpo pagina con la riga di intestazione calcolata: se la somiglianza è sufficientemente alta, esso rimuove automaticamente tale riga.

Aggiusta paragrafi

Combinazione da tastiera Alt+6

L'output prodotto da un software OCR non sempre presenta una corretta separazione dei paragrafi originali: alcune volte, infatti, essi vengono giustamente strutturati, altre volte invece il testo fornito è compattato e privo di righe vuote, corrispondenti in sintassi wiki ad un inizio di paragrafo. Lo strumento aggiusta paragrafi serve al rilettore per snellire le operazioni di suddivisione della pagina. Lo script agisce inserendo una riga vuota dopo ogni segno di interpunzione forte - punto fermo, punto esclamativo, punto interrogativo, ... - che in buona parte dei testi indica la fine di un paragrafo; la sua efficacia è alta su testi con periodi molto lunghi, mentre in presenza di frasi molto brevi tende ad aggiungere righe vuote in eccesso. Queste andranno rimosse manualmente.

Prima di avviare aggiusta paragrafi, è essenziale delimitare le eventuali parti in versi con i marcatori <poem>...</poem>, in modo da prevenire l'inserimento di righe vuote di troppo all'interno di queste sezioni.

Unisci linee

Combinazione da tastiera Alt+8

Unisci linee è uno strumento specifico per i testi in prosa e per gli scritti in cui sono presenti sia prosa che poesia, opportunamente delimitata da marcatori <poem>...</poem>. La sua efficacia è massima quando combinato con gli strumenti postOCR e aggiusta paragrafi. Perché?

Grazie a postOCR, le parole tronche a fine riga vengono ricomposte, ma permangono gli "a capo" a fine riga, spesso non necessari. D'altro canto, aggiusta paragrafi aggiunge delle righe vuote ma mantiene intatti i ritorni a capo interni ai paragrafi. Qui entra in gioco unisci linee: gli "a capo" interni ad un paragrafo vengono rimpiazzati da una spaziatura semplice ed il testo viene di fatto compattato. Il vantaggio di avere i periodi compatti e non separati su più righe è quello di poter utilizzare strumenti che agiscono su un singolo periodo, come la formattazione in corsivo, senza doversi preoccupare del fatto che al primo ritorno a capo la sua azione termina.

Una buona prassi, su una nuova pagina contenente il testo OCR appena generato, è quella di lanciare la sequenza postOCR -> aggiusta paragrafi -> unisci linee, ottenendo con il minimo sforzo una formattazione pressoché completa; un'alternativa ancora più comoda è digitare da tastiera Alt+7, poi Alt+6 ed infine Alt+8.


Domande?

Se hai domande, dubbi, proposte o necessiti di chiarimenti sui regex Menu Framework premi qui per lasciare un messaggio nella pagina di discussione oppure apri una discussione nel bar principale.

Note

  1. La convenzione sul trattamento degli apostrofi in sede di trascrizione prevederebbe un utilizzo prevalente dell'apostrofo dattilografico, per la maggior facilità di inserimento. Utilizzando postOCR, si può parzialmente rimediare a quest'impedimento.
  2. In realtà Pt è acronimo di "Pagina-Testo", perchè il contenuto de primo parametro si visualizza in Pagina, il contenuto del secondo in Testo; ma a fini mnemonici "parola tronca" va benissimo :-)
  3. recto e verso di una pagina indicano la facciata destra e sinistra, a seconda della tipologia di scrittura di una lingua.