Progetto:Bot/Programmi in Python per i bot

Da Wikisource.
Programmi in Python per i bot

Categoria: Programmi in Python per WikisourcePortale progetti   Progetto bot   Programmi 

In questa pagina sono raccolti degli script appositamente scritti per eseguire operazioni comuni e ripetitive su Wikisource.

Tutti gli script utilizzano il framework Pywikibot quindi, per poter essere usati, è necessario:

  • Avere correttamente installato e configurato Pywikibot (versione core).
  • Salvare gli script nella stessa cartella dove è installato Pywikibot.
  • Ulteriori istruzioni su come avviare i singoli script si trovano nelle relative pagine.
Nota
nel corso del 2020 pywikibot potrà essere eseguito solo con python3. Tutti gli script python devono essere rivisti e modificati per assicurarne il corretto funzionamento.

Script attualmente in uso[modifica]

In questa sezione sono indicati gli script che vengono attuamente eseguiti periodicamente su it.wikisource.

Dell'esecuzione periodica di questi script si sta occupando Utente:CandalBot; per qualunque questione rivolgersi al manovratore, Utente:Candalua.

Programma a cosa serve
ElencoAutori.py Mantiene aggiornati gli elenchi alfabetici e cronologici degli autori presenti su Wikisource. E' l'evoluzione del precedente ListeAutori.py.
CategorieAutori.py Genera le categorie "Testi di ...", "Testi in cui è citato ..." e simili
CategorieAutoriPer.py Genera le categorie "Autori per nazionalità", "Autori per attività", "Autori per periodo storico"
CategorieTesti.py Genera le categorie "Testi in cui è citato il testo", "Pagine in cui è citato il testo"
importScript.py Carica la versione aggiornata degli script leggendoli da questa pagina.

Script in fase di test[modifica]

Programma a cosa serve
uploader7.py Carica in nsPagina il testo OCR pre-elaborato e crea in ns0 le pagine elencate in Sommario.
bgRemove.py elimina il layer background dalle pagine djvu, conservando il foregrund (immagine del puro testo) e lo strato testo.
djvuCl.py rimedia alla recente indisponibilità di file derivati djvu di Internet Archive costruendo un file djvu (con struttura "foto", piuttosto pesante) con i file .jp2 e il file djvu.xml sempre presenti negli item IA recenti. Un po' di doc qui: /djvuCl.py/doc
fixRitaglio.py versione 1 Ritaglio nelle pagine di un Indice, estrae l'immagine della pagine e produce le immagini "ritagliate" pronte a essere caricate su Commons. Se sono molte il caricamento è molto facilitato dall'uso di commonist.
fixOCR.py Nuova versione semplificata per la correzione massiva di imprecisioni dello strato testo di un file djvu, in un unico passaggio. Ad ogni parola dell'OCR viene applicata una lista di sostituzioni memorizzate in un file txt esterno, replace.txt (codice UTF-8), con un singolo comando che chiede solamente il nome del file djvu: python fixOCR.py [nome file djvu]
ia.py Interfaccia IA in fase di sviluppo per la gestione della collezione itwikisource (uploading di file; modifiche di metadata), basata su internetarchive.py.
abbyyXml.py Script per il parsing dei file _abbyy.gz (xml compresspo con gzip) di Internet Archive
xml2dsed.py Script per la riparazione dei file djvu senza testo prodotti da IA Upload (utilizza il djvu senza testo di IA Upload e il file _djvu.xml di Internet Archive)
iaPict.py Bozza di script per l'estrazione delle illustrazioni dei libri da Internet Archive
matchAndFix.py Script per la correzione di un tersto (tipicamente da OCR) mediante confronto con un testo (anche strutturalmente diverso) già corretto
allinea.py Script per la clonazione del codice originale linkato mediante template Iwpage e IwpageSection, e predisposizione degli ulteriori allineamenti

Script obsoleti[modifica]

Gli script che seguono sono obsoleti e non più necessari. Non devono quindi essere eseguiti. Vengono mantenuti su questa pagina solamente per interesse storico.

Programmi per gli autori[modifica]

Programma a cosa serve automatico 1
ConteggioAutori.py Aggiorna il template con il numero di autori pubblicati si
ListeAutori.py Aggiorna le liste relative a tutte le categorie di autori si
TemplateAutori.py Crea/Aggiorna i template contententi i dati utili per ogni autore obsoleto, i dati vengono presi direttamente dalla pagina di ogni autore mediante trasclusione no

Programmi per i testi[modifica]

Programma a cosa serve automatico 1
ConteggioTesti.py Aggiorna i template con il numero di testi pubblicati - WIP si
ConteggioTestiSAL.py Aggiorna i template con il numero di testi pubblicati per SAL si
ListeTestiAlfabeto.py Aggiorna le liste alfabetiche dei testi - WIP si
ListeTestiSAL.py Aggiorna le liste relative a tutte le categorie SAL dei testi e le tabelle con le statistiche si
CercaNonVerificate.py Cerca le pagine nel namespace principale che non hanno la relativa pagina discussione.

I risultati li visualizza sul terminale (per adesso sono da copia-incollare da qualche parte a mano sul wiki).

no
ContatoriMemento.py Conteggia le pagine per Statistiche manutenzioni e template memento. si
Infotesto.py Crea le pagine discussione delle sottopagine di un opera, includendo come un template la pagina discussione della pagina principale dell'opera no
aubrey.py bot interattivo, esegue richieste varie, che riceve mediante applicazione del Template:ToAlebot no

Programmi di supporto[modifica]

Utilizzati da altri programmi.

Programma a cosa serve ultima modifica
templateHandler.py Libreria di funzioni per maneggiare i template.
scriptsLoad.py Carica su toolserver la versione aggiornata degli script python automatici presenti su questa pagina.
parseTemplate.py Contiene la funzione parseTemplate() che converte il testo di un template in un dizionario.

Note

  1. 1,0 1,1 I programmi automatici vengono lanciati quotidianamente senza l'intervento di operatori. Vanno usati manualmente solo all'occorrenza.