Discussioni utente:Stefano-c/Indagine SAL

Contenuti della pagina non supportati in altre lingue.
Da Wikisource.

Javascript, questo sconosciuto[modifica]

Caro Stefano, ti ringrazio di aver preso a cuore la questione SAL, a cui alcuni amici tengono molto. Dovendo scegliere fra stile e contenuto, io sono istintivamente portato a valorizzare il secondo, e trascurare il primo; ma siccome, come dimostrano i linguaggi tagged, alla fine stile e contenuto devono essere considerati due componenti di una stessa cosa, ci vuole qualcuno che curi molto il primo.

Sospettavo che javascript avesse un ruolo - il ritardo nella comparsa dei simboli SAL negli indici ne è un indizio certo - ma purtroppo non conosco il linguaggio, perlomeno non "come dico io". Cercherò di seguire le tue note, ma ho anche intravisro REGEX, altra mia tremenda lacuna, e so che potrò fare ben poco. Tuttavia, la certezza che c'entri javascript mi incoraggia a sondare le possibilità di esplorare il codice html delle pagine wikisource PRIMA che javascript le trasformi, cosa che dovrei poter fare abbastanza facilmente, sia bloccando l'esecuzione degli script javascript nel browser, sia scaricando via bot l'HTML da wiki, bypassando il browser.

Apprezzo moltissimo l'impianto generale di questa Source, a cui IPork ha dato una particolare impronta e un'architettura che non ho ancora completamente completamente conquistato, ma che mi sorprende sempre per la sua intelligenza; i miei "lavori bot" sono orientati a rispettarla in modo fedele. Tuttavia rilevo che IPork non aveva ancora a disposizione due formidabili strumenti, di cui sto sperimentando la magia:

  • l'estensione Labeled Section Transclusion, che rende disponibile un numero illimitato di "quasi-variabili definite dall'utente" con ciò che ne segue;
  • la piccola, ignorata ParserFunction #titleparts, che è un vero "string parser" in miniatura e le cui potenzialità sono enormemente superiori a quello che il nome suggerisce: un vero e proprio caso di "carattere emergente" da uno script ben fatto, le cui applicazioni vanno ben oltre gli intenti dell'autore.

Buon lavoro e soprattutto, buon divertimento! Sono pochi quelli che hanno il coraggio di seguirmi nelle mie exoteriche, e molto eccentriche, esplorazioni. Sarò lietissimo di potertene ogni tanto parlare, se avrai tempo e voglia. --Alex brollo (disc.) 19:44, 4 giu 2009 (CEST)[rispondi]

Sfortunatamente anche io conosco Javascript solo quanto necessario per poterci fare qualcosina, per le REGEX invece sono totalmente negato :) cosa che mi dispiace moltissimo dato che sono uno strumento molto potente. Riguardo le tue esplorazioni non ti preoccupare, quando vuoi parlarmene ti basta lasciarmi un messaggio nella pagina di discussione, sarò felice di risponderti. --Stefano-c (disc.) 15:31, 5 giu 2009 (CEST)[rispondi]

Prima scoperta[modifica]

Disattivando il javascript le immagini SAL delle pagine nelle pagine Indice restano invariate.... spariscono invece le altre, nel ns0; sparisce anche la scritta SAL negli infotesti. Il segnale SAL relativo alle pagine, nel nsIndice, proviene direttamente dal server tal quale! Almeno così mi sembra di capire. --Alex brollo (disc.) 00:38, 5 giu 2009 (CEST)[rispondi]

Strano, pensi possa essere la cache di MediaWiki? --Stefano-c (disc.) 15:28, 5 giu 2009 (CEST)[rispondi]
Non ne ho la minima idea... per ora solo una vaga sensazione che i dati SAL Pagina viaggino su un differente canale, e che quindi vadano acchiappati e gestiti in modo differente (che poi è il punto da cui siamo partiti, con un briciolino di luce in più; secondo me, la risposta sta in qualche anfratto dell'estensione proofread.).
Mi riservo di scaricare, prima o poi, il dump SQL, per ora ho lavorato solo sul dump XML.
Quanto alle REGEX, mi sono scritto due simpatiche routine python che uso continuamente per rovistare in "stringhe" anche lunghette (tipo la "stringa" da 250 Mby del dump XML di Source); la principale è find_stringa(), che esegue la funzione "estrai la stringa che inizia con XXX e finisce con YYY" e che mi ha dato grandi soddisfazioni sia in testi tagged, che in testi liberi. Se le REGEX ti sono indigeste, ti suggerirei di implementarne l'algoritmo in PHP, a meno che tu non abbia già un tool analogo. --Alex brollo (disc.) 17:10, 5 giu 2009 (CEST)[rispondi]