Utente:Candalua/Sandbox

Da Wikisource.
Vai alla navigazione Vai alla ricerca

roadmap:

presa una pagina indice:

  • vedere quante pagine ha
  • chiamare un parse per ottenere il testo di tutto il libro:
  • strippare i tag html, togliere i css, convertire le html entities in normali caratteri unicode e rimanere quindi con il puro testo. Lasciare però il marcatore dei numeri di pagina
  • lanciare tutti i vari controlli per trovare gli errori. Mostrare la lista degli errori trovati, con link in modifica alla pagina corrispondente.

bonus:

  • possibilità di segnare un errore come "falso positivo" in modo che non venga più riproposto
  • possibilità di scaricare il puro testo