Utente:Candalua/Sandbox
Vai alla navigazione
Vai alla ricerca
roadmap:
presa una pagina indice:
- vedere quante pagine ha
- chiamare un parse per ottenere il testo di tutto il libro:
- strippare i tag html, togliere i css, convertire le html entities in normali caratteri unicode e rimanere quindi con il puro testo. Lasciare però il marcatore dei numeri di pagina
- lanciare tutti i vari controlli per trovare gli errori. Mostrare la lista degli errori trovati, con link in modifica alla pagina corrispondente.
bonus:
- possibilità di segnare un errore come "falso positivo" in modo che non venga più riproposto
- possibilità di scaricare il puro testo