Open source, software libero e altre libertà/I dati aperti (open data)

Da Wikisource.
I dati aperti (open data)

../Brevetti e software: per chi suona la campana? ../API e nuvole, la faccia chiusa del web IncludiIntestazione 13 maggio 2019 100% Da definire

Brevetti e software: per chi suona la campana? API e nuvole, la faccia chiusa del web
[p. 121 modifica]
I dati aperti (open data)

Il movimento degli open data attira l’attenzione principalmente nel mondo pubblico (cioè nell’ambito della cosiddetta “public sector information”), ma non è necessariamente limitato a tale settore. La tematica riguarda anche il settore privato, anche se con regole leggermente diverse e lasciate più alla convenienza che a un obbligo, salvo casi particolari.

Come per ogni altro campo di indagine nella nostra disamina del mondo open, parlare di dati aperti vuol dire che vi sono dati chiusi. Come può essere chiuso un dato (una banca dati)? Le possibilità sono molte, esaminiamo dunque i vari modi con cui i dati possono essere tenuti chiusi, per poi vedere come si possono aprire e perché.

Come si chiudono i dati
Dati chiusi perché non rivelati, o segreti

La prima forma di chiusura dei dati è la segretezza o la non divulgazione degli stessi. Spesso, nell’affrontare il tema dei dati aperti si inizia con la discussione sulla licenza. Non ha però senso parlare di una licenza se il dato viene tenuto privato.

Non vi è una regola generale per la quale i dati debbano essere resi pubblici. Anzi, semmai la regola è l’opposta: il diritto italiano tutela infatti le informazioni aziendali con due sostanziali norme del [p. 122 modifica]Codice della Proprietà Industriale, ovvero gli articoli 98 e 99. Essi sono stati inseriti nel nostro ordinamento in esecuzione dei trattati TRIPS, dei quali riprendono in modo quasi letterale il contenuto. Prima di essi, si era giunti a una tutela comunque generale dei dati aziendali segreti, attraverso il divieto di concorrenza sleale, contenuto nell’art. 2598 del Codice Civile. I requisiti per ottenere tale tutela sono tutto sommato limitati: deve trattarsi di dati tenuti segreti, ovvero chi li possiede deve aver adottato sufficienti misure per impedirne la divulgazione, e devono avere un qualche valore in sé, all’interno dei beni aziendali.

In ambito pubblico, invece, è difficile parlare di tutela del segreto aziendale. Valgono però due generali principi che potrebbero in astratto interferire. Il primo e più evidente è che i dati detenuti possono essere dati personali e perciò soggetti a divieti di divulgazione, o comunque a regole strette.

La raccolta, la conservazione, il controllo e la gestione dei dati hanno un costo per l’amministrazione. Essi hanno anche un potenziale valore commerciale: l’amministrazione potrebbe infatti cederli dietro compenso. Anche l’attività di diffusione ha un costo, renderli disponibili senza ottenerne un ristoro potrebbe comportare un depauperamento del patrimonio dell’ente detentore. Si è in passato affermato che la diffusione di dati senza ottenere almeno il costo di copia, ma più propriamente un compenso sotto forma di royalty, e il divieto di ulteriore diffusione, fosse una potenziale fonte di responsabilità amministrativa. Alla luce di quanto diremo in seguito, tale preoccupazione direi che è venuta meno. [p. 123 modifica]

Dati chiusi perché oggetto di un diritto di privativa

La comunicazione a terzi di dati può non essere incompatibile con la tutela data dal segreto. Terzi possono ricevere i dati sotto condizione di segretezza, ed essere costretti a detenerli e usarli adottando tutele simili a quelle adottate dal titolare. Questa è però una condizione in pratica ottenibile solo a patto che l’ambito di diffusione sia alquanto limitato.

Almeno in Europa, tuttavia, è stata realizzata una forma di tutela diversa. Chi dimostri di aver effettuato rilevanti investimenti nella raccolta, ordinamento, verifica dei dati ha il diritto di vietare a terzi la copia, l’estrazione di parti sostanziali (anche tramite più estrazioni parziali) e la diffusione di tali dati, anche quando questi venissero in suo possesso. E ciò per quindici anni dalla data in cui la banca dati è stata costituita (prolungabili in caso di dimostrabili ulteriori rilevanti investimenti).

Questo è il diritto fondamentale sul quale le licenze, di cui diremo in seguito, si concentrano. Questo diritto è infatti simile al copyright (in realtà, poiché ha una natura almeno parzialmente differente, si parla di diritto sui generis).

Dati chiusi perché illeggibili

Il dato può essere reso solo teoricamente accessibile, ma di fatto inutilizzabile, perché chi lo riceve non può utilizzarlo in maniera efficiente.

I dati possono essere resi disponibili su un supporto non informatico, come ad esempio un foglio di carta, o una copia fotografica digitale. Tali dati richiederebbero in tal caso un’attività intensa di [p. 124 modifica]acquisizione e verifica del risultato dell’acquisizione. Potrebbero essere forniti su un supporto sì informatico, ma in un formato di archiviazione non standard (vedi il capitolo sugli open standard) e quindi utilizzabile solo con una particolare applicazione o piattaforma, o ancora da un solo soggetto che conosce lo standard e lo implementa. Infine, i dati potrebbero essere forniti in un formato aperto, ma totalmente incomprensibili perché la loro presentazione manca delle necessarie meta-informazioni sulla concreta codifica dei dati stessi. Ad esempio, un set di dati potrebbe essere fornito in un formato XML (che è uno standard aperto), ma in un sottoformato XML non completamente o affatto descritto quanto alla sua semantica (cioè cosa vuol dire un dato inserito in una data posizione e con un dato attributo) e alla sua sintassi (cioè come si interpreta un dato o un insieme di dati, ad esempio se un numero esprime l’età, il numero civico, il codice fiscale, o altro, di una data persona).

Dati semi-chiusi perché diffusi solo
in forma aggregata o con insufficiente dettaglio

A cavallo della leggibilità e della mancata comunicazione, il fatto che i dati siano forniti soltanto in forma aggregata, mentre restano indisponibili i dati disaggregati, o la disaggregazione è a un livello insufficiente per consentire una elaborazione e una verifica di affidabilità, o una qualche forma di regressione statistica. Ad esempio, una ASL può diffondere i dati di mortalità per un determinato tipo di cancro della popolazione comune per comune, ma non rendere disponibile una serie di dati per età alla morte, per [p. 125 modifica]sesso, per familiarità, per condizione genetica rilevante, per occupazione.

È ovvio che il livello di dettaglio necessario perché vi sia un’utilità dei dati dipende dal tipo di analisi che deve essere compiuta e dal fatto che quei dati siano stati raccolti a monte per ciascun individuo o per una porzione significativa della popolazione.

In genere, i dati sono tanto più utili quanto più sono disponibili in forma disaggregata e granulare. Il problema è che spesso i dati disaggregati creano maggiori problemi di tutela dei dati personali (quando ne contengono). La tensione tra queste due istanze è uno dei temi più rilevanti nel dibattito scientifico sugli open data.

Perché offrire dati aperti
La scelta del “se” pubblicare

Abbiamo già detto che per le aziende e i soggetti privati in genere, fornire dati aperti è una scelta inoppugnabile. Solo alcuni soggetti hanno il diritto di pretendere di ottenere tali dati; in genere si tratta di autorità pubbliche, come l’Amministrazione delle finanze o l’ISTAT o le autorità amministrative indipendenti.

Per i soggetti pubblici tale facoltà di non divulgare i dati è molto più limitata. Per alcuni dati, intanto, una forma di pubblicità è imposta. Gli obblighi possono essere di varia natura. I dati reddituali delle persone fisiche sono infatti ad accesso pubblico, anche se ottenerli in forma di dati aperti è impossibile, se non in forma anonima. In altri casi ci sono veri e propri obblighi di fornire i dataset, imposti da normative, [p. 126 modifica]come ad esempio i dati delle imprese conservati dal Registro delle imprese, oppure gli indirizzi di posta elettronica certificata (PEC) utilizzati come domicilio elettronico da imprese e professionisti. Esistono pure direttive europee, come la direttiva PSI1 (Public Sector Information), che impone condizioni di accesso paritario e pubblico, esteso all’utilizzo commerciale, di un esteso insieme di dati pubblici. Esiste poi la normativa interna sulla cosiddetta “trasparenza”.

In molti casi, dunque, la pubblica amministrazione non è arbitra di decidere il “se” rendere disponibili a terzi alcuni set di dati. Può però essere arbitra di stabilire il “come”? In senso assoluto no. La stessa direttiva PSI pone alcuni paletti e requisiti (tendenziale gratuità o rimborso del costo marginale di diffusione, non discriminazione, divieto di accordi esclusivi). Inoltre vale nel nostro paese il principio “open by default”, ovvero, qualora un dataset è pubblicato, e non è espressa una licenza, si deve presumere che tali dati sono liberi per ogni utilizzo, compreso quello commerciale. Si tratta dell’art. 522 del Codice dell’Amministrazione Digitale, “CAD”, che fa riferimento, per la definizione di dato aperto, alla lettera l-ter), dell’art. 1 comma 1 del CAD, il quale tra l’altro impone che i dati aperti siano offerti in “formato disaggregato”.

La scelta del “come” pubblicare: la licenza

Abbiamo detto sopra che i dati sono “protetti” in modo simile al copyright, ma non è copyright. Dunque si tratta di una forma di privativa legata al


[p. 127 modifica]rilevante investimento fatto dal costitutore nella creazione della banca dati. Tale privativa assegna al suo titolare il diritto di proibire la copia e l’estrazione di parti sostanziali della banca dati, ma non l’uso dei dati quale fonte di informazione, se un terzo li ha a disposizione. Ogni operazione di trasformazione delle banche dati comporta solitamente anche una copia degli stessi; anche il semplice agganciarsi a una fonte esterna tramite strumenti di interrogazione (del tipo webservice) messi a disposizione da un terzo, comporta estrazione sistematica. Pertanto se un terzo volesse usare una banca dati di terzi per includerla in un proprio servizio deve di regola ottenere il permesso del titolare.

Il permesso, come sempre, può essere concesso caso per caso (con tutto il sovrappeso burocratico connesso) o una volta per tutte con una licenza pubblica. La licenza pubblica a sua volta può contenere condizioni, modalità, limitazioni. Può insomma essere una licenza “proprietaria”. Ma può più verosimilmente essere una licenza aperta, e allora possiamo parlare, almeno sotto il profilo legale, di “dati aperti”.

Esistono licenze espressamente dedicate ai dati, e sono solitamente licenze dotate di un qualche tipo di copyleft. Una di queste è la IODL3, che nella versione 2.0 ha di molto attenuato il suo copyleft rispetto alla versione 1.0. Pur essendo una licenza tecnicamente ben fatta, io personalmente ho espresso piuttosto chiaramente già dallo studio effettuato con Simone Aliprandi nel progetto freegis.net4 l’opinione che i dati aperti della pubblica amministrazione vadano


[p. 128 modifica]pubblicati con una licenza il più possibile vicina al pubblico dominio, suggerendo la licenza Creative Commons Zero (CC0), di cui abbiamo già parlato nell’articolo dedicato ai contenuti liberi.

Esistono opinioni difformi. L’Agenzia per l’Italia Digitale (AGID) ha pubblicato una guida5 per la pubblicazione dei dati aperti, in cui, si perviene a conclusioni non condivisibili. In particolare ha citato la necessità di usare una licenza di attribuzione come la CC BY, e non la CC0.

Tale posizione è tuttavia del tutto inaccettabile, non solo in quanto privilegia una licenza che secondo chi scrive è inutilmente restrittiva, ma perché non giustifica affatto la ragione di tale preferenza, e le poche giustificazioni che utilizza sono formulate in maniera insoddisfacente, parziale e contraddetta dagli stessi elementi fattuali e normativi presi a suo fondamento.6

In realtà, come anche previsto da comunicazioni ufficiali della Commissione, pur non vincolanti, la licenza di elezione deve essere – quando possibile – quella che crea meno frizione nel riutilizzo dei dati, ovvero un waiver. Dunque, a meno esservi costretti [p. 129 modifica]in casi eccezionali, ad esempio perché occorre reimpiegare dati che sono stati licenziati con condizioni incompatibili, la licenza da utilizzare a parere di chi scrive rimane senza dubbio la Creative Commons Zero.7

Per approfondimenti suggerisco la lettura di Simone Aliprandi, Il fenomeno open data8.

  1. https://ec.europa.eu/digital-single-market/en/european-legislation-reuse-public-sector-information.
  2. http://www.agid.gov.it/cad/accesso-telematico-riutilizzo-dati-pubbliche-amministrazioni.
  3. https://it.wikipedia.org/wiki/Italian_Open_Data_License.
  4. https://freegis.net/documents/10157/14646/FreeGIS+data+licence+1
  5. http://www.agid.gov.it/sites/default/files/linee_guida/patrimoniopubblicolg2014_v0.7finale.pdf, ora rimpiazzate da versioni più recenti, che fortunatamente non fanno più menzione del diritto morale come una delle ragioni per evitare di usare la CC0 https://lg-patrimonio-pubblico.readthedocs.io/it/latest/ index.html, anche se a questo punto manca ogni motivazione razionale per evitare tale licenza, sicuramente per tutti i dati (!) che sono al di fuori del dominio culturale, ed essendo la normativa richiamata in favore dell’uso di un waiver, come si vedrà più sotto.
  6. Ne ho parlato diffusamente in http://www.ingenium-magazine.it/linee-guida-nazionali-e-licenze-per-lopen-data/ a cui faccio riferimento.
  7. Comunicazione della Commissione 2014/C – 240/01 «In questa tipologia riveste particolare interesse la devoluzione al dominio pubblico CC0 (7), strumento giuridico che, consentendo di rinunciare ai diritti di proprietà intellettuale e ai diritti sulle banche dati per le informazioni del settore pubblico, offre ai riutilizzatori una flessibilità totale e riduce le complicazioni collegate all’operatività su varie e diverse licenze con il potenziale conflitto di disposizioni che comporta. Se non possono usare la devoluzione al dominio pubblico CC0, gli enti pubblici sono incoraggiati a ricorrere a licenze aperte standard» [enfasi aggiunta]
  8. http://www.aliprandi.org/fenomeno-opendata/