Home » News Lavoro » web e tech

Il lato oscuro dei dati

Il lato oscuro dei dati è quell’universo non rilevabile che influenza fortemente la realtà.

Condividi questo bel contenuto


Tutti sappiamo che per fare una buona analisi di un qualsiasi evento, situazione, progetto futuro servono i dati. Ne servono tanti, strutturati, ben raccolti, precisi, affidabili, concreti. Le caratteristiche che devono avere i dati possono essere infinite. Per questa ragione una quantità enorme di esperti tratta questi “numeri” in maniera sempre più appropriata e raffinata. Lo scopo è quello di restituire informazioni precise che aiutino a trovare e risolvere problemi, nonché a prevederli. Ma non solo; i dati forniscono anche un’istantanea di una situazione, o il percorso a causa del quale essa si è verificata. Identificano esattamente modi di fare. Eppure esiste una sorta di lato oscuro dei dati di cui nessuno tiene conto, anche perché non può. Una specie di altra metà della luna che non si vede, che c’è ma non c’è. E che, proprio per questa ragione, non è analizzabile, anche se la sua importanza è enorme.

il lato oscuro dei dati

Ma di cosa stiamo parlando esattamente? Per cercare di essere chiari ed usare parole semplici in modo da esprimere in maniera molto diretta il concetto, potremmo dire che una mole enorme di dati non esiste ma se esistesse conterebbe davvero molto nelle analisi. I dati con cui abbiamo a che fare infatti, in qualsiasi occasione, sono e possono essere sempre e solo quelli che qualcuno è in grado di raccogliere. Non è in discussione la loro affidabilità rispetto a ciò che dicono, ma molti eventi si verificano anche senza che vi sia una raccolta dati e per questa ragione non possono essere analizzati. Addirittura il non verificarsi di un evento è spesso un dato teoricamente fondamentale. Solo che non è misurabile. Quindi tecnicamente parlando “ci scappa un pezzo di realtà”, che non potremo mai constatare, né tantomeno rilevare. Quindi nessuna analisi o previsione risulterà possibile su quel pezzo di realtà. Vuol dire che la realtà che noi trattiamo coi dati non è tutta quella che esiste, è solo una parte. L’altra di parte, la influenza, ma non possiamo sapere come e perché.

Il lato oscuro dei dati e la tecnologia

Facciamo un esempio concreto per capirci meglio. Negli ultimi anni si sta parlando molto di veicoli a guida autonoma. Molte aziende che hanno investito in questo campo sono fallite o hanno chiuso, altre invece continuano nella loro sperimentazione. Altre ancora hanno già messo sul mercato veicoli parzialmente autonomi, ovvero mezzi che possono guidare da soli in alcune zone, a determinate velocità e sotto il verificarsi di certe condizioni. Questi veicoli sono stati sviluppati raccogliendo una mole a dir poco impressionante di dati sulla circolazione e sulla guida. Ciò ha permesso di sviluppare sistemi in grado di far muovere le auto da sole sulle strade, almeno in alcuni casi. Una volta che questi mezzi sono entrati in servizio, ovviamente la raccolta dati è proseguita e molti sostengono, ad esempio, che gli incidenti, siano di gran lunga di meno rispetto a quelli che accadono durante la guida umana.

Ecco, qui sorge però un problema concreto e riguarda proprio la raccolta dei dati.  Ad esempio, un veicolo autonomo che percorre 100.000 km non è sottoposto alle stesse difficoltà di 10 veicoli a guida umana che ne percorrono 10.000 km ognuno. Nel secondo caso i mezzi che girano sono dieci volte tanti e affrontano difficoltà almeno dieci volte maggiori, almeno. E lo fanno contemporaneamente. Il che vuol dire che il dato dei km percorsi è sì fondamentale, ma non è l’unico. Confrontarsi con i problemi di un percorso non è come farlo con dieci percorsi differenti, con dieci auto differenti, in condizioni tutte diverse tra loro (meteo, zone, orari e via dicendo). Quindi tecnicamente alcuni dati non li abbiamo e non li possiamo confrontare.

Perché se è vero che possiamo far girare anche dieci veicoli autonomi contemporaneamente, il raffronto andrebbe però fatto su larga scala. Abbiamo miliardi di auto a guida umana, ma non abbiamo miliardi di auto a guida automatica. E non è per niente detto che la generalizzazione replichi i risultati di un esperimento o anche di una realtà ancora molto limitata. Per avere dati affidabili senza possibilità di smentita sulla guida autonoma, dovremmo poter replicare l’esatta situazione, nello stesso momento e alle stesse condizioni, ogni singola volta.  Certamente quelli raccolti di dati hanno il loro perché e sono molto importanti, ma alcuni altri appunto, non li abbiamo ed il fatto di confrontare due situazioni diverse attraverso i dati attualmente in nostro possesso è palesemente una scelta prettamente umana, che per giunta viene quasi sempre fatta da chi la guida autonoma la sostiene e la studia (quindi non da chi invece è critico sulla stessa).

Per essere ancora più chiari possiamo però prendere un caso più a livello micro. Sempre parlando di incidenti abbiamo già detto come secondo i sostenitori della guida autonoma questi siano molti di meno rispetto a quella umana. In questo senso c’è un “ma” che non viene considerato. Mentre per un veicolo autonomo si hanno tutti i dati a disposizione e si sa esattamente cosa ha fatto e perché, per uno a guida umana il “perché” è impossibile da sapere. Per conoscerlo dovremmo essere in grado di leggere nel pensiero di chi guida, in ogni momento. Non solo, bisognerebbe anche poterne comprendere le intenzioni. Ovvero non solo sapere cosa ha fatto, ma anche cosa lo ha spinto a farlo. Il ragionamento completo dall’inizio alla fine, tutte le informazioni che ha usato per farlo, il modo in cui le ha usate e perché ha usato proprio quel modo lì. Il che, tradotto in soldoni, vuol dire che una persona potrebbe anche fare una manovra complessa ed addirittura ritenuta azzardata da qualcuno, ma che però è atta ad evitare un incidente. Ecco che se quest’ultimo non si verifica, il dato da raccogliere non c’è e nessuno saprà mai quanto l’autista è stato bravo.

La stessa cosa può accadere anche senza fare alcuna manovra. Se un autista non fa niente in una determinata situazione, perché capisce che in quel momento è meglio appunto non fare niente, nessuno ed in nessun caso sarà in grado di raccogliere un dato sul fatto di non aver fatto niente. Eppure lì, qualcosa è successo: ovvero l’autista ha letteralmente preso una decisione che ha salvato o almeno scongiurato una situazione difficile. Anche se questo non è dimostrabile, non è visibile, non è sfruttabile matematicamente e quindi a livello di dati semplicemente non esiste. Non esistendo, nessuno potrà mai insegnare ad un veicolo a fare la stessa cosa (cioè niente, in quella data situazione). Ecco quindi che alla guida autonoma mancherà un “pezzo” di capacità decisionale, in dotazione invece all’essere umano.

Il lato oscuro dei dati e gli esseri umani

Stando sempre sugli incidenti ma senza scomodare la guida autonoma, si può a ragione sostenere ad esempio, che non è possibile giudicare la bravura di un guidatore solo da quanti incidenti ha fatto. I dati che abbiamo infatti riguardano il numero di incidenti in cui è stato coinvolto, ma non esistono e non possono esistere dati su quanti ne abbia evitati. Eppure è, o meglio sarebbe, un parametro fondamentale. Come guida quella persona? E soprattutto, perché guida in quel modo? Perché ha fatto o non ha fatto una certa manovra in quel determinato punto e momento? Perché va a quella velocità piuttosto che ad un’altra? Per quale ragione occupa un certo lato della corsia piuttosto che un altro in quel preciso tratto di strada?

Sono tutte domande che potrebbero rispondere a quesiti necessari a capire quanto è capace un autista, e certamente afferiscono anche alla sicurezza stradale. Sono infatti comportamenti che almeno potenzialmente, se ben attuati, evitano incidenti. Addirittura li possono prevenire, facendo in modo che, non solo l’incidente stesso, ma anche il “prima”, ovvero una situazione pericolosa, letteralmente, non si verifichi. Ma per lo stesso principio spiegato precedentemente, una cosa che non ha conseguenze concrete misurabili non è rilevabile, anche se tecnicamente parlando è accaduta. Di conseguenza nessuno avrà mai quelle risposte, che però potrebbero certamente aiutare.

Si tratta appunto di un fenomeno che potremmo chiamare il lato oscuro dei dati, ovvero quella particolare condizione per la quale essi non esistendo non riescono a rilevare un qualcosa che però è successo. Non è un problema di raccolta delle informazioni, né di come queste vengono trattate. Semplicemente ci sono cose che fanno così tanto parte della capacità decisionale umana e solo di quella, che non è possibile “ingabbiarle” in qualche freddo numero. Di esempi di questo tipo se ne possono fare un bel po’: se a due persone viene chiesto di studiare lo stesso testo e la prima risulta più preparata della seconda durante un’interrogazione, la seconda è per forza meno brava?

No, perché ad esempio il giudizio non comprenderà quali siano i  fattori esterni che hanno influenzato la capacità di prepararsi dei due protagonisti. Chi è risultato meno “informato”, potrebbe essere stato vittima di difficoltà che l’altra persona non ha dovuto affrontare. Ma queste eventuali difficoltà non saranno certo raccontate durante l’esame e così a chi dovrà dare il “voto” finale mancheranno delle informazioni fondamentali per valutare oggettivamente. Inoltre la preparazione potrebbe essere la stessa, o addirittura superiore in chi ha preso un voto minore, ma quest’ultimo potrebbe essere stato meno bravo ad esprimersi. Volendo giudicare solo la mera preparazione, questo è un altro bug, un’informazione che chi deve decidere non ha e prenderà magari la minore capacità ad esprimersi come un indice di minor studio, assegnando così un voto più basso.

Quello che chiamiamo il lato oscuro dei dati è quindi esso stesso un dato a livello macro, pur del tutto teorico, un universo certamente esistente ma del tutto invisibile, nel quale non si può entrare perché soggetto a parametri così nascosti (informazioni non ricevute o ritenute non pertinenti) e cosi aleatori (ad esempio le intenzioni umane) che sono in grado di creare una barriera impenetrabile. E’ pur vero che se l’intenzione umana non è possibile spiegarla coi numeri, è però possibile raffinare la raccolta dati in modo da ritenere appunto pertinente qualcosa che prima non lo era. Però, anche questo processo è soggetto all’intenzione umana, in specifico quella di chi i dati li deve raccogliere. Il ricercatore potrebbe infatti includere dei parametri ma escluderne degli altri, orientando così involontariamente i risultati. Ed anche includere tutti i parametri possibili potrebbe non essere la soluzione giusta. L’unica via esatta sarebbe appunto quella di servirsi di tutte le intenzioni in un determinato luogo e momento di tutti i soggetti coinvolti nell’evento in analisi. Ma è appunto impossibile fare una cosa del genere, visto che non si possono conoscere.

Insomma da una parte o dall’altra ci sarà sempre qualcosa che non potremo misurare ma che se potessimo fornirebbe informazioni fondamentali. Questo probabilmente significa che faremmo bene a non basare l’intero nostro giudizio e quindi letteralmente il nostro futuro, solo sui dati numericamente espressi. Perché ci sarà sempre qualcosa che non sappiamo che avrà un’importanza fondamentale, anche se noi non saremo mai in grado di sapere cosa.

Cerchi un nuovo lavoro?

Per avere sempre offerte di lavoro reali e verificate nella tua casella email in linea con le tue esigenze: Registrati su Euspert Bianco Lavoro

Condividi questo bel contenuto
× Eccomi!