data scientist

“Vectis mihi et ego commovebo mundi!” (Datemi una leva e vi solleverò il mondo!), diceva Archimede già nel III secolo avanti Cristo. Il possesso dello strumento adatto a una determinata funzione è sempre apparso come qualcosa da cui non si possa prescindere.

Gli strumenti sono spesso una parte importante della capacità di realizzare quanto si è progettato. E parlando dei temi di cui noi stiamo parlando, forse ancora di più.

Ho dovuto fare una scelta. Da un lato, stilare un elenco di tecnologie a à la page, ma inesorabilmente destinato a diventare obsoleto in breve tempo e ad essere tedioso, dall’altro un approccio che tenesse i contenuti a un livello più alto, dando piuttosto una chiave di lettura dei diversi ambiti tecnologici che consentisse di crearsi ciascuno un proprio criterio di selezione.

Ho scelto la seconda. I Big Data fondamentalmente implicano l’utilizzo di tecnologia “pesante”, a livello enterprise. Come per esempio possono esserlo software di analisi e di gestione database, immersi da qualche parte nel backend dei sistemi informatici dell’azienda. E l’adozione di nuove tecnologie di questa portata, tipicamente, richiede il suo tempo.

Ma questa volta abbiamo assistito a un fenomeno che ha saputo sfruttare il rapporto simbiotico che si è sviluppato tra le più importanti e famose Internet Corporation come Google, Yahoo, Facebook, Twitter, LinkedIn e l’ecosistema delle startup.

Gli utenti, che di queste tecnologie richiedevano un uso intensivo e che, al contempo, erano essi stessi degli sviluppatori, spinti da un volume di dati da gestire senza precedenti e grazie alla mancanza di applicazioni legacy (parola che in una traduzione maccheronica dall’inglese ci ricorda da vicino il termine “legaccio”), hanno essenzialmente cominciato a costruire le tecnologie di cui avevano bisogno. Intanto, altri talenti dello sviluppo software stavano creando le proprie startup, destinate a diventare “unicorni digitali”.

Una situazione complessiva senza precedenti, che ha consentito alle Internet Corporation di accedere velocemente, oltre che a soluzioni interne, anche a tecnologie di frontiera sviluppate da startup particolarmente aggressive. E che nel contempo ha attirato i venture capital, i quali a loro volta sono stati capaci di dare ulteriore spinta al settore.

Oggi stiamo invece assistendo a un altro fenomeno. Le aziende di dimensioni da medie a grandi si stanno ponendo il problema di adottare le tecnologie Big Data come elemento chiave per la sostenibilità del proprio modello di business, o per l’evoluzione di questo verso un ulteriore sviluppo.

A differenza delle aziende del primo tipo, queste sono consolidate e hanno certamente sistemi “legacy mission critical” che sostengono la quotidianità del business. Non solo. Hanno un approccio mediamente cauto nei confronti delle nuove tecnologie, preferendo che queste si consolidino e raggiungano una stabilità al di sopra di ogni sospetto. Lo stesso Cloud non è, ad oggi, una soluzione già adottabile per molte di loro.

E come abbiamo visto, una strategia data-driven, che non può quindi prescindere da una strategia Big Data, dipende non solo dalle tecnologie, abilitanti sì, ma non autosufficienti, quanto piuttosto da un insieme ben amalgamato di tecnologie, progettualità, persone, skill, competenze e soprattutto commitment aziendale.

Hanno atteso nella speranza che qualche “fornitore di riferimento” si preoccupasse di mettere sul mercato una soluzione tecnologica integrata, che coprisse l’intero processo e che, grazie all’approccio one-stop-shop sollevasse le aziende dal dover scegliere una strategia e una conseguente roadmap tecnologica. Ma questo in realtà sta tardando ad avvenire.

E mentre guardano con preoccupazione al proliferare di startup che ogni giorno paiono presentare la panacea di tutti i possibili problemi legati alla trasformazione data-driven, stanno contemporaneamente cercando di capire come debbano nel frattempo procedere: progressivamente, sviluppando infrastrutture, modelli analitici, applicazioni che li utilizzino, o piuttosto costruire un Moloc assetato di risorse, da mettere in produzione durante una fredda notte d’inverno…, o ancora aspettare che davvero qualcuno o qualcosa risolva tutti i loro problemi rendendo la vita più facile.

Ormai è passato un decennio da quando Hadoop ha fatto la sua comparsa, e grazie al fatto che l’innovazione in quest’area dello sviluppo di applicazioni è rimasta sempre molto alt, la capacità elaborativa cosiddetta in-memory è cresciuta ancora, spostando più in là la frontiera di ciò che possiamo permetterci di pensare e realizzare.

Un esempio su tutti è dato da Apache Spark, un framework open source che tanto IBM quanto Cloudera, per fare due nomi importanti, hanno adottato dandogli peso e credibilità. E che è molto più veloce di Hadoop (benchmark hanno dimostrato che Spark è da 10 a 100 volte più veloce di MapReduce di Hadoop), è più facile da programmare e ben si adatta a sviluppare applicazioni di machine learning.

Anche nel mondo del database c’è fermento. Per fare un esempio, Neo4j, un database che utilizza tecnologia a grafo e che è completamente scritto in Java, ha oggi raggiunto un grado di maturità tale da renderlo appetibile per le aziende consolidate, quelle a cui ci stiamo rivolgendo. E lo stesso sta avvenendo per quei prodotti utili per la realizzazione di strategie di Data warehouse in Cloud, anche questi per solidità e chiarezza di visione ormai sdoganati, come Snowflake, nella lista dei Cool Vendor di Gartner del 2015, per fare un esempio.

Il più importante trend emerso negli ultimi mesi nel campo della Big Data Analysis è stata la crescente e rinnovata attenzione per l’AI (Artificial Intelligence). Finalmente i possibili “use case” per l’applicazione delle strategie di machine e deep learning sono sotto gli occhi di tutti, rendendo sempre più stretto ed efficace il rapporto tra Big Data e AI. E non è un caso. L’AI sta davvero facendo cambiare marcia alla Big Data Analysis e la crescente attenzione per il machine learning nello sviluppo di strategie di analisi corrisponde di fatto al livello successivo di sviluppo di queste ultime. E la frontiera si sta spostando anche qui.

Il Data Scientist oggi può utilizzare strumenti e applicazioni che possono estrarre formule matematiche (Context Relevant ne è un esempio), possono automaticamente costruire e consigliare in modello di Data Science che con maggiore probabilità darà i migliori risultati in relazione al contesto (DataRobot). O ancora una capacità di analisi applicata alle immagini, portandole a far parte di quel famoso 5% di dati non strutturati e significativi per l’azienda (MetaMind e Clarifai operano in questo ambito con successo).

E in questo ambito si giocherà una partita importante per i Data Scientist. Essere capace di intravedere in queste applicazioni una opportunità per elevare ulteriormente il livello a cui porsi. Certamente, le attività più routinarie saranno le prime ad essere delegate completamente alle applicazioni di AI, liberando risorse intellettuali e aumentando di molto la velocità con cui giungere a un risultato aziendalmente significativo e conseguentemente aumentare l’efficacia della propria attività.

Un altro elemento di trend che è utile sottolineare è la generale crescita e maturità raggiunta dalle piattaforme di Big Data per quanto riguarda l’elaborazione dei dati in real time (SiSense e Arcadia giocano la propria partita in questo campo).

Le tecnologie innovative stanno quindi rapidamente crescendo e il panorama cambia con velocità, mentre i produttori di software consolidati (Sas Institute, IBM, Oracle, per fare alcuni esempi) sono stimolati dalle soluzioni emergenti a mantenersi sempre aggiornati e nel contempo “guardiani” della stabilità e delle roadmap certe.

Da qui il ruolo del Data Scientist nel presidio dell’innovazione e delle guida all’adozione di questa in azienda. Dai Data Scientist dipende lo scouting delle soluzioni innovative, la sperimentazione delle stesse, la verifica della possibilità di una proficua adozione in azienda. In equilibrio tra competitività e innovazione.

Soluzioni di piattaforma che trattano i Big Data come elementi nativi della loro architettura possono essere considerati come oggetti “in a box”, che non richiedono l’implementazione di substrati di tecnologia Big Data, possono rappresentare un’ottima opportunità di sperimentazione, da un lato, e di apertura verso queste nuove tecnologie della cultura aziendale.

Applicazioni che fanno leva su tecnologia di AI hanno un grado di automazione delle attività a carico dei Data Scientist che vanno dal 100%, con scarsa o nessuna interazione umana, ad applicazioni che invece sono vere e proprie soluzioni di human augmentation.

  • Capitolo tratto dal libro “Data Scientist, tra competitività e innovazione” scritto dall’autore, e pubblicato da FrancoAngeli Editore, Milano, anno 2018, (pagg. 132 – 137)