Ehi Siri, non servi più a niente
Alcuni dipendenti Apple sarebbero molto scettici sul futuro dell’assistente vocale Siri, che paragonata ai moderni chatbot sembra essere rimasta decisamente indietro.
Tempo stimato per la lettura: 11 minuti e 7 secondi
In sintesi:
Molti ex-dipendenti di Apple sono scettici sul futuro di Siri, rimasta troppo indietro rispetto agli standard del mercato
Non solo Siri, gli assistenti vocali sembrano aver perso completamente la gara contro i chatbot basati su intelligenza artificiale. Tra i vari Siri, Google, Alexa e chatGPT, non c’è confronto.
C’è però un settore in cui gli assistenti vocali potrebbero essere fondamentali: il supporto alle disabilità sia fisiche che mentali. Ecco perché non devono sparire dal mercato.
Questa settimana ha stuzzicato la mia curiosità una notizia apparentemente molto piccola. Una di quelle che fatichi a trovare sulle testate nazionali. La notizia riguarda il fatto che molti dipendenti Apple siano scettici sul futuro di Siri, l’assistente vocale che l’azienda lanciò sui propri dispositivi nel 2011.
La notizia potrebbe apparentemente suscitare un bel “chi se ne frega!”, ma mi ha portato a riflettere sullo stato attuale degli assistenti vocali. Mi sono chiesto quindi come mai quello che sembrava dovesse essere la punta di diamante della ricerca sull’intelligenza artificiale e sullo studio dei modelli di linguaggio, sia rimasto, allo stato attuale, anni geologici dietro alle ultime novità, che rispondono al nome di ChatGPT e di tutte le altre diavolerie che ricadono sotto il nome di IA generative. Gli assistenti vocali, diciamocelo francamente, hanno completamente perso la corsa verso il primato nell’uso dell’IA negli assistenti vocali e più in generale nei loro sistemi operativi.
Ora voglio parlare a quelli di voi che hanno utilizzato chatGPT almeno una volta. Oltre allo stupore per l’accuratezza e la naturalezza delle risposte, non vi siete sorpresi per il livello stupefacente di comprensione delle domande che gli fate (o le fate. Sarà un lui o una lei?), peraltro in lingua italiana?
A chatGPT si può chiedere qualsiasi cosa, anche nell’italiano più strampalato, e il sistema capisce. Capisce e risponde in un italiano altrettanto perfetto. Cosa che, diciamocelo francamente, gli assistenti vocali ancora non riescono a fare. Anzi, fino a poco tempo fa la maggior parte di questi litigavano con la punteggiatura mentre li si utilizzava per dettare un messaggio.
Queste nuove intelligenze artificiali hanno, per farla breve, spazzato via con un colpo di spugna quanto fatto dagli assistenti vocali, e in questo caso non mi riferisco soltanto a Siri, ma anche ai concorrenti di Google, Samsung, Microsoft e persino Alexa di Amazon che, è opinione personale, è di gran lunga la più avanzata.
Come mai così poche evoluzioni in 12 anni?
A questo punto viene da fare un collegamento: cosa succederebbe se mettessimo insieme un buon algoritmo di sintesi vocale alle capacità di GPT? E ancora: chi è che ha “in casa” sia la tecnologia di sintesi vocale che GPT? La risposta è facile per chi è un minimo aggiornato sulle questioni tecnologiche: Microsoft. È lei infatti che ha investito in maniera corposa (circa 13 miliardi di dollaroni, al momento) in OpenAI, che è la società che sviluppa GPT. Ed è sempre lei che ha integrato GPT con Bing, il motore di ricerca che sembrava dimenticato e che invece, proprio grazie a questa iniezione di IA, è tornato a crescere nelle visite e nelle ricerche.
Microsoft ha quindi una grande opportunità per scardinare completamente la situazione degli assistenti vocali, ma a che punto sono gli altri? Torno all’argomento iniziale: come mai gli stessi dipendenti di Apple sono scettici sul futuro di Siri?
A raccontare lo stato della divisione che si occupa di Siri è The Information, che ha raccolto le dichiarazioni di decine di ex dipendenti Apple, i quali parlano di “problemi organizzativi e mancanza di ambizione”. E questi problemi deriverebbero da ostacoli tecnici non trascurabili. Un articolo del New York Times parla chiaramente di una struttura tecnologica farraginosa.
John Burkey, ex ingegnere Apple, parla di codice “mal scritto” che richiederebbe settimane per essere aggiornato nelle sue funzioni più banali. Secondo questi tecnici, il problema della scarsa evoluzione di questi strumenti negli ultimi dodici anni è da cercarsi nello scarso ritorno economico che gli assistenti stessi hanno portato. Le aziende immaginavano di aver trovato l’ennesima gallina dalle uova d’oro, qualcosa che spingesse in avanti le vendite dei dispositivi. Così non è stato, tant’è che anche l’hardware espressamente pensato attorno agli assistenti vocali, gli onnipresenti smart speaker che oggi prendono polvere nelle nostre case, oggi rappresenta una percentuale trascurabile nei bilanci delle Big Tech. Intendiamoci, il mercato mondiale degli smart speaker si aggira attorno ai 10 miliardi di dollari di valore e si ritiene possa arrivare a più di 30 entro il 2028, ma i player sono tanti e sul bilancio di giganti come Apple e Google, rappresentano una quota di fatturato piuttosto limitata (per capirci: Apple ha quasi raggiunto i 400 miliardi di fatturato annui).
Gli assistenti vocali sono roba vecchia
Insomma, per farla breve, la dice bene Satya Nadella, CEO di Microsoft, secondo cui gli assistenti vocali sono “stupidi come la roccia”, il futuro è rappresentato dai chatbot guidati dall’intelligenza artificiale. Ma dove sta esattamente la differenza tra Siri e chatGPT (premesso che non sono la stessa cosa, ovviamente)?
Di base, la grandissima differenza che c’è alla base di praticamente tutti gli assistenti vocali, è che vengono istruiti con un set finito di informazioni. Si appoggiano quindi a un database di vocaboli e frasi che sono finiti e che vanno sempre aggiornati.
Al contrario, i chatbot basati su intelligenza artificiale, usano il machine learning per auto-apprendere sulla base di grandissime quantità di dati. Da qui nasce, tra le altre cose, la questione sull’attribuzione della proprietà intellettuale dei risultati che forniscono. Quando un’intelligenza artificiale “crea” qualcosa, lo fa sulla base di qualcosa che ha studiato dal web o da altre fonti. La domanda che ci si sta ponendo quindi è: di chi è veramente la proprietà di quello che un algoritmo di intelligenza artificiale genera? Ma questa è un’altra storia.
Di base, quindi, abbiamo da un parte gli assistenti vocali, che richiedono un’istruzione “manuale” impartita dall’uomo, dall’altra abbiamo degli algoritmi che auto-apprendono e che quindi procedono a tutta un’altra velocità. Non è un caso se abbiamo iniziato a parlare di GPT3.5 a novembre 2022 e ora possiamo già utilizzare GPT4, che è completamente su un altro livello. Se, come dicevamo prima, Siri ha bisogno di settimane per implementare anche la più basilare delle funzioni, è evidente come qui si stia facendo gareggiare una carrozza a cui si aggiungono anno dopo anno dei cavalli, contro dei bolidi da formula 1.
Non è vero, gli assistenti vocali sono fondamentali
A questo punto ci si potrebbe chiaramente dire: benissimo, dimentichiamoci di Siri, Alexa e compagnia bella. Gli assistenti vocali non servono più a niente. Mi sono davvero chiesto se avessero ancora senso finché non mi sono imbattuto in questo articolo di TDS sull’accessibilità degli assistenti vocali.
Troppo spesso ci dimentichiamo di chi non ha le nostre stesse possibilità. Non stiamo parlando di poche persone: più di un miliardo di persone nel mondo vivono con una qualche forma di disabilità. Gli assistenti vocali possono letteralmente cambiare la vita di queste persone e questo articolo a firma di Angus Addlese entra nel dettaglio dello stato attuale e delle difficoltà che dovranno superare questi strumenti per ogni tipo di disabilità.
È incredibile come ci si renda immediatamente conto di quanto gli assistenti vocali non siano soltanto dei giochini per casalinghe/casalinghi annoiati che preferiscono chiedere ad Alexa di mettere un timer con la voce anziché con le mani. Gli assistenti vocali, al contrario, possono cambiare completamente e migliorare la qualità della vita di persone con moltissime tipologie di disabilità. Provo a fare un riassunto:
Disabilità mentali
I disturbi cognitivi impattano su moltissime attività delle persone: sulla memoria, per esempio, oppure sull’attenzione, sulla capacità di risolvere problemi o di prendere decisioni; non solo, i disturbi cognitivi impattano anche sul linguaggio, sulla velocità con cui si parla e sulle pause.
Tutto questo mette in luce un problema tecnico che rappresenta veramente una sfida anche per le intelligenze artificiali più evolute. Nessun assistente, ad oggi, riesce a tararsi sui tempi di risposta di una persona che parla con difficoltà, che usa delle pause lunghe, che ripete più volte le stesse cose o che balbetta. Potete immaginare Siri o Alexa alla prova con una persona che fa pause anche solo di qualche secondo?
Proprio per questo sono nate applicazioni come UB-OK o Kindspace, fondamentalmente delle chat (anche vocali, nel caso di Kindspace), che rappresentano uno spazio importante per chiunque, sia persone con disturbi mentali che non, voglia condividere preoccupazioni e ansie senza paura di essere giudicato.
Secondo l’articolo di Addlese, la ricerca nell’ambito della Human-Robot Interaction (HRI) è molto attiva in questo settore. Nonostante ci sia ancora molto da fare nel riconoscimento vocale, l’interazione tra l’uomo e la macchina è migliorata molto e utilizza oggi delle tecniche di comunicazione psicologica per incoraggiare l'auto-riflessione e aiutare chi soffre di solitudine o di certe forme di depressione.
Disabilità fisiche
Quando parliamo di disabilità fisiche, dobbiamo innanzitutto considerare la vista. Sappiamo infatti che i problemi con la vista sono spesso collegati alla malnutrizione semplicemente perché chi è cieco o ipo-vedente ha problemi a portare a termine quelli che spesso riteniamo compiti banali: fare la spesa, preparare da mangiare o cucinare. È evidente che un assistente vocale può completamente cambiare la vita a una persona con questo tipo di disabilità.
Un sistema che semplicemente “legga” quello che c’è attorno a chi soffre di disturbi della vista, può cambiare completamente il modo con cui queste persone vivono le difficoltà quotidiane. Anche in questo caso, però, c’è un enorme scoglio tecnico da superare: l’affidabilità del risultato. Se un sistema di questo genere sbaglia, può causare problemi molto gravi. Pensiamo soltanto al riconoscimento di una medicina o di un alimento a cui si è allergici.
L’articolo fa degli esempi su come si sta lavorando a riguardo, cercando di allenare sempre di più questi modelli di machine learning e fornendo come risposta una serie di probabilità. Nell’esempio che riporto qui sopra, l’algoritmo risponde “Sono convinto al 90% che si tratti di una sedia e al 60% che si tratti di un tavolo”. Non è molto, ma almeno pone il dubbio e da un peso probabilistico a questo dubbio.
Mobilità limitata
Oggi utilizziamo gli assistenti vocali per cose veramente stupide. Chiediamo a Alexa di riprodurre la musica, che tempo fa, di impostare un timer o un promemoria. Ci sono persone per le quali invece un’assistente vocale potrebbe fare la differenza, come le persone che hanno scarsa mobilità: chi è su una sedia a rotelle, per esempio. Pensate quanto potrebbe migliorare la vita poter accendere le luci, aprire o chiudere le tapparelle, accendere un forno e via dicendo.
Direte: “Ma sono cose che è già possibile fare, cosa c’è di difficile?”. Beh, c’è che raramente questi strumenti sono integrati con gli assistenti vocali. O meglio, lo sono nell’ambito della smart-home domestica, ma raramente si integrano invece con dispositivi medici come una sedia motorizzata, per esempio. E comunque siamo ben distanti dallo stato dell’arte.
Gli assistenti vocali stanno morendo proprio quando servirebbero di più
Non entrerò nel dettaglio di tutte le forme di disabilità per cui un’assistente vocale potrebbe fare la differenza. Nell’articolo di TDS troverete tutti i dettagli del caso. Quello che più mi interessa ora è la domanda: “che fine faranno gli assistenti vocali?”.
Sappiamo tutti che se le grandi aziende tecnologiche decidessero di investirci massicciamente si potrebbero fare salti in avanti incredibili. Oggi però sappiamo che gli assistenti non sono così remunerativi come si è immaginato qualche anno fa, tanto che le aziende cominciano a perdere pezzi.
Negli ultimi mesi, tanto per tornare a Siri, Apple ha perso tre importanti ingegneri impegnati nella divisione Siri, che hanno deciso di andare a lavorare in Google perché, secondo quanto trapelato, quest’ultima rappresenterebbe un posto migliore dove lavorare sugli LLM (Large Language Models). Curiosamente, a capo della divisione di Siri c’è John Giannandrea, ex-executive di Google. C’è un bel viavai a quanto pare.
Scarse rendite, tecnologia vecchia, difficoltà nel mantenere all’interno il personale: tutto lascerebbe pensare che anche un gigante come Apple potrebbe prendere decisioni complicate in futuro. Oppure ci stupirà e alla prossima conferenza dedicata agli sviluppatori, la WWDC in programma per inizio giugno, potrebbe mostrare una nuova versione, completamente ripensata, di Siri.
Nel frattempo una cosa è certa: gli assistenti vocali non possono e non dovranno morire. Non per darci la possibilità di alzarci ancora meno dal divano, bensì per migliorare la quotidianità di chi, per un motivo o per l’altro, da quel divano non può scegliere di alzarsi.
SFAMA LA FOMO!
Cos’è la F.O.M.O.?1
Ricordate l’argomento della scorsa puntata di Insalata Mista? Parlavamo della campagna del Ministero del Turismo, “Open to meraviglia”. Dopo le tante polemiche, l’agenzia autrice della campagna, la storica Armando Testa, ha deciso di rispondere pubblicamente. L’ha fatto con una pagina acquistata sul Corriere della Sera intitolata “Open to Grazie”. L’ha fatto nel modo peggiore possibile, sostenendo in pratica “grazie perché ci avete comunque dato visibilità” (è una mia sintesi) e aggiungendo “comunque non l’avete capita” e infine “e comunque non era definitiva”. Ok, se prima avevamo dei dubbi, ora non ce li abbiamo più. Ci siamo capiti.
Alla fine OpenAI si è adeguata a quanto richiesto dal garante della privacy italiano e chatGPT è tornato finalmente ad essere accessibile anche dall’Italia. Contrariamente a quanto si possa pensare, credo che l’Italia, in questo caso, abbia fatto un favore a tutto il resto dei paesi del mondo. Quella che sembrava una lotta insensata contro il progresso tecnologico era in realtà una richiesta piuttosto legittima: “Per favore, dimmi come tratti i miei dati”. Tanto che la società stessa si è adeguata. Insomma, non era una lotta alle streghe, ma una semplice richiesta sensata. Vedi alle volte?
È arrivato il trailer della sesta stagione di Black Mirror, che arriverà su Netflix a Giugno di quest’anno. Per chi non la conoscesse, Black Mirror è una serie ambientata nel futuro che pone dilemmi morali basati sull’evoluzione del mondo e delle tecnologie attuali. In altre parole, prova a immaginare le possibili derive future delle tendenze attuali. La serie ha ricevuto 2 nomination ai premi BAFTA, 1 nomination ai premi SAG Awards ed è ritenuta una delle serie più interessanti in assoluto. Datele uno sguardo.
TI SEI PERSO LE PRECEDENTI PUNTATE?
N.6 L’incredibile storia di un tweet che ha cambiato la vita a 7 milioni di americani
N.4 Apple TV+ è probabilmente il miglior servizio di streaming video
Se sei arrivato fino a qui, innanzitutto ti ringrazio.
Non ci siamo presentati: mi chiamo Franco Aquini e da anni scrivo di tecnologia e lavoro nel marketing e nella comunicazione.
Se hai apprezzato la newsletter Insalata Mista ti chiedo un favore: lascia un commento, una recensione, condividi la newsletter e più in generale parlane. Per me sarà la più grande ricompensa, oltre al fatto di sapere che hai gradito quello che ho scritto.
Franco Aquini
La F.O.M.O., un acronimo che sta per Fear Of Missing Out, è la deriva moderna del tam tam dei social network unita all’enorme disponibilità di strumenti di informazione e di intrattenimento. In pratica, è la paura di perdersi qualcosa e di non essere sempre al passo con i tempi. Con questa rubrica rispondiamo a queste paure, riassumendo in breve le notizie più significative della settimana, pescate dal mondo della tecnologia, dell’entertainment e del lifestyle.