Intelligenza artificiale, approccio tecnico.

L’argomento è molto più ampio, ma occorre iniziare attraverso un apparente semplice lavoro al fine di inquadrarlo. A questo scopo si propone la soluzione del problema di predizione dei vocaboli durante la stesura di testi con l’ausilio del telefono cellulare o smartphone, che dir si voglia.
Il problema della predizione dei vocaboli durante la stesura di testi con l’ausilio del telefono cellulare è complessa perché riguarda sia l’interazione uomo-macchina sia il trattamento automatico del linguaggio naturale.
Le lingue naturali sono ricche di parole omografe, che si scrivono allo stesso modo ma hanno significati diversi, e omofone, che si pronunciano allo stesso modo ma hanno significati diversi. Ciò rende difficile per il sistema di predizione capire il contesto e suggerire la parola corretta.
La comprensione del contesto semantico è fondamentale per fornire suggerimenti pertinenti. Tuttavia, i sistemi di predizione potrebbero non essere in grado di cogliere le sottigliezze del linguaggio umano, come ironia, sarcasmo, gergo e riferimenti culturali specifici.
Ogni utente ha un proprio stile di scrittura, un vocabolario e delle preferenze lessicali. Un sistema di predizione efficace dovrebbe adattarsi all’utente e imparare dalle sue abitudini di scrittura, ma la personalizzazione richiede tempo e l’analisi di grandi quantità di dati.
L’apprendimento delle abitudini di scrittura di un utente solleva questioni legate alla privacy e alla sicurezza dei dati. Gli utenti potrebbero non voler condividere i propri dati personali o essere preoccupati per l’uso improprio delle informazioni da parte di terzi.
Gli errori di digitazione sono comuni durante la stesura di testi su dispositivi mobili. Un sistema di predizione deve essere in grado di riconoscere e correggere gli errori, ciò richiede algoritmi avanzati di rilevamento e correzione degli errori.
Molti utenti utilizzano più di una lingua durante la scrittura di testi, si pensi per esempio all’uso spropositato di termini dalla lingua inglese in testi di lingua italiana. Un sistema di predizione deve essere in grado di gestire il passaggio da una lingua all’altra e di fornire suggerimenti accurati in tutte le lingue presenti nel testo.
A fini di comprensione pratica si riduce il problema ai soli aspetti linguistici ed alla predizione di un solo vocabolo che segue il vocabolo appena digitato.
La predizione deve necessariamente basarsi su un corpo di dati preesistenti, i quali sono fondamentalmente testi reali, vale a dire prodotti nel passato recente da esseri umani nello stesso contesto nel quale la predizione si inserisce. Il contesto più probabile che conviene scegliere è quello della trasmissione di messaggi brevi, ciò che comunemente viene chiamato “chat”. Il corpo di dati sarà dunque rappresentato da messaggi chat precedentemente scritti da utenti umani. Maggiore è la quantità di messaggi, maggiore sarà l’accuratezza della predizione. A tal fine si utilizzano i così detti corpus, che oramai si intendono elettronici. Per chi si voglia cimentare nella ricerca in rete di corpora, plurale di corpus, noterà quanto sia difficile trovarli in lingua italiana e, al contrario, quanto sia facile trovarli in lingua inglese. Da qui si può collezionare un primo elemento che concorre all’opinione sull’efficacia degli istituti italiani che curano la lingua italiana.
Trovato uno o più corpus, deve iniziare un lavoro di rappresentazione statistica, si immagina per esempio il vocabolo x, lo si cerca nel corpus e si annota la frequenza del vocabolo successivo all’interno del corpus. Per semplicità si denotano i vocaboli con lettere dell’alfabeto. Per esempio si ha che il vocabolo a ricorre n volte dopo x, il vocabolo b m volte e così via fino a formare una tabella di frequenza per ogni vocabolo, ad esempio:
Termine: “vado”
Frequenza di ricorrenza dei vocaboli successivi nel corpus:

1 a casa: ██████████████████████████
2 a vedere: ██████████
3 al lavoro: ███████
4 dal dottore: ██████
5 al supermercato: █████
6 in vacanza: ████
7 a fare: ████
8 al mare: ████
9 in biblioteca: ███
10 a scuola: ███

Dal diagramma si proporrà il primo termine poi il secondo e così via.
Si ha dunque un lavoro di raccolta dati (corpus), un lavoro di elaborazione dei dati (statistica), quindi la realizzazione di una applicazione che ricerca il termine e la tabella di frequenza del termine.
Concettualmente semplice, ma oneroso nella sua realizzazione quando i dati non sono immediatamente disponibili.
Notare che il nucleo dell’applicazione è l’elaborazione statistica, la statistica è dunque centrale alla creazione di una intelligenza, che in questo caso si limita a predire il vocabolo successivo ad un vocabolo scritto.
Notare anche quanto sia importante il contesto, infatti la ricerca di corpus appartenenti ad altri contesti diversi da quello in esame, non produrrebbe risultati efficaci.
Dunque, approssimando, il contesto come elemento fenomenologico e la statistica come elemento funzionale. Il contesto si presta ad analisi qualitative, dove l’osservazione e l’interpretazione sono essenziali alla raccolta dei dati, mentre il calcolo della frequenza dei termini è un lavoro essenzialmente quantitativo, la qualità del dato raccolto non è presa in considerazione.

Leave a Reply

Your email address will not be published. Required fields are marked *