In linguistica computazionale, l'induzione (o discriminazione) di significati è un problema aperto di elaborazione del linguaggio naturale che consiste nell'identificazione automatica dei significati di una parola. Essendo l'output di un sistema di induzione di significati è un insieme di sensi (inventario) per la parola obiettivo, questo task è strettamente correlato a quello della disambiguazione, che si fonda invece su un inventario di significati predefinito e mira a risolvere il problema della ambiguità delle parole in un contesto.
Metodi
L'output di un sistema di induzione di significati è un clustering di contesti in cui la parola obiettivo appare o, in alternativa, un clustering di parole correlate alla parola obiettivo (co-occorrenze). Sono stati proposti in letteratura tre approcci principali:
- Clustering di contesti
- Clustering di parole
- Grafi di co-occorrenze
Clustering di contesti
Nel clustering di contesti ciascuna occorrenza di una parola obiettivo è rappresentata come un vettore di contesto. Tali vettori sono quindi raggruppati in cluster, uno per ogni diverso significato della parola obiettivo. Un approccio storico di questo tipo è basato sul concetto di spazio delle parole (word space), ovvero vettori le cui dimensioni sono parole.
Clustering di parole
Un secondo approccio consiste nel raggruppamento di parole che sono semanticamente simili e convogliano quindi un significato specifico della parola obiettivo. Metodi di questo tipo includono l'algoritmo di Lin e l'algoritmo Clustering by Committee.
Grafi di co-occorrenze
Il terzo approccio all'induzione di significati è basato sulla nozione di grafo di co-occorrenze, ovvero un grafo i cui vertici sono parole correlate alla parola obiettivo e i cui archi collegano parole che co-occorrono tra loro all'interno di corpora di riferimento. Metodi di questo tipo includono: l'uso del Markov clustering algorithm, HyperLex e relative varianti.
Applicazioni
- È stato mostrato che l'induzione di significati migliora le prestazioni del recupero dell'informazione sul Web in presenza di interrogazioni altamente ambigue.
- Algoritmi di induzione dei significati su grafi potenziano notevolmente il clustering dei risultati di ricerca Web e migliorano il grado di diversificazione dei risultati di ricerca restituiti da motori di ricerca quali Yahoo!
Note
Voci correlate
- Ambiguità
- Polisemia
- Significato
- Disambiguazione




