Adaptation du domaine pour l'étiquetage des séquences à l'aide de modèles de Markov cachés.

Auteurs
Date de publication
2013
Type de publication
Article de conférence
Résumé La plupart des systèmes de traitement du langage naturel basés sur l'apprentissage automatique ne sont pas robustes au changement de domaine. Par exemple, un analyseur syntaxique de dépendance à la pointe de la technologie, entraîné sur des phrases du Wall Street Journal, présente une baisse absolue de performance de plus de dix points lorsqu'il est testé sur des données textuelles provenant du Web. Une solution efficace pour rendre ces méthodes plus robustes au changement de domaine consiste à apprendre d'abord une représentation des mots en utilisant de grandes quantités de données non étiquetées provenant des deux domaines, puis à utiliser cette représentation comme caractéristique dans un algorithme d'apprentissage supervisé. Dans cet article, nous proposons d'utiliser des modèles de Markov cachés pour apprendre des représentations de mots pour l'étiquetage de la parole partielle. En particulier, nous étudions l'influence de l'utilisation des données de la source, de la cible ou des deux domaines pour apprendre la représentation et les différentes manières de représenter les mots en utilisant un HMM.
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr