Représentations des documents textuels pour la classification de sentiments.
Résumé : La fouille d’opinion s’impose depuis quelques années comme un
domaine majeur de la fouille de données. Les utilisateurs du Web sont
de plus en plus habitués à donner leur avis sur internet, à laisser
des commentaires sur les forums et les sites de vente en ligne. Le
domaine d’application autour de ces données présente de grands enjeux
économiques et explique la dynamique de recherche actuelle. En effet,
plusieurs études ont montré qu’il était possible de prédire les ventes
de jeu vidéo ou les entrées d’un film avant même leurs sorties, de
plus, les perspectives autour des sondages et de modélisation
utilisateur sont vastes. Dans leur étude de référence de 2008, Pang et
Lee pointent l’importance d’une tâche en particulier dans la fouille
d’opinion : la détection de sentiments, le fait de détecter
automatiquement la polarité (positive ou négative) d’un texte. Nous
présentons deux approches pour faire face à cette tâche de manière
originale dans le cadre des algorithmes d’apprentissage supervisés.
Nous partons toujours de données étiquetées (provenant de diverses
sources) pour construire des modèles robustes de prédiction de
polarité. Nous proposons une première étude sur le choix des
descripteurs textuels à utiliser pour discriminer efficacement les
documents positifs des documents négatifs. Nous montrons la l’intérêt
des représentations complexes en grande dimension et la nécessité
d’utiliser des méthodes d’apprentissage robustes pour exploiter
correctement ces espaces. Notre formulation repose sur une
régularisation adaptative pénalisant les termes fréquents dans les
documents. La seconde approche que nous proposons se focalise sur
l’apprentissage multi domaines. Il s’agit d’un problème difficile où
les données de test n’appartiennent pas au même thème que les données
d’apprentissage, cette tâche demande donc une très bonne capacité de
généralisation éventuellement combinée avec un apprentissage de
fonction de transfert. Nous avons utiliser des réseaux de neurones à
convolution où les mots se déplacent dans un espace sémantique continu
durant l’apprentissage (à la manière de PLSA). Nous montrons que cet
espace permet d’obtenir de très bonnes performances dans le cadre
multi domaines
Cet exposé se tiendra en salle C20-13, 20ème étage, Université
Paris 1, Centre Pierre Mendès-France, 90 rue de Tolbiac, 75013 Paris
(métro : Olympiades).