RESUME DES ACTIVITES DE RECHERCHE 1997-1999
Axe 1 : Réseaux neuronaux, responsable Marie Cottrell
1.1 Etude Théorique de l'algorithme de Kohonen, algorithmes stochastiques
1.1.1 Poursuite de l’étude théorique de l’algorithme de Kohonen
(Catherine Bouton, Marie Cottrell, Jean-Claude Fort)
Il s'agit d'un algorithme stochastique particulièrement complexe. Dans la continuation des travaux précédents, nous étudions l'organisation à pas décroissant en dimension 1, l'extension des méthodes mises en œuvre en dimension 1 pour étudier l’organisation et la convergence en dimension supérieure. Avec M. Benaïm et G. Pagès, J. C. Fort a montré dans le cadre général d'une densité quelconque, la convergence de l’algorithme de Kohonen en dimension 1 vers un état unique, après organisation.
Dans le cadre de l’étude générale des algorithmes stochastiques, J.C. Fort et G. Pagès ont décrit le comportement des mesures empiriques le long des trajectoires. Ils ont étudié le cas des algorithmes à pas constant et à pas lentement décroissant, pour toute une famille de pondérations possibles de la mesure empirique.
Biblio :
Bouton C., Pagès G., (1997) About the multi-dimensional Competitive Learning Vector Quantization Algorithm with constant gain, à paraître dans The Annals of Applied Probability, 7 (3), p. 670-710..
Benaïm M., Fort J.C., Pages G. (1998) "Convergence of the one dimensional Kohonen algorithm", Advances in Applied Probability 30.
Cottrell M., Fort J.C., Pages G. (1998), "Theoretical aspects of the SOM algorithm", NeuroComputing 21, p. 119-138.
Fort J.C., Pages G. (1999), "Asymptotics of the invariant distribution of a markovian stochastic algorithm", accepté par S.I.A.M Control Optimization.
Fort J.C., Pages G.(1999), "Stochastic algorithms with non constant step: a.s. weak convergence of weighted empirical measures" soumis à S.IA.M. control optimization.
Fort J.C., Pages G. (1999), "The O.D.E. method without flow", soumis à ESAIM.
1.1.2 Quantification vectorielle et algorithme de Kohonen
(Eric de Bodt, Marie Cottrell, Jean-Claude Fort, Gilles Pagès)
Nous établissons une comparaison de l’algorithme de Kohonen avec les méthodes usuelles de classification (ou de quantification vectorielle dans le langage de la théorie du signal) telles que l’algorithme de Forgy ou des K-means.
Nous étudions la distribution empirique des vecteurs codes obtenus après convergence. Nous travaillons à la validation théorique et expérimentale de l’existence du facteur de magnification, mis en évidence par Ritter. Cet auteur affirme et montre de manière non rigoureuse que lorsque les données d’apprentissage sont distribuées selon une densité f sur Rp, les vecteurs codes après convergence suivent asymptotiquement (quand leur nombre tend vers l’infini) une loi de densité Afa, où a dépend de p et du nombre de voisins pris en compte par l’algorithme.
J.C. Fort et G. Pagès ont démontré l'existence de cet exposant sur des lois particulières. Et E. de Bodt et M. Cottrell ont vérifié ces résultats pour des lois plus générales par des méthodes numériques. Reste à essayer de caractériser la famille des densités pour lesquelles ces résultats sont valides et à mettre en évidence des contre-exemples, non prévus par les collèges physiciens.
En projet : études des algorithmes voisins (elastic net de Willshaw, neural gas de Martinetz, algorithme de Luttrell)
Biblio :
Cottrell M., De Bodt E., Verleysen M. (1997), "Kohonen Maps versus Vector Quantization for Data analysis", Proc. of ESANN’97, Avril 1997, Brugge, M.Verleysen Ed., Editions D Facto, Bruxelles, p. 211-218.
De Bodt E., Cottrell M., Verleysen M. (1999), "Using the Kohonen algorithm for quick initialization of Simple Competitive Learning", Proc. of ESANN’99, Avril 1999, Brugge, M.Verleysen Ed., Editions D Facto, Bruxelles, p. 19-26.
1.2 Le Perceptron Multicouches
1.2.1 Etude théorique, choix de modèles. Mise au point d'un logiciel.
(Morgan Mangeas, Bernard et Yvonne Girard, Joseph Rynkiewicz, Jeng-FengYao)
Nos avons poursuivi l'étude de méthodes nouvelles permettant d'améliorer les performances des perceptrons multi-couches.
Tout d'abord, M.Mangeas et J.F.Yao ont montré l'existence d'un critère de type Akaike qui est consistant. L'algorithme SSM (mis au point en 1995 avec Yvonne et Bernard Girard) qui permet d'optimiser l'architecture du réseau a été développé en langage C++ par Joseph Rynkiewicz. Son logiciel est performant et est en phase de test.
Enfin, le travail porte sur la recherche d’une méthode efficace d’initialisation des paramètres d’un perceptron multicouches. Les algorithmes d’apprentissage du perceptron sont maintenant bien explicités et se ramènent tous à des algorithmes du gradient dans un espace très largement sur-paramétré. Ces algorithmes fournissent des minima locaux qui ne sont pas toujours de bonne qualité. On s’aperçoit donc que les performances dépendent étroitement de l’initialisation de l’algorithme. Nous nous proposons donc d’utiliser un recuit simulé fini (par discrétisation de l’espace) ou des algorithmes génétiques pour déterminer un bon point de départ. Le but à atteindre est de fournir un banc de test sur données réelles de ces procédures et de donner des conseils d’utilisation des procédures retenues.
Biblio :
Mangeas M., Yao J.F., Cottrell M. (1997), "New criterion of identification in the multilayered perceptron modeling", Proc. of ESANN"97, Editions D Facto, Bruxelles, p. 133-138.
Mangeas M. (1997), "How to determine the fittest criterion", Proc. ICANN’97, Lausanne, Octobre 1997, W.Gerstner, A.Germond, M.Hasler, J.D.Nicoud Eds., Lecture Notes in Computer Science, n° 1327, Springer, p. 987-992.
Mangeas M., Yao J.F. (1997), "Sur l'estimateur des moindres carrés d'un modèle autorégressif fonctionnel", CRAS de Paris, 324-I, p.471-474.
Rynkiewicz J. (1999), Programme de perceptron multicouches pour la régression et la prévision : SSM.
1.2.2 Bootstrap et perceptrons (Travail de thèse de Ryad Kallel, commencé en Octobre 1998) (Ryad Kallel, Vincent Vigneron)
Les méthodes de ré-échantillonage de type Bootstrap reposent sur des techniques de génération d'échantillons artificiels à partir d'un seul échantillon. Ces méthodes sont employées pour analyser la variabilité des estimateurs et pour réduire leurs biais et leurs variances.
Dans son travail de thèse, Ryad Kallel adapte les techniques de Bootstrap aux modèles neuronaux de type perceptron. L'application de son travail doit être d'examiner s'il est possible de remplacer les codes de calculs du SERMA (en liaison avec le CEA) qui sont extrêmement lourds et coûteux en temps par des méthodes neuronales, quil s'agit de rendre très précises.
1.2.3 Applications de modèles neuronaux à des problèmes de contrôle (de procédés, de processus, de trafic, etc.)
(François Blayo, Fatine Maghrebi, Morgan Mangeas, Vincent Vigneron)
Depuis déjà longtemps, nous avons travaillé sur des applications concrètes en liaison avec des partenaires extérieurs. Nous pouvons citer par exemple les travaux les plus récents :
1) Une application des réseaux de Hopfield au contrôle des carrefours, en liaison avec l'INRETS. Ce travail (qui a été une partie du travail de thèse de Fatine Maghrebi) a fait l'objet d'une communication à un congrès international à ce sujet en 1998 et une version complète est acceptée pour publication par la revue Neural Processing Letter.
2) Contrôle du trafic sur les autoroutes d'Ile-de-France (M.Mangeas, avec l'INRETS)
3) Etude menée pour la Direction Générale de l'Aviation Civile (DGAC) qui visait à améliorer un système de détection des bagages piégés dans les aéroports. Un des résultats majeurs fut une baisse sensible du taux de fausses alarmes et une augmentation visible du taux de bonne détection. Ce système, appelé XCALIBUR, équipe aujourd'hui les Aéroports De Paris (ADP).
Ce travail commencé par Vincent Vigneron pendant sa thèse au CEA s'est poursuivi au SAMOS en 1997 et 1998, dans le cadre d'un contrat.
4) Une pré-étude (en 1997) a concerné la Direction Générale de l'Armement (DGA). Elle avait pour thème la mesure par spectrométrie g du niveau de concentration en arsenic dans des obus chimiques de la première guerre mondiale.
5) Un projet de mesure d'enrichissement en Uranium des combustibles nucléaires pour l'Agence Internationale pour l'Energie Atomique (AIEA) avec un groupe de recherche de Euratom/Ispra (Italie). Cette étude fait suite à un travail d'équipe déjà mené à bien en 1997 et publié.
6) Un travail mené en collaboration avec une équipe médicale du CHU R. Debré pour réaliser l'extraction en temps réel du signal cardiaque du fœtus in vivo dans le ventre de la mère. Les difficultés sont nombreuses : le bruit parasite est important, le signal du fœtus est imbriqué avec celui de la mère, il est non-stationnaire et varie selon la période de gestation. Néanmoins, des premiers résultats très encourageants ont été obtenus. Ce projet a remporté l'an passé le prix CEA/CDC pour "l'Innovation Technologique".
Ces derniers projets de recherche sont sous la responsabilité de Vincent Vigneron, qui est membre à 50% du SAMOS, et Maître de Conférences à Evry. Certains rapports de recherche sont des publications internes au CEA ou à l'Aviation Civile et donc confidentiels.
Biblio :
Maghrebi F. (1998), On a Hopfield Net Arising in the modelling and Control of Over-Saturated Signalized Intersections, Proc. 2nd Imacs International Multiconference CESA'98, Computational Engineering in Systems Applications, Hammamet.
Maghrebi F. (1998), "On a Hopfield net arising in the modelling and control of over-saturated signalized intersections", Proc. ESANN'98, Bruges, M.Verleysen Ed., p. 401-406. Version complète acceptée pour publication à Neural Processing Letter.
Vigneron V., Simon A.C., Junca R., Martinez J.M. (1997), "Techniques neuronales appliquées à l'analyse des spectres de fluorescence-X. Exemple du dosage de l'uranium", Analusis, Vol. 9, pp. 139--151, Elsevier.
Vigneron V., Maïorov V., Berndt R., Sanz-Ortega J.J., Schillebeeckx P. (1997) "Neural networks application to enrichment measurements with NaI detectors," VCCSR'97, Vienne, Autriche, Novembre 1997.
Mangeas M., Haj-Salem H. (1998), "Application of non linear optimisation technique for coordinated ramp-metering control", 5th World Congress on ITS (Intelligent Transport System), Octobre 1998, Seoul (Corea),
Kotsialos A., Papageorgiou M., Mangeas M., Haj-Salem H. (1999), "Coordinated and integrated control of Motorway to Motorway Networks via nonlinear optimal control", soumis à Transportation Research.
Mangeas M., Haj-Salem H., Papageorgiou M., Kotsialos A. (1999), "Application of coordinated and integrated control strategy on the southern motorway network of Ile de France", soumis à Transportation Research.
1.3 Prévision
1.3.1 Prévision et Perceptron
(Marie Cottrell, Bernard Girard, Yvonne Girard, Morgan Mangeas, Joseph Rynkiewicz)
Les premiers travaux du SAMOS sur ce sujet ont fait l'objet de publications dès 1993, dans le cadre du travail de thèse de Morgan Mangeas (Thèse soutenue en 1996) et en collaboration avec EDF. Un programme écrit en IML-SAS par Yvonne Girard est disponible. Nous travaillons actuellement à la généralisation au cas vectoriel, c'est-à-dire au cas où les données à prévoir sont multi-dimensionnelles. Il est possible de définir un perceptron ayant plusieurs unités de sortie, mais il reste à définir correctement la fonction à minimiser, qui doit être du type moindres carrés généralisés.
Dans son logiciel écrit en C++, Joseph Rynkiewicz prévoit le traitement de telles données en utilisant l'essentiel des méthodes que nous avons mises au point (minimisation, élagage de l'architecture, utilisation du critère de type Akaïke), dans le cadre de la prévision.
Biblio :
Cottrell M., Girard B., Girard Y., Mangeas M., Muller C. (1995), "Neural Modeling for Time Series : a Statistical Stepwise Method for Weight Elimination", IEEE Trans on Neural Networks, Vol. 6, No. 6, p. 1355-1364.
Mangeas M. (1996), "Réseau de neurones et prévision des séries temporelles", Thèse de l'Université Paris 1, Oct 1996.
Rynkiewicz J. (1999), Programme de perceptron multicouches pour la régression et la prévision : SSM.
1.3.2 Chaînes de Markov cachées (Travail de thèse de Joseph Rynkiewicz, commencé en Octobre 1997) (Joseph Rynkiewicz)
Joseph Rynkiewicz étudie les modèles hybrides intégrant des chaînes de Markov cachées et des modèles connexionnistes. Ces modèles issus principalement du domaine de la reconnaissance de la parole permettent de modéliser des séries temporelles stationnaires par morceaux. Son travail comporte des aspects théoriques et pratiques.
L'estimation d'un tel modèle sur une série test (la série laser) a permis de montrer que l'on pouvait identifier différents régimes (un régime d'effondrement de la série par exemple) qui pouvait donner un aperçu du comportement futur de la série et donc être utilisé en prévision.
Biblio :
Rynkiewicz J. (1999) "Hybrid HMM/MLP models for time series prediction." Proc of ESANN'99, 7th European Symposium on Artificial Neural Networks Bruges, 21-23 avril 1999, p. 455-462.
1.3.3 Utilisation des cartes de Kohonen pour la prévision de courbes (Travail de thèse de Patrick Rousset, soutenance prévue fin 1999)
(Marie Cottrell, Bernard Girard, Patrick Rousset)
Prévision non linéaire à l’aide des cartes de Kohonen : Mise en place d’une méthode qui a donné lieu à un article publié dans la revue Journal of Forecasting. Il s'agit de la prévision de courbes (journalières, mensuelles, annuelles, etc., pour lesquelles on prévoit séparément la forme, le niveau et la dispersion.
Application au cas particulier des courbes de charge électrique, d’abord sur la consommation nationale française dans le cadre d’un contrat avec l’EDF, ensuite sur celle de Pologne à titre d’exemple. Un logiciel a été développé dans ce but.
Biblio :
Cottrell M, Girard B., Rousset P. (1997), "Long Term Forecasting by Combining Kohonen Algorithm and Standard Prevision", Proc. ICANN’97, Lausanne, Octobre 1997, W.Gerstner, A.Germond, M.Hasler, J.D.Nicoud Eds., Lecture Notes in Computer Science, n° 1327, Springer, p. 993-998.
Cottrell M., Girard B., Rousset P. (1998),: "Forecasting of curves using a Kohonen classification", Journal of Forecasting, 17, p. 429-439.
1.3.4 Utilisation des cartes de Kohonen pour estimer des processus
(Eric de Bodt, Marie Cottrell)
En réalisant une discrétisation des états initiaux et des transitions successives au moyen de deux classifications de Kohonen, on obtient une matrice des transitions estimées qui permet de reproduire de manière tout à fait satisfaisante l'évolution de processus déterministes ou stochastiques. Nous avons développé des applications en finance qui sont détaillées dans le thème 1.5.
Biblio :
De Bodt E., Grégoire P., Cottrell M. (1997), "A Powerful Tool for Fitting and Forecasting Deterministic and Stochastic processes : The Kohonen Classification", Proc. ICANN’97, Lausanne, Octobre 1997, W.Gerstner, A.Germond, M.Hasler, J.D.Nicoud Eds., Lecture Notes in Computer Science, n° 1327, Springer, p. 981-986.
Lendasse A., Verleysen M., De Bodt E., Grégoire P., Cottrell M. (1998), "Forecasting Time-series by Kohonen Classification",Proc. of ESANN’98, Avril 1998, Brugge, M.Verleysen Ed., Editions D Facto, Bruxelles, p. 221-226.
Lendasse A., de Bodt E., Verleysen M. (1998), "Estimation de la dimension intrinsèque d'une série temporelle et prédiction par une méthode de projection : application au SBF 250 sur la période 1992-1997", 5° rencontre internationale ACSEG, Louvain-la-Neuve, novembre 1998.
Verleysen M., De Bodt E., Lendasse A. (1999), "Forecasting financial time series through intrinsic dimension estimation and non-linear data projection", Iwann'99, Alicante (Spain), 2-4 june 1999.
1.3.5 Prédiction de la pollution à l'ozone en Ile-de-France
(Marie Cottrell, Joseph Rynkiewicz, Vincent Vigneron)
En Février 1999, nous avons été contactés par Alain Dutot, Maître de Conférences en Chimie à l'Université de Créteil, qui étudie la prédiction de la pollution à l'ozone au moyens de méthodes neuronales. Nous avons déposé ensemble une demande de financement auprès de l'organisme Primequal, pour travailler sur ce sujet. Mais de toute façon, nous avons commencé à traiter les données d'Alain Dutot par les méthodes neuronales que nous avons développées, en particulier à l'aide du modèle de Perceptron Multicouches implémenté par Joseph Rynkiewicz. Cela permettra de tester en grandeur nature le programme et devrait appoter une amélioration sensible de la qualité des prévisions.
1.3.6 Prévision de la qualité de l'eau
(Bernard Girard, Yvonne Girard)
Etude des profils des variations horaires de la qualité de l’eau à la prise d’eau de Neuilly sur Marne (contrat avec la CGE) : classification, simulation et prévision par réseau de neurones (Kohonen et perceptron). Impact d’un événement climatologique sur la qualité de l’eau à un horizon de quelques heures. Année 1998 (achevé en décembre 1998).
1.4 Analyse de données (données socio-économiques)
1.4.1 Classification, visualisation des données, cartes de Kohonen
(M. Cottrell, P.Letremy, P.Rousset)
Nous avons mis au point des algorithmes qui permettent de classer des données (sur les variables quantitatives) au moyen d’un algorithme de Kohonen et de les représenter dans leurs classes. On fournit à l’utilisateur les représentants des classes, leur contenu, les répartitions croisées des variables qualitatives exogènes, etc. On peut également associer à l’algorithme de Kohonen une fonction potentiel décroissante (variance intra-classes étendue aux classes voisines) qui permet de contrôler la convergence. On peut également étudier et représenter les distances entre les classes de Kohonen, et les regrouper en un petit nombre de super-classes. On sait aussi étudier de plus près une classe, son contenu et ses voisines, en pratiquant une projection linéaire locale.
Ces techniques font partie de l'analyse exploratoire des données ou data mining.
On a appliqué toutes ces techniques à de nombreux exemples, en autre aux données concernant les communes de la vallée du Rhône, en collaboration avec le laboratoire P.A.R.I.S de Paris 1. On a aussi ainsi étudié les structures de consommation des ménages canadiens, avec P.Gaubert (METIS) et F.Gardes (LAMIA), économistes de Paris 1. Ce travail est développé dans la première partie de la thèse de Patrick Rousset (soutenance prévue fin 1999), et a donné lieu à plusieurs publications.
L’algorithme de Kohonen se révèle être un outil particulièrement riche pour l’analyse des données : visualisation, classification, croisement de variables, traitement des données manquantes, etc...Nous comptons continuer ces études, tout en améliorant et complétant le logiciel (écrit en IML-SAS, voir le point 1.4.6) qui pourra rendre de grands services.
Nous avons aussi un projet de contrat d'édition avec Springer-France, pour écrire un livre sur l'algorithme de Kohonen (Théorie et Applications), avec Jean-Claude Fort et Gilles Pagès.
Biblio :
Cottrell M., Rousset P. (1997), The Kohonen Algorithm : A Powerful Tool for Analysing and Representing Multidimensional Quantitative and Qualitative Data , Proc. IWANN’97, Lanzarote, Juin 1997, J.Mira, R.Moreno-Diaz, J.Cabestany, Eds., Lecture Notes in Computer Science, n° 1240, Springer, p. 861-871.
Letremy P. (1997), Notice d’installation et d’utilisation de programmes basés sur l’algorithme de Kohonen et dédiés à l’analyse des données, Prépublication SAMOS # 82.
Cottrell M. (1997), "Nouvelles techniques neuronales en analyse de données. Application à la classification, à la recherche de typologie et à la prévision". Journée ACSEG’97, Tours, p.15-27.
Cottrell M., Gaubert P., Letremy P., Rousset P. (1999), "Analyzing and representing multidimensional quantitative and qualitative data : Demographic study of the Rhône valley. The domestic consumption of the Canadian families", accepté pour publication dans un ouvrage publié à l'occasion de la conférence WSOM'99, par Elsevier.
1.4.2 Analyse Exploratoire de Données
(Monique Le Guen , avec la collaboration de : J.Confais (ISUP-PARIS 6), S.Destandau (INSEE-DSDS) et B.Sabatier (DELTA-ENS)
L’Analyse Exploratoire des Données (Exploratory Data Analysis) fut initiée dans les années 1970 par TUKEY JOHN W. de l’Université de PRINCETON. Cette analyse est peu développée dans l’enseignement de la Statistique en France.
TUKEY a proposé de distinguer deux démarches en Analyse de Données d’une part l’Analyse Exploratoire des Données, d’autre part l’analyse confirmatoire des données .
Les techniques EDA reposent sur des outils et de techniques graphiques où la visualisation des données tient une place centrale. La robustesse, la résistance, et l’analyse des résidus sont les trois autres directives essentielles de l’EDA.
Publication d’Ouvrage :
Destandau S. et Le Guen M. (1998) "Analyse Exploratoire des Données avec SAS/INSIGHT" INSEE Guides n°7/8, 298 pages, INSEE Mars 1998.
Objectifs de l’ouvrage:
Dans cette démarche EDA, l'apprenant est confronté d'abord à des données et à des outils informatiques permettant des Visualisations et seulement ensuite, à une formalisation mathématique. La visualisation facilite l’intuition et l’apprentissage des concepts de la Statistique,
Cette démarche d’enseignement est en relation avec les avancées en Sciences Cognitives. L’enseignement de la statistique doit s’appuyer sur les ressources cognitives de l’apprenant.
Publication proposée et acceptée (Juin 1999)
Le Guen M. (1999) "L’analyse Exploratoire des données est au cerveau droit ce que l’analyse confirmatoire est au cerveau gauche. Les deux doivent communiquer pour traiter l’information", Revue Courrier des statistiques, INSEE, 10 pages.
1.4.3 Algorithmes neuronaux d'analyse de données catégorielles et traitement des données manquantes
(Smaïl Ibbou, thèse soutenue en 1998)
Dans le cas de variables qualitatives, Smaïl Ibbou a défini deux méthodes originales (KACMI et KACMII) basées sur l’algorithme de Kohonen pour réaliser l’analogue d’une analyse des correspondances. Un premier algorithme est défini pour le cas de seulement 2 variables. Mais dans le cas où l’on a plus de deux variables, on se sert d’une table de Burt, qui est une sorte de table de contingence généralisée, et dont les lignes vont servir de base d’apprentissage du réseau de Kohonen. Dans les deux algorithmes, on utilise une transformation des profils lignes pour ramener la métrique du chi-2 à métrique euclidienne. Un des avantages de ces méthodes est de résumer en une seule carte, les trois ou quatre projections généralement nécessaires, obtenues par une analyse des correspondances multiples classique.
Ce travail représente une partie de la thèse que Smaïl Ibbou a soutenue en Janvier 1998 et est maintenant complètement intégré dans le logiciel écrit par Patrick Letremy en IML-SAS (Voir point 1.4.6).
Par ailleurs, Smaïl Ibbou a adapté l’algorithme de Kohonen pour traiter des bases de données où on a des valeurs manquantes. Les observations correspondantes peuvent être éventuellement utilisées au cours de l’apprentissage, ou bien encore classées après convergence de l’algorithme. Les résultats qu’il a obtenus sur des exemples réels de bases de données sont très satisfaisants, ce qui permet de suggérer une méthode alternative pour ce type de problèmes.
Biblio :
Ibbou S. (1998), "Analyse des correspondances simple et multiple au moyen de techniques neuronales", Thèse de doctorat de l'Université Paris 1, Janvier 1998
Ibbou S. (1998), "Treatment of qualitative variables by Kohonen algorithm. Simultaneous classification of modalities and individuals". Prépublication du SAMOS n° 102. 12 p, soumis à Journal of Multidivariate Analysis.
Ibbou S. (1998), "Traitement des variables qualitatives par l'algorithme de Kohonen", Papier présenté aux Journées MAS (Modélisation Aléatoires et Statistique), Sofia Antipolis, 16-19 septembre1998.
1.4.4 Etudes économiques (logement, travail en Ile-de-France)
(Smaïl Ibbou, Christian Tutin)
Comme application réelle (i-e sur une base de données réelles) en cas de données manquantes, Smaïl Ibbou a entrepris avec Patrice Gaubert et Christian Tutin, deux collègues économistes du METIS, une étude pour le compte de la direction régionale de l’équipement d’Ile de France sur le marché foncier et immobilier francilien. On disposait d’une base de données constituée de 256 communes d’Ile de France sur les quelles on a observé, sur une période de 15 ans entre 1976 et 1991, une quarantaine de variables immobilières telles que les prix de logements et de terrains et les quantités de construction et le nombre de vente. Cette base de données présentait un inconvénient majeur qui était une proportion importante de valeurs manquantes ce qui ne permettait pas d’utiliser les méthodes classiques d’analyse des données telles que l’ACP, la classification hiérarchique etc. La méthode de l’algorithme de Kohonen a permis de faire ressortir trois segments pertinents de l’espace immobilier constitué des 256 communes : segment supérieur, segment moyen et segment banal. Pour chacun de ces segments, ils ont étudié les caractéristiques et établi des modèles de prix. Cette étude a donné lieu un rapport de 450 pages et une publication.
Biblio :
Gaubert P., Ibbou S., Tutin C. (1996), ), "Segmentation Real Estate Markets and Price Mechanisms : The case of Paris", International journal of urban and regional research, juin 96, Vol 20, Num 2.
Ibbou S., Rameaux C., Tabariès M., Tutin C. (1998), "Polarisation spatiale et ségrégation sociale en Ile-de-France", Rapport d'étude, DATAR.
Ibbou S., Tutin C. (1999), "La segmentation du parc de logement social. Une application de l'algorithme de Kohonen". Prépublication du SAMOS n° 115. 30p.
Funes C., Ibbou S., Tutin C. (1999), "L'émergence du risque de vacance dans le secteur HLM francilien". Rapport intermédiaire. Convention AORIF/CDC/DREIF.
1.4.5 Exploration et caractérisation des données de grande taille
(Vincent Vigneron)
La caractérisation des données consiste à extraire d'un signal ou d'un ensemble de données les caractéristiques propres du support de ces données afin de se focaliser sur les informations pertinentes. On utilise ici des méthodes de projection linéaire (ACP, ACI) ou non linéaire (ACC) et de regroupement par quantification vectorielle (VQP, cartes de Kohonen). Nous avons particulièrement travaillé sur la méthode ACC qui se distingue des cartes de Kohonen par une plus grande flexibilité dans l'auto-organisation des unités, car la topologie n'est pas imposée a priori. Il en résulte une mise en forme qui explicite partiellement le problème de reconnaissance dans un espace de représentation nettement plus informatif que l'espace initial.
Ces méthodes offrent l'opportunité, d'une part, de fournir des outils génériques et de permettre le développement d'applications externes diverses.
D'autre part, Vincent Vigneron essaie de fédérer des techniques a priori différentes dans leurs objectifs, selon l'idée intuitive suivante : les données sont à la fois le modèle et l'estimateur, comme dans l'exemple d'une équation linéaire Y=AX, où seul Y est connu et A et X sont à découvrir. Cette idée a déjà été exploitée avec succès dans la mise au point d'un modèle original cité dont le détail mathématique était exposé dans sa thèse. Le modèle est un modèle inverse additif qui s'appuie sur la structure markovienne de la distribution des données pour construire itérativement la solution. Ce modèle est particulièrement efficace dans les situations difficiles où l'on dispose de peu de données et des données de grandes dimensions, par exemple en spectrométrie ou en traitement du signal. Ce type de modèle a été employé avec succès pour plusieurs problèmes dont les résultats ont été publiés.
Biblio :
Vigneron V., Simon A.C., Junca R., Martinez J.M. (1997), "Techniques neuronales appliquées à l'analyse des spectres de fluorescence-X. Exemple du dosage de l'uranium", Analusis, Vol. 9, pp. 139-151, Elsevier.
Vigneron V., Aubry L. (1997), "Reducing complexity with Random Walk Trapping machines," Publié dans International Symposium on Bayesian Analysis, Istanbul, Turquie, Août 1997.
V. Vigneron et C. Barret, (1998), "Two or three things about linear neural networks and ridge estimation", V Brazilian Symposium on Neural Networks, December 1998.
Vigneron V. (1998), "Méthodes d'Apprentissage statistiques et problèmes inverses. Applications à la spectrographie," Thèse de doctorat, Université d'Evry Val d'Essonne, mai 1997.
Vigneron V., Barret C., Martinez J.M., (1999), "Modeling inverse learning. A link with Independant Component Analysis.," article soumis à IEEE Transactions on Neural Networks, 13 pages.
Vigneron V., (1999), "A Mixture of Inverse Experts using a Metropolis algorithm : a vectorized tool for prediction,", article à paraître dans Nuclear Instrument and Methods in Physics Research, 15 pages.
Vigneron V., Barret C., Martinez J.M. (1999), "Projective maps in chemometrics," article soumis à Trace & Microprobe Analysis, 13 pages.
1.4.6 Typologie des chômeurs en France
(Marie Cottrell, PatriceGaubert)
Dans le cadre d'un contrat signé avec l'ANPE, et à partir du fichier historique de l'ANPE, couplé avec celui des ASSEDIC, nous avons fait plusieurs études sur les demandeurs d'emploi en France. Nous avons tout d'abord étudié le rôle de l'activité réduite et montré que la pratique d'une activité réduite n'est pas corrélé aux autres caractéristiques principales des demandes d'emploi (âge, expérience, durée du chômage, etc.) Elle ne raccourcit pas le chômage, ni ne le rallonge nécessairement. Ensuite, nous avons étudié le rôle de l'indemnisation chez les chômeurs qui ont connu plusieurs périodes de chômage. Là encore, il est apparu clairement que le montant de l'indemnisation n'est pas lié à la durée du chômage. Dans les deux études, nous avons mis en évidence une typologie des chômeurs. Ce travail a donné lieu à plusieurs communications, et va se prolonger par une étude sur des chômeurs aux USA, en collaboration avec le professeur Duncan.
Biblio :
Gaubert P., Cottrell M., (1997), "Les demandeurs d'emploi : analyse statistique et caractéristiques de l'activité réduite", Rapport pour l'ANPE.
Gaubert P., Cottrell M. (1997), "Classification neuronale et marché du travail segmenté", Journée ACSEG’97, Tours, p. 127-142.
Cottrell M., Gaubert P. (1998), "Classification des chômeurs récurrents et sorties de chômage", Journée ACSEG’98, Louvain-la-Neuve.
Gaubert P. Cottrell M., (1999), "Neural network and segmented labour market", accepté à European Journal of Economics and Social Systems.
Cottrell M., Gaubert P., (1999), " Classification of recurring unemployed workers and unemployment exits", soumis pour publication à European Journal of Economics and Social Systems.
1.4.7 Logiciel KACP-KORRESP, KACM
(Patrick Letremy)
Patrick Letremy a écrit un ensemble de programmes en IML-SAS, qui implémente les algorithmes et techniques décrites ci-dessus. Ce programme est en constante évolution, de manière à intégrer les variantes et améliorations au fur et à mesure. Il comprend un module de classification (KACP) avec toutes les aides à la visualisation, une analyse des tableaux de contingence croisant deux variables catégorielles (KORRESP), une analyse des relations de plusieurs variables catégorielles croisées (KACM I et II). Le but est de le mettre à la disposition des statisticiens travaillant avec le logiciel SAS, avec une notice et éventuellement, si besoin est, une assistance.
Biblio :
Letremy P. (1997), Notice d’installation et d’utilisation de programmes basés sur l’algorithme de Kohonen et dédiés à l’analyse des données, Prépublication SAMOS # 82.
1.4.8 Analyse et typologie de trajectoires
(J.P.Fénelon, Y.Grelet, Y.Houzel, avec la coll. de M.O.Lebeaux (LASMAS-IdL).
Il s’agit d’un programme parallèle aux travaux de l’équipe CIA-Céreq du LES-MATISSE. En effet des questions d’ordre méthodologique se sont posées à la suite de l’utilisation de données longitudinales dans l’analyse de l’insertion professionnelle des jeunes. Les enquêtes de cheminement du Céreq comportent des calendriers mensuels des situations par rapport à l’emploi dont l’exploitation suscite beaucoup d’interrogations.
La démarche suivie dans cette opération met actuellement l’accent sur deux points principaux : la comparaison de méthodes dans l’analyse typologique et l’impact du mode de codage sur les résultats.
Biblio et communications
4 èmes journées d’études, Céreq/LES/Lasmas-IDL, Paris 1997
European Science Foundation annual workshop, Dublin, septembre 1997, " Analyzing Transitions in the Labour Market Through Individual Longitudinal Data : Some Methodological Issues ".
Journée de l’ACSEG , Louvain 1998, " Les étapes dans l’analyse des trajectoires. "
6 èmes journées d’études, Céreq, Lasmas-IDL/CER groupe ESC Clermont, mai 1999 " A le recherche du temps dans les parcours professionnels... "
Articles :
" Modéliser l’insertion ", Formation Emploi n°60 1997
" Les étapes dans l’analyse des trajectoires " soumis à publication à la revue European Journal of Economic and Social Systems.
1.5 Application des méthodes neuronales à la finance
1.5.1 Simulations de l'évolution de la structure à terme des taux d'intérêt
(Eric de Bodt, Marie Cottrell)
Le développement des modèles d’évaluation des prix des instruments de taux d’intérêt poursuit un double objectif : d’une part, il s’agit, à partir des modèles développés, de déterminer le prix des instruments créés sur mesure pour une tierce partie et d’autre part, en permettant d’étudier la relation entre l’évolution du prix des actifs et celle de la structure à terme des taux d’intérêt, de déterminer une politique de gestion des risques encourus. L’approche que nous développons se dissocie des approches proposées jusqu’à présent par le fait qu’elle ne repose sur aucune hypothèse a priori de forme fonctionnelle du processus générateur de l’évolution de la structure à terme des taux d’intérêt, ni sur aucune hypothèse de distribution caractérisant la dynamique des variables aléatoires que sont les taux d’intérêt. Alliant un algorithme dérivé de la quantification vectorielle, l’algorithme de Kohonen, à une procédure de simulation de Monte-Carlo, il permet la génération d’évolutions à long terme (plusieurs années) de la structure à terme des taux d’intérêt. L'objectif est, à terme, de proposer, pour des produits financiers dont la valeur dépend notamment du niveau des taux d'intérêt, une approche non-paramétrique qui permette de construire, à un horizon donné, la distribution des valeurs possibles pour l'actif en question (il s'agit donc non pas de prévoir le prix futur – ce qui renvoie inévitablement à la problématique de la prévisibilité des prix des actifs financiers - mais d'anticiper la distribution des prix futurs possibles), permettant ainsi de déterminer, à un niveau de confiance donné, le niveau des fonds propres nécessaires pour couvrir les risques encourus.
Biblio :
Cottrell M., De Bodt E., Henrion E.F., Grégoire P. (1997), "Simulating Interest Rate Structure Evolution on a Long Term Horizon", in Progress in Neural Processing – Decision Technologies for Financial Engineering, A.S. Weigend, Y. Abu-Mostafa & A.P. N. Refenes ed, World Scientific, 1997, p. 162 et ss.
De Bodt E., Grégoire P., Cottrell M. (1997), "Interest rate structures dynamic : a non parametric approach", Proc. of Computational Finance 1997, A-P. N. Refenes, A. N. Burgess, B. E. Moody, Eds., Kluwer Academic, in press.
De Bodt E., Grégoire P., Henrion E.F., Cottrell M. (1997), "Simulation de l’évolution de la structure à terme des taux d’intérêts. Test d’une approche non paramétrique", Proc . des Journées de l’AFFI.
De Bodt E., Grégoire P., Cottrell M. (1997), "A Powerful Tool for Fitting and Forecasting Deterministic and Stochastic processes : The Kohonen Classification", Proc. ICANN’97, Lausanne, Octobre 1997, W.Gerstner, A.Germond, M.Hasler, J.D.Nicoud Eds., Lecture Notes in Computer Science, n° 1327, Springer, p. 981-986.
Cottrell M., de Bodt E., Grégoire P. (1997), "Simulation de l’évolution de la structure à terme des taux d’intérêt. Test d’une approche non-paramétrique.", Approches Connexionistes en Sciences Economiques et de Gestion, Quatrième Rencontre Internationale, Tours, Octobre 1997, p. 82-94.
Cottrell M., De Bodt E., Grégoire P., (1998), "Financial Application of the Self-organizing map", EUFIT’98, Aachen, September 1998, Verlag Mainz, p. 205-209.
De Bodt E., Grégoire P., Cottrell M., (1998), "Long term Evolution of Interest Rates based on Mapping Interest Rate Shocks", Chapitre 2 du livre " Visual Exploration in Finance with self-Organizing Maps ", Deboeck G., Kohonen T. Eds., Springer, p. 24-38.
Cottrell M., de Bodt E., Grégoire P. (1998), "Simulation de l'évolution de la structure à terme des taux d'intérêt: une approche non paramétrique", Banque & Marchés, 36, p. 21-28.
1.5.2 Etude du rôle du leasing chez les entreprises belges
(Marie Cottrell, Smaïl Ibbou, Eic de Bodt)
Nous avons poursuivi l'étude sur le rôle du recours au leasing chez les entreprises belges. S'agit-il d'un équivalent de l'endettement, ou bien d'un mode de gestion différent ? La conclusion est que le leasing est en général d'autant plus présent que la santé financière de l'entreprise est bonne.
Biblio :
De Bodt E., Henrion E., Van Wymeersch C., Cottrell M. (1998), "Self-organizing Maps for Data Analysis : an Application to the Belgian Leasing Market", AFFI’98, International Conference of Finance, Lille.
de Bodt E.,Henrion E., Cottrell M., VanWymeersch C. (1998), "Self-Organizing Maps for Data Analysis: An Application to the Belgian Leasing Market", J. of Computational Intelligence in Finance, Vol. 6, n°6, p.5-23.
1.5.3 Comportements financiers des petites et moyennes entreprises et création d'emplois
(Eric de Bodt)
Face au chômage important que connaissent les pays industrialisés européens, l'étude a pour ambition d'une part, de faire le point sur la contribution des petites et moyennes entreprises (PME) à la création d'emplois et d'autre part, d'étudier les relations entre les comportements financiers des PME, tant en matière d'investissement (types d'investissement, politique de mobilité financière, …) que de financement (choix entre financement par fonds propres et par dettes, subsides des pouvoirs publics, …), et leur capacité à créer de l'emploi.
Les informations disponibles concernant les petites et moyennes entreprises sont rares et souvent fragmentaires. Dans le cadre du travail, nous disposerons d'un outil d'investigation unique constitué d'une base de données belge de comptes annuels qui permet de suivre une population de quelque 60.000 entreprises durant une période de 8 ans (1989-1996). L'ensemble des données des comptes annuels y sont reprises (soit autour de 600 informations par an et par entreprise) et, à partir de l'année 1996, les données des bilans sociaux (récemment rendus obligatoires en Belgique) y ont été adjointes. L'équipe en place connaît bien les problèmes, pour ne pas dire les défis, que soulèvent l'exploitation des données issues des comptes annuels (les publications réalisées en la matière en témoignent). Ces données sont en effet particulièrement rétive à l'application des méthodes d'analyses de données et d'inférence statistique classiques. Les ratios financiers présentent en effet des distributions souvent très asymétriques et leptokurtiques, voire multi-modales. Ils sont très corrélés et forment un espace de données en très grande dimension (il n'est pas rare d'utiliser jusqu'à 15 à 20 ratios pour caractériser une entreprise, ce qui représente, d'un point de vue technique, autant de dimensions pour l'espace des données). Les méthodes de classification non-supervisées et non-linéaires, telles que les cartes auto-organisées, constituent un outil particulièrement intéressant en la matière, lorsque son utilisation est associée à celles des approches plus classiques (analyse en composantes principales, statistiques robustes, …).
Biblio :
Cottrell M., de Bodt E., Levasseur M. (1997), "Réseaux de neurones en Finances", in "L’Encyclopédie de Gestion ", Economica, p. 1661-1684.
Cottrell M., De Bodt E., Grégoire P., (1998), "Financial Application of the Self-organizing map", EUFIT’98, Aachen, September 1998, Verlag Mainz, p. 205-209.
Séverin E., de Bodt E., Levasseur M. (1998), "Effet de réputation, endettement et performance - Une Etude exploratoire", 5° rencontre internationale ACSEG, Louvain-la-Neuve, novembre 1998.
Brandao E., de Bodt E., Levasseur M. (1998), "La restructuration des entreprises en difficulté : les moyens mis en œuvre permettent-ils d’atteindre des résultats satisfaisants au plan financier ? Le cas des entreprises portugaises qui font appel public à l’épargne de 1992 à 1996", 5° rencontre internationale ACSEG, Louvain-la-Neuve, novembre 1998.
1.6 Modélisation de réseaux de neurones biologiques
(Marie Cottrell, Florence Piat)
Nous avons poursuivi l'étude du modèle de sablier : L'idée de base est de prendre comme variable d'état en chaque neurone le temps (aléatoire) restant à attendre jusqu'au moment de la prochaine décharge. Cette modélisation a permis d'étudier mathématiquement un réseau de neurones connectés par des connexions latérales inhibitrices, dans le contexte du cervelet (travail de Marie Cottrell), et surtout pour modéliser globalement le système olfactif (travail de thèse de Florence Piat).
Depuis lors, nous avons généralisé le modèle de base, en prenant en compte des liaisons excitatrices, ce qui permet d'inclure le rôle des inter-neurones. Et récemment, avec Tatyana Turova (Moscou), nous avons pu établir des résultats mathématiques sur la convergence ou la divergence de tels réseaux, et étudier leur capacité de stockage de l'information.
Biblio :
Cottrell M., Piat F., J.P.Rospars (1997), "A Stochastic Model for Interconnected Neurons. Application to the Role of Lateral Inhibition for Coding", BioSystems, 40, p.29-35.
Cottrell M., Rospars J.P., Turova T.S. (1997), "Use of an Hourglass Model in Neuronal Coding", Neuronal Coding’97, Versailles.
Cottrell M., Turova T.S. (1999), "Use of an Hourglass model in neuronal Coding", accepté à Journal of Applied probabilities.