Le séminaire du SAMOS - 2003

          

Vendredi 23 mai 2003 à 9h30, salle C-21-07, 21ème étage, ascenseurs rouges

Professeur Magda Peligrad (Université de Cincinnati et Université Paris 6)

Une nouvelle inégalité  maximale et un principe d'invariance pour des suites stationnaires

Dans cet exposé on montrera une nouvelle inégalité maximale pour des suites stationnaires vérifiant une condition de type martingale introduite par Maxwell et Woodroofe (2000). Ce résultat sera ensuite appliqué pour prouver un principe d'invariance de Donsker pour ces suites stationnaires. Un exemple de chaîne de Markov montrera enfin que les conditions imposées sont optimales.

 

 

 

Lundi 28 avril 2003, à 13h30, salle des thèses, 22ème étage, ascenseurs rouges

 

Jean-Marc Bardet (Toulouse)

Propriétés et identification du mouvement brownien fractionnaire multi-échelles et applications biomécaniques

Dans de nombreuses applications, par exemple en finance, télécommunication ou biomécanique, il semble intéressant de modéliser les données avec une généralisation du mouvement brownien fractionnaire dans laquelle le paramètre de Hurst H dépendrait de la fréquence. Nous construisons et décrivons ainsi le mouvement brownien fractionnaire multi-échelles pour lequel le paramètre H est une fonction en escalier de la fréquence. Nous mettons en évidence les principales propriétés de ce processus et proposons une méthode statistique fondée sur l'analyse par ondelettes pour détecter les ruptures fréquentielles, estimer les différents paramètres et tester l'adéquation au modèle. Des données biomécaniques sont étudiées avec ces nouveaux outils et conduisent à des conclusions intéressantes sur le comportement postural humain.

 

Vendredi 4 avril 2003, à 9h, salle B-21-97

Charles El Nouty (Paris 6)

 Le mouvement brownien fractionnaire mélangé fractionnaire 

Soit $ \{ B_H(t), t \geq 0 \} $ un mouvement Brownien fractionnaire d'indice $ 0 < H < 1$, i.e. un processus Gaussien centré ayant des accroissements stationnaires tel que $B_H(0)=0$, avec probabilité 1, et vérifiant
$\esp \Bigl( B_H(t) \Bigr)^2 = t^{2H}, \; t \geq 0$.
Talagrand (1996) a caractérisé les classes inférieures de la statistique
$$
Y_0 (t) = \sup_{0 \leq s \leq t} \;
\mid B_H(s) \mid
$$
\noindent
par un test intégral. Les classes inférieures d'autres statistiques ont été ensuite étudiées (El-Nouty (2001, 2002, 2003a, 2003b)).
A partir des travaux de Chéridito (2001), le mouvement Brownien fractionnaire mélangé fractionnaire (MBFMF) est introduit. Nous caractérisons les classes inférieures du MBFMF (El-Nouty (2003c)).


Vendredi 28 mars 2003, à 9h30, salle B-14-03

Marc Hoffmann (Paris 7)

Estimation de la régularité de fonctions aléatoires observées dans du bruit 

Nous cherchons à retrouver des propriétés d'invariance par échelle sur des données empiriques de la forme :
observation = signal + bruit.
Nous postulons le signal comme étant la réalisation d'un processus aléatoire ayant des propriétés d'auto-similarité. Nous explorons systématiquement certaines méthodes dites ``d'energie'' et étudions les vitesses optimales de convergence. Un lien formel est établi entre ce problème et l'estimation bayesienne non-paramétrique.
Ce travail est en collaboration avec Arnaud Gloter.

 

Vendredi 21 mars 2003, à 9h45, salle C-21-07

Florence Merlevède (Paris 6)

 Estimation de la densité pour des processus à temps continu via un estimateur par projection 

Dans cet exposé, on s'attache au problème de l'estimation non paramétrique de la densité marginale f d'un processus à temps continu observé sur [0,T] . Dans ce but, on utilisera un estimateur par projection et on étudiera le risque en moyenne quadratique intégré. On explorera les vitesses atteintes soit sous des hypothèses de faible dépendance, soit sous une hypothèse plus spécifique aux processus à temps continu qui est assez proche de celle introduite par Castellana et Leadbetter (1986). Cette hypothèse contient à la fois une condition d'indépendance asymptotique, mais aussi une condition d'irrégularité locale des trajectoires. Sous cette hypothèse, notre estimateur atteint la vitesse dite paramétrique, T-1. Des exemples tendant à établir l'optimalité de cette condition seront également exhibés. De plus, motivés par le fait que même si le processus évolue en temps continu, les données sont très souvent collectées par échantillonnage, on explorera quels types d'échantillonnage, d'asymptotique et quelles conditions permettent de retrouver la vitesse dite paramétrique lorsque le processus est observé à temps discret.


Vendredi 14 mars 2003 à 10 h

Stéphane Boucheron (LRI, Orsay)


Exposants d´erreur optimaux pour l´identification de l´ordre d´une chaîne de Markov cachée (HMM)

Nous considérons l´estimation de l´ordre, c´est-à-dire du nombre d´états cachés d´une chaîne de Markov cachée à temps discret sur un alphabet d´observation fini. Ce problème a un intérêt pratique car les paramètres d´une HMM ne sont pas identifiables si l´ordre est mal spécifié.
Les estimateurs envisagés sont liés aux estimateurs construits sur le critère d´information bayésien (BIC). Ce sont par exemple des estimateurs par maximum de vraisemblance pénalisé ou des estimateurs construits à partir de codeurs universels, comme proposés par Kieffer (1993) ou Liu et Narayan (1994). Nous vérifions donc la forte consistance de ces estimateurs sans supposer de borne supérieure a priori sur le nombre d´états cachés et en utilisant les plus petites pénalités connues à ce jour. Nous prouvons ensuite deux versions du Lemme de Stein pour l´estimation de l´ordre d´une HMM. Ces deux versions donnent d´une part une borne supérieure non-triviale pour la vitesse exponentielle avec laquelle la probabilité de sous-estimation tend vers 0, et montrent d´autre part que la vitesse avec laquelle la probabilité de surestimer l´ordre tend vers 0 ne peut être exponentielle en fonction du nombre d´observations.
Finalement le résultat principal est constitué par la preuve que les estimateurs de l´ordre par maximum de vraisemblance pénalisé ont une probabilité de sous-estimer l´ordre qui décroît de manière optimale. Cette preuve tourne la difficulté constituée par la nature mystérieuse du maximum de vraisemblance dans les HMM en utilisant des arguments de grandes déviations au niveau des processus de vraisemblance.


Vendredi 28 février 2003 à 10h

Gonzalo Joya
(Departamento de Tecnología Electrónica.
ETSSI Telecomunicación, Université de Málaga, Espagne)


Algorithme de Kohonen appliqué à l'Évaluation de la Securité

Les systèmes de transmission d'énergie électrique sont souvent obligés de fonctionner dans des conditions très proches des limites techniques. Ces conditions exigent le développement de systèmes d'évaluation de la sécurité rapides et efficients, lesquels doivent permettre la détection d'une situation critique ou d'insécurité dans le moindre temps possible, ainsi que proposer les actions de contrôle appropriées pour amener le système jusqu'à une situation de sécurité.
Dans un réseau électrique de taille réelle, le nombre de failles ou de contingences possibles, ainsi que le nombre de variables qui décrivent l'état du système sont excessivement élevés. Cela entraîne qu'une solution du problème de l'évaluation de la sécurité basée sur l'analyse fonctionnelle de ces variables peut-être inabordable.
Dans ce contexte, les algorithmes de Kohonen apparaissent comme un outil très intéressant grâce à leur capacité de classification d'un ensemble de données d'une manière visuelle rapide, et leur capacité d'expliciter des critères de classification inconnues pour un opérateur.
Dans cet exposé nous décrivons et discutons quelques unes des applications des algorithmes de Kohonen à l'évaluation de la sécurité d'un système d'énergie électrique, soit pour la détection de la gravité d'un possible état du réseau, soit pour la prédiction de la gravité d'une contingence future, soit pour la proposition des opérations de contrôle appropriées pour la restitution d'un état de sécurité.


Vendredi 21 février 2003 à 10h

Gonzalo Joya
(Departamento de Tecnología Electrónica.
ETSSI Telecomunicación, Université de Málaga, Espagne)


Techniques " soft-computing " pour l'Identification de Systèmes.
Une perspective d'Optimisation

L'identification d'un système peut-être considérée l'une des plus importantes opérations de l'ingénierie à cause de son applicabilité à des tâches en rapport à des systèmes industriels et des systèmes d'intérêt social tels que les impliqués en démographie, en épidémiologie, en économie, etc.
Quand on dispose d'un modèle du système physique basé sur un Système d'Equations Différentielles, l'identification peut être exposée en termes d'estimation de la valeur des paramètres du système d'équations à partir des observations discrètes des variables d'état du modèle.
De cette perspective, l'identification peut être abordée comme un problème d'optimisation, en ce sens qu'il s'agit de trouver les valeurs des paramètres qui produiront les erreurs les plus basses entre les valeurs observées et les estimées pour les variables d'état. Cette façon d'envisager le problème permet sa résolution au moyen de deux paradigmes très connus parmi ceux englobés dans le terme " soft-computing ": les Algorithmes Génétiques et les Réseaux de Neurones Rebouclés d'Hopfield.
Dans cet exposé, nous décrivons l'adaptation de ces deux paradigmes à la résolution d'un problème d'identification et nous discutons et comparons ses limitations et possibilités.


Vendredi 14 février 2003 à 10h

Béatrice Laurent (Statistique Orsay, Université Paris 11)


Tests d'hypothèses convexes en régression gaussienne
En collaboration avec Yannick Baraud et Sylvie Huet

Le but de cet exposé est de présenter une approche générale permettant de tester l'appartenance d'une fonction de régression à certains ensembles fonctionnels convexes. Nous présenterons, comme applications, des tests de positivité, de monotonie et de convexité, ainsi que des tests d'appartenance à certains ensembles de solutions d'inéquations différentielles. Les procédures de tests proposées sont basées sur des tests multiples et ne nécessitent aucune hypothèse a priori sur la fonction de régression. Ces tests sont non-asymptotiques et permettent de détecter des écarts à l'hypothèse nulle en norme infinie. Nous établissons des vitesses de séparation sur des classes de fonctions régulières et présentons une étude de simulation pour tester la monotonie

 

Vendredi 7 février 2003 à 10h

Riadh Kallel (MATISSE-SAMOS, Université Paris 1)


Evaluation du bootstrap pour le choix d’un modèle neuronal

Les perceptrons multicouches (PMC) sont des modèles statistiques qui permettent de déterminer une relation entre des variables à expliquer et des variables explicatives. Les propriétés théoriques de ces modèles, comme par exemple, la propriété d'approximation universelle, sont connues. Mais, dans le cadre des applications, ces propriétés ne permettent pas de choisir entre différents modèles lorsque le nombre de données est faible. Le bootstrap est une méthode qui permet d'estimer la précision d'un estimateur quand le nombre d'observations est petit. L'application de cette méthode aux PMC s'est avérée pertinente. Dans un cas plus général, comme celui du modèle auto-régressif fonctionnel, le bootstrap paramétrique apporte une solution au problème de choix de modèles, par son application au test asymptotique de différences de contrastes. Le test bootstrap est puissant et consistant.


Vendredi 31 janvier 2003 à 10h

Augustin Soulé (Lip6, Université Paris VI)


Classification de flots Internet et mélanges de lois de Dirichlet

La transmission de paquets d'information sur le réseau Internet se fait à travers de routeurs regroupés en AS (Autonomous System). Un flot est l'ensemble des paquets transmis entre deux AS du réseau. Chaque flot est décrit par un histogramme de la taille des paquets pendant une période d'observation.
La classification de ces flots est intéressante pour avoir une idée concise du trafic mais surtout car elle facilite la détection d'intrusions ou d'attaques du réseau.
La classification des histogrammes par distance n'est pas satisfaisante car les classes obtenues sont instables et n'ont pas d'interprétations paramétriques. Nous effectuons une classification par estimation de mélanges de lois de Dirichlet. Les résultats obtenus confirment les observations mentionnées dans la littérature sur les divers types de flots (éléphants, souris, tortues, dragons).


Vendredi 17 janvier 2003 à 10h

Sophie Levionnois (Société BAYESIA, Laval)


Les réseaux bayésiens, principes, modélisation et apprentissage

Présentation formelle des réseaux bayésiens et exemples simples. Démonstration via le logiciel BayesiaLab des techniques de modélisation et d'apprentissages d'un réseau bayésien à partir des données.Recherche de dépendances conditionnelles, classification automatique, prédiction et clustering.
Utilisation des réseaux bayésiens dynamiques en planification stratégique.Intérêts spécifiques et comparaison avec d'autres techniques de modélisation par apprentissage.
Applications de l'analyse des données à base de réseaux bayésiens. Application à l'analyse de la trajectoires des patients dans le système de soin et à la classification des clients d'une banque vis à vis de l'attrait de différents produits financiers.

 

Le Séminaire en 2002

 

Vendredi 13 décembre 2002 à 10h

Ludovic Lebart (CNRS - Ecole Nationale Supérieure des Télécommunications)


Classification et analyse de contiguïté

Lorsque des observations statistiques (multivariées) sont associées à un graphe, les variances et covariances "locales" permettent de prendre en compte la dépendance des observations vis-à-vis du graphe. L'analyse de contiguïté permet alors de confronter structures locales et globales. Le graphe peut être construit à partir des données elles-mêmes, ou à partir de données externes ou instrumentales relatives aux mêmes observations (dans chaque cas : à partir de seuils de distance, à partir des k plus proches voisins de chaque observation, ou encore à partir de cartes de Kohonen). Les paramètres des analyses de contiguïté (spectres et axes principaux) permettent de comparer et de qualifier les diverses visualisations obtenues.


Vendredi 29 novembre 2002 à 10h

Jean-Pascal Aboa (LISE-CEREMADE, Paris 9)


Arbres de décision pour données aléatoires

On se donne un échantillon de données représentées chacune par des variables aléatoires simulables ou par des lois de probabilité ou encore par des histogrammes. On propose pour de telles données des algorithmes de construction d'arbres binaires de décision. La nouveauté est l'introduction d'une notion de seuil aléatoire permettant de définir les coupures des noeuds de l'arbre. Les branches de l'arbre génèrent des règles de décision ou d'explication de type probabilistes. L'application porte sur des histogrammes de données sociologiques anglaises expliquant le taux de chômage par district mais d'autres types d'applications (en traitement d'images, en informatique ou en santé alimentaire) seront évoquées.


Vendredi 11 octobre 2002 à 9h30
Attention : ce séminaire aura lieu salle C-22-04 bis

Michel Verleysen (Louvain-la-Neuve)


Méthodes de test des réseaux de neurones artificiels, en vue de la sélection de modèles

Il existe de nombreuses méthodes mathématiques et statistiques pour évaluer les performances d'un modèle construit sur des données: Monte-carlo, cross-validation, k-fold cross-validation, leave-one-out, AIC et BIC, bootstrap, bootstrap 632, etc. Toutes ces méthodes peuvent être appliquées aux réseaux de neurones artificiels utilisés par exemple pour l'approximation de fonction ou la classification. L'exposé passera en revue les différents principes de base de ces méthodes, et montrera comment elles peuvent être appliquées d'une part à la sélection de régresseurs dans le contexte de la prévision de séries temporelles, et d'autre part au choix de paramètres (nombre de neurones par exemple) dans un approximateur de fonctions.


Vendredi 25 octobre 2002 à 10h00

Catherine Aaron (MATISSE-SAMOS, Paris 1)


Le point sur les méthodes de classifications non paramétriques en vue d'effectuer des segmentations en classes connexes

On peut, notamment dans le cadre de la modélisation, avoir besoin de s'assurer que l'on travaille sur un espace connexe, ceci permet, par exemple, d'exclure des cas de recherche de fonctions non continues. Le cas échéant on devra effectuer un partitionnement de l'espace en classes qui vérifient cette propriété.
Après avoir défini une notion de connexité pour des ensembles discrets (correspondant à des observations de données), nous allons étudier les résultats des méthodes classiques de classification du point de vue de leur compatibilité avec l'obtention de partitions connexes pertinentes puis proposer une méthode de classification reposant uniquement sur le critère de connexité.


Vendredi 29 novembre 2002 à 10h00

Jean-Pascal Aboa (LISE-CEREMADE, Paris 9)


Arbres de décision pour données aléatoires

On se donne un échantillon de données représentées chacune par des variables aléatoires simulables ou par des lois de probabilité ou encore par des histogrammes. On propose pour de telles données des algorithmes de construction d'arbres binaires de décision. La nouveauté est l'introduction d'une notion de seuil aléatoire permettant de définir les coupures des noeuds de l'arbre. Les branches de l'arbre génèrent des règles de décision ou d'explication de type probabilistes. L'application porte sur des histogrammes de données sociologiques anglaises expliquant le taux de chômage par district mais d'autres types d'applications (en traitement d'images, en informatique ou en santé alimentaire) seront évoquées.



Vendredi 28 juin 2002 à 9h30

Carlo Gaetan (Université de Padoue)


A Metropolis version of the EM algorithm

The Expectation Maximisation (EM) algorithm is a popular technique for maximum likelihood in incomplete data models. In order to overcome its documented limitations,several stochastic variants are proposed in the literature. However, none of these algorithms is guaranteed to provide a global maximizer of the likelihood function. In this talk we briefly review the stochastic variants and we introduce the MEM algorithm --- a Metropolis version of the EM --- that achieves the global maximisation of the likelihood with probability that goes to one when the number of iterations goes to infinity (This is a joint work with Jian-feng Yao, Université de Rennes).





Vendredi 21 juin 2002 à 11h00

Gonzalo Joya (Université de Malaga)


Recurrent Artificial Neural Networks for Optimization

Recurrent artificial neural networks (RANNs) are fundamentally defined by its dynamics - expressed with a system of ordinary differential equations- and an associated energy function. The existence of this energy function allows this paradigm for the application to optimization problems, which are relevant from both a theoretical and practical perspective. From a theoretical point of view, because optimization problems are frequently NP-complete, thus providing a good benchmark for comparison with other optimization methods. From a practical point of view, because these problems frequently describe real problems, which are not efficiently solved by classical techniques. Moreover, other interesting problem classes such as control and parameter estimation can be described in terms of optimization. The most important limitations of RANNs regarding this field are two: existence of local minima and slow convergence. Besides, the association between the diverse dynamical equations and the corresponding energy functions is often carried out with insufficient rigor. Several methods have been proposed to face the problem of local minima: on the one hand, strategies for both local minima avoidance and global minimum search have been established, mainly based on the variation of the neuron gain parameters. On the other hand, new energy functions that possess only one global minimum have been explored, resulting in new conditions on the network weights.
The slow convergence problem may be approached by either a parallel implementation or searching new numerical methods for solving the system of differential equations that describe the network dynamics. In this course, a review of the previous questions is carried out. Thus, we describe the process of obtaining the network structure that solves each particular optimization problem, and we analyze each of the above mentioned applicability limitations and some of the proposed solutions.





Vendredi 21 juin 2002 à 9h30

Francisco Sandoval (Université de Malaga)


Short-term load forecasting using artificial neural networks

The prediction of the electric demand has become as one of the main investigation fields in the electric engineering. The electric industry needs to predict the load consumption with lead time in the range from the short term (hours or days ahead) to the long term (with several years ahead). The short-term prediction, in particular, has become increasingly important for various operations in power systems, such as economic scheduling of generating capacity, fuel purchase scheduling, security analysis, and planning activities. In addition, since many countries have recently privatized and deregulated their power systems, load forecasting play a crucial role in the final price of the energy. Small errors in the load forecasting have a significant economic impact. However, load forecasting is a difficult task because the load series is complex. First, the series exhibits several level of seasonality, and second, there are many exogenous variables that must be considered, specially weather-related variables. Thus, the relationships between hourly load and these factors are non-linear, so the forecasting problem requires a non-linear specification with a wide number of variables. Conventional load forecasting techniques, categorized into statistical methods, such as multiple regression and Box-Jenkins time series methods, present several limitations: complexity of modeling, lack of flexibility, low accuracy of results, mainly in special days, weekends and holidays, etc. In recent times, much research has been carried out on the application of artificial intelligence techniques to the load forecasting problem. Among these techniques, the models with the highest attention have been the Artificial Neural Networks (ANNs), mathematical tools originally inspired by the way the human brain processes information. ANNs are being applied to forecasting problems since they have a distributed architecture and their weights store interrelationships between variables without specifying them explicitly in advance. ANNs applications to the forecasting problem usually employ supervised learning in order to implement the non-linear mapping between historical data and future values of load. However, although the ANNs are being used by many utilities, there is certain skepticism among the researchers and the industries. And this, among another reasons, because the issues derived from the design of ANN-based forecasting system. In this conference we shall address the problem of designing a proper ANN attending to the main task to be performed, such as data pre-processing, the ANN design itself and its implementation, and the ANN validation.





Vendredi 14 juin 2002 à 9h30

Michel Verleysen (Louvain-la-Neuve)


Projection non-linéaire de données

Les méthodes de projection de données, destinées à réduire la dimension de l'espace de travail, sont utilisées, entre autres, pour des questions de représentation et pour simplifier l'information ou réduire sa redondance en vue d'un traitement ultérieur. Si les méthodes de projection linéaire sont bien connues, des méthodes non-linéaires ont fait leur apparition ces dernières années. Elles ont comme avantage de pouvoir, a priori, permettre de projeter efficacement des distributions plus complexes de données, au prix des difficultés généralement associées aux méthodes d'analyse non-linéaire (convergence, minima locaux, etc.). De plus, elles utilisent de plus en plus des notions de distance non-Euclidiennes, les distances euclidiennes étant peu adaptées aux espaces de grande dimension. L'exposé donnera un aperçu des recherches concernant les méthodes de projection non-linéaire, basées par exemple sur des critères de conservation de la variance, des distances entre points, ou des voisinages (Multi-Dimensional Scaling, Curvilinear Component Analysis, Curvilinear Distance Analysis, Shannon mapping, Isomap, etc.). Il tentera de montrer les avantages et inconvénients respectifs de ces méthodes, montrera les travaux actuels dans ce domaine, ainsi que des directions possibles de recherche.





Vendredi 24 mai 2002 à 9h30

Gwenaelle Castellan (Université Lille 1)


Sélection d'histogrammes à l'aide d'un critère de type Akaike

Nous étudions le problème du choix d'un estimateur par histogramme basé sur un échantillon i.i.d. issu d'une densité inconnue.
Et plus précisément, nous nous intéressons au choix d'une "meilleure" partition construite uniquement en fonction des observations. Nous considérons le cas de partitions régulières et le cas de partitions irrégulières et nous proposons un critère de sélection par maximum de vraisemblance pénalisé. Nous définissons le terme de pénalité présent dans notre critère de manière à minimiser non asymptotiquement le risque Hellinger de l'estimateur pénalisé qui en résulte. Notre critère apparaît alors, soit comme une légère correction, soit comme une modification substantielle du critère d'Akaike, selon la complexité de la famille de partitions considérée.





Vendredi 3 mai 2002 à 9h30

Emmanuel Flachaire (EUREQUA, Paris 1)


Les tests robustes à l'hétéroscédasticité de forme inconnue

En présence d'hétéroscédasticité de forme inconnue, l'estimateur par Moindres Carrés Ordinaires des paramètres n'est plus efficace, son estimateur de la matrice de covariance est non-convergent. Eicker (1963) et White (1980) ont développé un estimateur de la matrice de covariance robuste à l'hétéroscédasticité de forme inconnue, qui permet de faire de l'inférence. Cet estimateur est largement utilisé en pratique. Cragg (1983) a propose un estimateur plus efficace, qui utilise comme instruments les puissances respectives et les produits-croisés des régresseurs. Toutefois, ce dernier est peu utilisé en pratique car ses performances en échantillon fini ne sont pas bonnes. Dans cet exposé, nous montrons qu'a l'aide des méthodes du bootstrap et de l'utilisation des résidus contraints dans la construction des estimateurs, les tests basés sur l'estimateur de Cragg sont largement plus performants en échantillons finis que ceux basés sur l'estimateur de Eicker et White. Finalement, nous montrons qu'une inférence fiable et efficace peut être obtenu, même pour des échantillons de petite taille.





Vendredi 5 avril 2002 à 9h30

Alain Dutot (LISA, Créteil)


Régression neuronale et sélection des variables dans le cas de la modélisation de la pollution photochimique

On montrera les déterminants physico-chimiques du phénomène de pollution en milieu atmosphérique urbain et les difficultés de sélectionner des régresseurs pertinents, en utilisant soit une approche chimique déterministe soit une approche statistique.





Vendredi 29 mars 2002 à 11h00

Francisco Sandoval (Université de Malaga)


Design of Artificial Neural Networks using Evolutionary Computation

Artificial Neural Networks (ANNs) offer an attractive paradigm of computation for many applications (pattern recognition, system identification, cognitive modeling, etc.) for a number of reasons including: potential for massively parallel computation, robustness in the presence of noise, resilience to the failure of components, amenability to adaptation and learning, etc. Practical applications of ANNs require the choice of a suitable network topology and the processing functions computed by individual units. However, it is often hard to design good ANNs, because many of the basic principles governing information processing in ANNs are difficult to understand, and the complex interactions among network units usually makes engineering techniques like divide and conquer inapplicable.
When complex combinations of behavior approaches are given (such as learning speed, compactness, generalization capacity and resistance to the noise), and the size of the nets grows in dimension and complexity, the approach to its solution by means of the human engineering doesn't work and it is necessary to appeal to more efficient automated procedures.
In this intent of automated solutions it appears the evolutionary techniques, denominated, in a generic way, evolutionary computation. These techniques take form in a group of evolutionary algorithms whose main implementations have been summed up in three approaches, strongly related, but developed in an independent way: genetic algorithms (with links to genetic programming and classifier systems), evolution strategies, and evolutionary programming. All these algorithms respond to a class of population-based stochastic search algorithms, and they have been developed from ideas and principles of natural evolution. An important characteristic of all these algorithms is its search strategy based on the population.
The evolutionary algorithms can be used for the design of artificial neural networks, in which, besides the learning, the evolution is another fundamental form of adaptation. This way, the evolutionary algorithms can be used for the realization of diverse tasks, as training of the weights of connection, design of the architecture, adaptation of the learning rules, initialization of the weights, extraction of rules, etc. That is, we try to design artificial neural networks able to adapt to an environment as well as to changes in that environment.
The conference will deal with which are the most important characteristics in the evolutionary algorithms, analyzing and comparing their most important constituents, and how these algorithms can be applied in the design of artificial neural networks.





Vendredi 29 mars 2002 à 9h30

Gonzalo Joya (Université de Malaga)


Artificial Neural Networks for Energy Management System. Applicability and limitations of the main paradigms

Electrical energy has obviously become an essential element for the operation and development of current society. Consequently, the improvement of the set of tasks implicated in its management - what we call Energy Management System (EMS)- constitutes a high-priority research field from the social, economical and human points of view. These tasks, which may be grouped as forecasting, state estimation and security related tasks, present all or most of the following characteristics: 1) their solution involves a high number of noisy and/or incomplete data. 2) Complex relationships exist among the variables implicated in each problem. 3) They are difficult to handle by an operator. 4) It is difficult to find a numerical or algorithmical solution to the problem, and if this solution is found, it presents a high computational cost. 5) They cannot be described by means of a simple set of rules based on the expert's knowledge. 6) Real time operation is frequently required. These features discourage the application of classical numerical methods, whereas Artificial Neural Networks (ANN) based techniques turn out to be especially well suited for them. Besides, many of these problems may be approached as either a classification or a function approximation problem, and both approaches fit into the different paradigms that ANN techniques comprise. Thus, on one hand, feed-forward supervised neural networks may be used to obtain a particular numerical function. On the other hand, unsupervised neural networks take advantage of their ability to extract unknown criteria from a pattern set to achieve a visual classification of the patterns.
Yet ANNs are often improperly used and they are required to solve problems that they are not prepared for. This spurious usage is partly due to the complex internal representation of the network parameters, but these parameters are easily obtained by means of well-established training algorithms. Thus, we are tempted to use ANNs not only as "black boxes" but as some kind of "magic boxes". This risk justifies a deep study of the internal behavior of ANNs.
In this course we review the application of ANNs for EMS from a double perspective. On one hand, we will study the most significant operations on an EMS. From their features and the limitations of the classical solutions, we will justify a neural solution and the choice of the most appropriate neural paradigm. On the other hand, we will use the EMS environment as a "benchmark" to highlight the main features, limitations and usage recommendations of the mostly applied neural paradigms.





Vendredi 22 mars 2002 à 9h30

Michel Verleysen (Louvain-la-Neuve)


Les réseaux RBFN (Radial-Basis Function Networks)

Les réseaux RBFN sont des approximateurs de fonction, ayant des propriétés d'approximation universelle similaires au MLP (perceptrons multi-couches). L'apprentissage de leurs coefficients passe par deux phases, la première étant non-supervisée (quantification vectorielle) et la seconde supervisée. L'avantage des réseaux RBFN réside dans le fait que cette seconde partie est un problème linéaire, ne nécessitant pas de descente de gradient ou autre algorithme d'optimisation, et évitant donc les minima locaux.
Néanmoins, il existe de nombreux algorithmes d'apprentissage différents (principalement pour la partie non-supervisée), sans qu'il ne s'en dégage un consensus sur quant à leurs performances respectives.
Le séminaire donnera un aperçu des réseaux RBFN, au point de vue apprentissage et utilisation, ainsi que quelques perspectives quant aux axes de recherche à explorer dans ce domaine.





Vendredi 8 mars 2002 à 9h30

Brieuc Conan-Guez (Inria) et Fabrice Rossi (Paris Dauphine)


Traitement neuronal de données fonctionnelles

Nous présentons une extension des perceptrons multi-couches (PMC) au cas où les données d'entrée sont des fonctions régulières. Contrairement à la plupart des méthodes de l'analyse de données fonctionnelles, le modèle proposé est non-linéaire et ne se base pas sur une représentation régularisée des fonctions manipulées, qui sont traitées directement.
Après avoir décrit les PMC fonctionnels, nous montrons que deux résultats fondamentaux des PMC classiques peuvent s'étendre au cas fonctionnel : 1) nous montrons que les PMC fonctionnels sont des approximateurs universels :une fonction continue d'un compact d'un espace fonctionnel dans R peut être approchée arbitrairement bien par un PMC. Pour une précision donnée, le PMC d'approximation utilise un nombre fini de paramètres numériques.
2) nous montrons que l'apprentissage des PMC fonctionnels est consistant : les paramètres optimaux empiriques d'un PMC fonctionnel convergent presque sûrement vers les paramètres optimaux quand le nombre d'observations tant vers l'infini. Nous illustrons le comportement du modèle sur quelques exemples.





Vendredi 8 février 2002 à 9h30

Richard Emilion (Paris Dauphine et Nanterre)


Classification et mélange de processus

Nous proposons une méthode de classification basée sur l'estimation de mélanges de lois lorsque les observations sont décrites par des lois de probabilités.
Les composantes du mélange sont des lois de variables aléatoires à valeurs lois qui apparaissent dans des analyses Bayesiennes de problèmes non paramétriques : processus de Dirichlet, processus Gamma pondérés, processus de Kraft.
Nous montrons comment appliquer les algorithmes S.E.M. et D.S. aux marginales fini-dimensionnelles pour obtenir des mélanges qui convergent vers le mélange recherché lorsque la dimension augmente. La démonstration repose sur le fait que les lois des processus composants sont mutuellement étrangères grâce à un théorème de Kakutani, les classes recherchées étant alors les supports de ces composantes.





Vendredi 25 janvier 2002 à 9h30

Michel Verleysen (Louvain-la-Neuve)


Apprentissage par réseaux de neurones :
le problème des données en grande dimension

Les réseaux de neurones artificiels sont des méthodes non-linéaires et adaptatives utilisées en analyse de données, traitement de signal et identification. Comme avec n'importe quelle méthode d'analyse de données,il devient difficile de maintenir les performances des méthodes lorsque le nombre de variables d'entrée des modèles croît. Les problèmes liés aux espaces de données de grande dimension apparaissent alors, comme le phénomène d'espace vide, la non-adéquation des notions usuelles de distance (Euclidienne), etc.
Cet exposé aborde brièvement le développement d'algorithmes d'apprentissage adaptés aux espaces de données de grande dimension, en particulier les méthodes locales, telles que la quantification vectorielle, les modèles d'approximation à fonctions radiales, et la classification Bayésienne basée sur l'approximation des densités de probabilités.
Réduire la dimension de l'espace par un pré-traitement des données permet également de limiter les difficultés. Basée sur le concept de dimension intrinsèque (ou fractale), une méthode de projection non-linéaire est présentée, généralisant les méthodes linéaires telles que l'analyse en composantes principales.
Les méthodes d'apprentissage et de réduction de dimension développées sont illustrées dans le cadre de la prévision de séries temporelles, en particulier dans le domaine financier

 

 


SAMOS
Université Paris 1