928 resultados para Descente de gradient
Resumo:
Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal
Resumo:
Cette thèse étudie des modèles de séquences de haute dimension basés sur des réseaux de neurones récurrents (RNN) et leur application à la musique et à la parole. Bien qu'en principe les RNN puissent représenter les dépendances à long terme et la dynamique temporelle complexe propres aux séquences d'intérêt comme la vidéo, l'audio et la langue naturelle, ceux-ci n'ont pas été utilisés à leur plein potentiel depuis leur introduction par Rumelhart et al. (1986a) en raison de la difficulté de les entraîner efficacement par descente de gradient. Récemment, l'application fructueuse de l'optimisation Hessian-free et d'autres techniques d'entraînement avancées ont entraîné la recrudescence de leur utilisation dans plusieurs systèmes de l'état de l'art. Le travail de cette thèse prend part à ce développement. L'idée centrale consiste à exploiter la flexibilité des RNN pour apprendre une description probabiliste de séquences de symboles, c'est-à-dire une information de haut niveau associée aux signaux observés, qui en retour pourra servir d'à priori pour améliorer la précision de la recherche d'information. Par exemple, en modélisant l'évolution de groupes de notes dans la musique polyphonique, d'accords dans une progression harmonique, de phonèmes dans un énoncé oral ou encore de sources individuelles dans un mélange audio, nous pouvons améliorer significativement les méthodes de transcription polyphonique, de reconnaissance d'accords, de reconnaissance de la parole et de séparation de sources audio respectivement. L'application pratique de nos modèles à ces tâches est détaillée dans les quatre derniers articles présentés dans cette thèse. Dans le premier article, nous remplaçons la couche de sortie d'un RNN par des machines de Boltzmann restreintes conditionnelles pour décrire des distributions de sortie multimodales beaucoup plus riches. Dans le deuxième article, nous évaluons et proposons des méthodes avancées pour entraîner les RNN. Dans les quatre derniers articles, nous examinons différentes façons de combiner nos modèles symboliques à des réseaux profonds et à la factorisation matricielle non-négative, notamment par des produits d'experts, des architectures entrée/sortie et des cadres génératifs généralisant les modèles de Markov cachés. Nous proposons et analysons également des méthodes d'inférence efficaces pour ces modèles, telles la recherche vorace chronologique, la recherche en faisceau à haute dimension, la recherche en faisceau élagué et la descente de gradient. Finalement, nous abordons les questions de l'étiquette biaisée, du maître imposant, du lissage temporel, de la régularisation et du pré-entraînement.
Resumo:
L'apprentissage profond est un domaine de recherche en forte croissance en apprentissage automatique qui est parvenu à des résultats impressionnants dans différentes tâches allant de la classification d'images à la parole, en passant par la modélisation du langage. Les réseaux de neurones récurrents, une sous-classe d'architecture profonde, s'avèrent particulièrement prometteurs. Les réseaux récurrents peuvent capter la structure temporelle dans les données. Ils ont potentiellement la capacité d'apprendre des corrélations entre des événements éloignés dans le temps et d'emmagasiner indéfiniment des informations dans leur mémoire interne. Dans ce travail, nous tentons d'abord de comprendre pourquoi la profondeur est utile. Similairement à d'autres travaux de la littérature, nos résultats démontrent que les modèles profonds peuvent être plus efficaces pour représenter certaines familles de fonctions comparativement aux modèles peu profonds. Contrairement à ces travaux, nous effectuons notre analyse théorique sur des réseaux profonds acycliques munis de fonctions d'activation linéaires par parties, puisque ce type de modèle est actuellement l'état de l'art dans différentes tâches de classification. La deuxième partie de cette thèse porte sur le processus d'apprentissage. Nous analysons quelques techniques d'optimisation proposées récemment, telles l'optimisation Hessian free, la descente de gradient naturel et la descente des sous-espaces de Krylov. Nous proposons le cadre théorique des méthodes à région de confiance généralisées et nous montrons que plusieurs de ces algorithmes développés récemment peuvent être vus dans cette perspective. Nous argumentons que certains membres de cette famille d'approches peuvent être mieux adaptés que d'autres à l'optimisation non convexe. La dernière partie de ce document se concentre sur les réseaux de neurones récurrents. Nous étudions d'abord le concept de mémoire et tentons de répondre aux questions suivantes: Les réseaux récurrents peuvent-ils démontrer une mémoire sans limite? Ce comportement peut-il être appris? Nous montrons que cela est possible si des indices sont fournis durant l'apprentissage. Ensuite, nous explorons deux problèmes spécifiques à l'entraînement des réseaux récurrents, à savoir la dissipation et l'explosion du gradient. Notre analyse se termine par une solution au problème d'explosion du gradient qui implique de borner la norme du gradient. Nous proposons également un terme de régularisation conçu spécifiquement pour réduire le problème de dissipation du gradient. Sur un ensemble de données synthétique, nous montrons empiriquement que ces mécanismes peuvent permettre aux réseaux récurrents d'apprendre de façon autonome à mémoriser des informations pour une période de temps indéfinie. Finalement, nous explorons la notion de profondeur dans les réseaux de neurones récurrents. Comparativement aux réseaux acycliques, la définition de profondeur dans les réseaux récurrents est souvent ambiguë. Nous proposons différentes façons d'ajouter de la profondeur dans les réseaux récurrents et nous évaluons empiriquement ces propositions.
Resumo:
Les réseaux de capteurs sont formés d’un ensemble de dispositifs capables de prendre individuellement des mesures d’un environnement particulier et d’échanger de l’information afin d’obtenir une représentation de haut niveau sur les activités en cours dans la zone d’intérêt. Une telle détection distribuée, avec de nombreux appareils situés à proximité des phénomènes d’intérêt, est pertinente dans des domaines tels que la surveillance, l’agriculture, l’observation environnementale, la surveillance industrielle, etc. Nous proposons dans cette thèse plusieurs approches pour effectuer l’optimisation des opérations spatio-temporelles de ces dispositifs, en déterminant où les placer dans l’environnement et comment les contrôler au fil du temps afin de détecter les cibles mobiles d’intérêt. La première nouveauté consiste en un modèle de détection réaliste représentant la couverture d’un réseau de capteurs dans son environnement. Nous proposons pour cela un modèle 3D probabiliste de la capacité de détection d’un capteur sur ses abords. Ce modèle inègre également de l’information sur l’environnement grâce à l’évaluation de la visibilité selon le champ de vision. À partir de ce modèle de détection, l’optimisation spatiale est effectuée par la recherche du meilleur emplacement et l’orientation de chaque capteur du réseau. Pour ce faire, nous proposons un nouvel algorithme basé sur la descente du gradient qui a été favorablement comparée avec d’autres méthodes génériques d’optimisation «boites noires» sous l’aspect de la couverture du terrain, tout en étant plus efficace en terme de calculs. Une fois que les capteurs placés dans l’environnement, l’optimisation temporelle consiste à bien couvrir un groupe de cibles mobiles dans l’environnement. D’abord, on effectue la prédiction de la position future des cibles mobiles détectées par les capteurs. La prédiction se fait soit à l’aide de l’historique des autres cibles qui ont traversé le même environnement (prédiction à long terme), ou seulement en utilisant les déplacements précédents de la même cible (prédiction à court terme). Nous proposons de nouveaux algorithmes dans chaque catégorie qui performent mieux ou produits des résultats comparables par rapport aux méthodes existantes. Une fois que les futurs emplacements de cibles sont prédits, les paramètres des capteurs sont optimisés afin que les cibles soient correctement couvertes pendant un certain temps, selon les prédictions. À cet effet, nous proposons une méthode heuristique pour faire un contrôle de capteurs, qui se base sur les prévisions probabilistes de trajectoire des cibles et également sur la couverture probabiliste des capteurs des cibles. Et pour terminer, les méthodes d’optimisation spatiales et temporelles proposées ont été intégrées et appliquées avec succès, ce qui démontre une approche complète et efficace pour l’optimisation spatio-temporelle des réseaux de capteurs.
Resumo:
Dans un contexte de pression toujours plus grande sur les ressources naturelles, une gestion rationnelle des ressources hydriques s'impose. La principale difficulté de leur gestion provient du caractère aléatoire des apports en eau dans le système. Le sujet de cette recherche consiste à développer des méthodes d'optimisation stochastique capable de bien représenter les processus aléatoires. Le cas de Kemano, située en Colombie-Britannique (Canada), illustre les travaux de recherche. L'importante accumulation de neige sur les bassins versants engendre une hydrologie complexe, rendant la gestion du système délicate. La programmation dynamique stochastique est la méthode la plus utilisée pour déterminer la politique de gestion des réservoirs. Mais, son étude fait ressortir que cette méthode ne peut gérer que des modèles simplifiés des processus stochastiques, ne rendant pas compte des complexes corrélations spatio-temporelles des apports hydriques. Ainsi, la politique obtenue peut être de mauvaise qualité. Cette méthode est comparée avec la recherche directe de politique qui n'utilise pas de modèles pour représenter les processus stochastiques, mais évalue la politique sur des scénarios d'apports. Ainsi la recherche directe de politique se révèle globalement plus performante en prenant bien en considération la complexité des apports, mais est limitée par la forme prédéterminée de la politique. De plus, l'optimisation des paramètres en utilisant un algorithme évolutionnaire s'avère lente. La conception d'un algorithme de descente par gradient, combinée à une architecture "acteur-critique" appropriée, permet de réduire notablement le temps d'optimisation. Combinée à une fonction plus complexe employée pour la paramétrisation de la politique de gestion, la méthode permet d'obtenir une politique de qualité significativement supérieure à celle obtenue avec la programmation dynamique stochastique. Les travaux effectués dans le cadre de cette thèse ouvrent la voie à une application opérationnelle de la méthode de recherche directe de politique. L'évaluation en simulation devrait être appréciée des opérateurs en permettant une bonne représentation du système et des apports.
Resumo:
This work investigates the effect of rib stiffeners on the free and forced vibration of a gradient coil in a Magnetic Resonance Imaging (MRI) scanner. Several reinforcement schemes are studied in this paper. One scheme utilizes the existing holes in the gradient coil structure (typically reserved for magnetic shims) to produce the reinforcement. Non-ferrous, non-magnetic carbon fibre rib stiffeners are employed to fill these holes in several ways to strengthen a gradient coil. Another scheme replaces the inner half of the gradient coil material with a grid of interconnected axial and circumferential rib stiffeners. It is found that the structural stiffness of the gradient coil increases substantially when the coil is reinforced by carbon fibre rib stiffeners. The reinforcement affects the noise and vibration response of the gradient coil structure in the following ways. It increases the frequency range of forced response of the gradient coil at low frequencies due to the increased resonant frequency of the fundamental mode of the coil. Secondly, it reduces the forced response amplitude of the coil structure (which is governed by the structural stiffness of the coil). Thirdly, it reduces the number of natural modes in the low and medium frequency range and therefore lessens the chance of the coil structure being excited resonantly by magnetic resonance signal acquisition sequences. It is shown that gradient coils modelled by solid finite element models have higher stiffness along the coil’s circumference and lower stiffness in the axial direction than those using shell finite element models.
Resumo:
Economists rely heavily on self-reported measures to examine the relationship between income and health. We directly compare survey responses of a self-reported measure of health that is commonly used in nationally representative surveys with objective measures of the same health condition. We focus on hypertension. We find no evidence of an income/health greadient using self-reported hypertension but a sizeable gradient when using objectively measured hypertension. We also find that the probability of a false negative reporting is significantly income graded. Our results suggest that using commonly available self-reported chronic health measures might underestimate true income-related inequalities in health.
Resumo:
The flexural capacity of of a new cold-formed hollow flange channel section known as LiteSteel beam (LSB) is limited by lateral distortional buckling for intermediate spans, which is characterised by simultaneous lateral deflection, twist and web distortion. Recent research has developed suitable design rules for the member capacity of LSBs. However, they are limited to a uniform moment distribution that rarely exists in practice. Many steel design codes have adopted equivalent uniform moment distribution factors to accommodate the effect of non-uniform moment distributions in design. But they were derived mostly based on the data for conventional hot-rolled, doubly symmetric I-beams subject to lateral torsional buckling. The effect of moment distribution for LSBs, and the suitability of the current steel design code rules to include this effect for LSBs are not yet known. This paper presents the details of a research study based on finite element analyses of the lateral buckling strength of simply supported LSBs subject to moment gradient effects. It also presents the details of a number of LSB lateral buckling experiments undertaken to validate the results of finite element analyses. Finally, it discusses the suitability of the current design methods, and provides design recommendations for simply supported LSBs subject to moment gradient effects.
Resumo:
This thesis aimed to investigate the way in which distance runners modulate their speed in an effort to understand the key processes and determinants of speed selection when encountering hills in natural outdoor environments. One factor which has limited the expansion of knowledge in this area has been a reliance on the motorized treadmill which constrains runners to constant speeds and gradients and only linear paths. Conversely, limits in the portability or storage capacity of available technology have restricted field research to brief durations and level courses. Therefore another aim of this thesis was to evaluate the capacity of lightweight, portable technology to measure running speed in outdoor undulating terrain. The first study of this thesis assessed the validity of a non-differential GPS to measure speed, displacement and position during human locomotion. Three healthy participants walked and ran over straight and curved courses for 59 and 34 trials respectively. A non-differential GPS receiver provided speed data by Doppler Shift and change in GPS position over time, which were compared with actual speeds determined by chronometry. Displacement data from the GPS were compared with a surveyed 100m section, while static positions were collected for 1 hour and compared with the known geodetic point. GPS speed values on the straight course were found to be closely correlated with actual speeds (Doppler shift: r = 0.9994, p < 0.001, Δ GPS position/time: r = 0.9984, p < 0.001). Actual speed errors were lowest using the Doppler shift method (90.8% of values within ± 0.1 m.sec -1). Speed was slightly underestimated on a curved path, though still highly correlated with actual speed (Doppler shift: r = 0.9985, p < 0.001, Δ GPS distance/time: r = 0.9973, p < 0.001). Distance measured by GPS was 100.46 ± 0.49m, while 86.5% of static points were within 1.5m of the actual geodetic point (mean error: 1.08 ± 0.34m, range 0.69-2.10m). Non-differential GPS demonstrated a highly accurate estimation of speed across a wide range of human locomotion velocities using only the raw signal data with a minimal decrease in accuracy around bends. This high level of resolution was matched by accurate displacement and position data. Coupled with reduced size, cost and ease of use, the use of a non-differential receiver offers a valid alternative to differential GPS in the study of overground locomotion. The second study of this dissertation examined speed regulation during overground running on a hilly course. Following an initial laboratory session to calculate physiological thresholds (VO2 max and ventilatory thresholds), eight experienced long distance runners completed a self- paced time trial over three laps of an outdoor course involving uphill, downhill and level sections. A portable gas analyser, GPS receiver and activity monitor were used to collect physiological, speed and stride frequency data. Participants ran 23% slower on uphills and 13.8% faster on downhills compared with level sections. Speeds on level sections were significantly different for 78.4 ± 7.0 seconds following an uphill and 23.6 ± 2.2 seconds following a downhill. Speed changes were primarily regulated by stride length which was 20.5% shorter uphill and 16.2% longer downhill, while stride frequency was relatively stable. Oxygen consumption averaged 100.4% of runner’s individual ventilatory thresholds on uphills, 78.9% on downhills and 89.3% on level sections. Group level speed was highly predicted using a modified gradient factor (r2 = 0.89). Individuals adopted distinct pacing strategies, both across laps and as a function of gradient. Speed was best predicted using a weighted factor to account for prior and current gradients. Oxygen consumption (VO2) limited runner’s speeds only on uphill sections, and was maintained in line with individual ventilatory thresholds. Running speed showed larger individual variation on downhill sections, while speed on the level was systematically influenced by the preceding gradient. Runners who varied their pace more as a function of gradient showed a more consistent level of oxygen consumption. These results suggest that optimising time on the level sections after hills offers the greatest potential to minimise overall time when running over undulating terrain. The third study of this thesis investigated the effect of implementing an individualised pacing strategy on running performance over an undulating course. Six trained distance runners completed three trials involving four laps (9968m) of an outdoor course involving uphill, downhill and level sections. The initial trial was self-paced in the absence of any temporal feedback. For the second and third field trials, runners were paced for the first three laps (7476m) according to two different regimes (Intervention or Control) by matching desired goal times for subsections within each gradient. The fourth lap (2492m) was completed without pacing. Goals for the Intervention trial were based on findings from study two using a modified gradient factor and elapsed distance to predict the time for each section. To maintain the same overall time across all paced conditions, times were proportionately adjusted according to split times from the self-paced trial. The alternative pacing strategy (Control) used the original split times from this initial trial. Five of the six runners increased their range of uphill to downhill speeds on the Intervention trial by more than 30%, but this was unsuccessful in achieving a more consistent level of oxygen consumption with only one runner showing a change of more than 10%. Group level adherence to the Intervention strategy was lowest on downhill sections. Three runners successfully adhered to the Intervention pacing strategy which was gauged by a low Root Mean Square error across subsections and gradients. Of these three, the two who had the largest change in uphill-downhill speeds ran their fastest overall time. This suggests that for some runners the strategy of varying speeds systematically to account for gradients and transitions may benefit race performances on courses involving hills. In summary, a non – differential receiver was found to offer highly accurate measures of speed, distance and position across the range of human locomotion speeds. Self-selected speed was found to be best predicted using a weighted factor to account for prior and current gradients. Oxygen consumption limited runner’s speeds only on uphills, speed on the level was systematically influenced by preceding gradients, while there was a much larger individual variation on downhill sections. Individuals were found to adopt distinct but unrelated pacing strategies as a function of durations and gradients, while runners who varied pace more as a function of gradient showed a more consistent level of oxygen consumption. Finally, the implementation of an individualised pacing strategy to account for gradients and transitions greatly increased runners’ range of uphill-downhill speeds and was able to improve performance in some runners. The efficiency of various gradient-speed trade- offs and the factors limiting faster downhill speeds will however require further investigation to further improve the effectiveness of the suggested strategy.
Resumo:
Carbon pools and fluxes were quantified along an environmental gradient in northern Arizona. Data are presented on vegetation, litter, and soil C pools and soil CO2 fluxes from ecosystems ranging from shrub-steppe through woodlands to coniferous forest and the ecotones in between. Carbon pool sizes and fluxes in these semiarid ecosystems vary with temperature and precipitation and are strongly influenced by canopy cover. Ecosystem respiration is approximately 50 percent greater in the more mesic, forest environment than in the dry shrub-steppe environment. Soil respiration rates within a site vary seasonally with temperature but appear to be constrained by low soil moisture during dry summer months, when approximately 75% of total annual soil respiration occurs. Total annual amount of CO2 respired across all sites is positively correlated with annual precipitation and negatively correlated with temperature. Results suggest that changes in the amount and periodicity of precipitation will have a greater effect on C pools and fluxes than will changes in temperature :in the semiarid Southwestern United States.
Resumo:
Landscape scale environmental gradients present variable spatial patterns and ecological processes caused by climate, topography and soil characteristics and, as such, offer candidate sites to study environmental change. Data are presented on the spatial pattern of dominant species, biomass, and carbon pools and the temporal pattern of fluxes across a transitional zone shifting from Great Basin Desert scrub, up through pinyon-juniper woodlands and into ponderosa pine forest and the ecotones between each vegetation type. The mean annual temperature (MAT) difference across the gradient is approximately 3 degrees C from bottom to top (MAT 8.5-5.5) and annual precipitation averages from 320 to 530 mm/yr, respectively. The stems of the dominant woody vegetation approach a random spatial pattern across the entire gradient, while the canopy cover shows a clustered pattern. The size of the clusters increases with elevation according to available soil moisture which in turn affects available nutrient resources. The total density of woody species declines with increasing soil moisture along the gl-adient, but total biomass increases. Belowground carbon and nutrient pools change from a heterogenous to a homogenous distribution on either side of the woodlands. Although temperature controls the: seasonal patterns of carbon efflux from the soils, soil moisture appears to be the primary driving variable, but response differs underneath the different dominant species, Similarly, decomposition of dominant litter occurs faster-at the cooler and more moist sites, but differs within sites due to litter quality of the different species. The spatial pattern of these communities provides information on the direction of future changes, The ecological processes that we documented are not statistically different in the ecotones as compared to the: adjoining communities, but are different at sites above the woodland than those below the woodland. We speculate that an increase in MAT will have a major impact on C pools and C sequestering and release processes in these semiarid landscapes. However, the impact will be primarily related to moisture availability rather than direct effects of an increase in temperature. (C) 1998 Elsevier Science B.V.
Resumo:
Gradient-based approaches to direct policy search in reinforcement learning have received much recent attention as a means to solve problems of partial observability and to avoid some of the problems associated with policy degradation in value-function methods. In this paper we introduce GPOMDP, a simulation-based algorithm for generating a biased estimate of the gradient of the average reward in Partially Observable Markov Decision Processes (POMDPs) controlled by parameterized stochastic policies. A similar algorithm was proposed by Kimura, Yamamura, and Kobayashi (1995). The algorithm's chief advantages are that it requires storage of only twice the number of policy parameters, uses one free parameter β ∈ [0,1) (which has a natural interpretation in terms of bias-variance trade-off), and requires no knowledge of the underlying state. We prove convergence of GPOMDP, and show how the correct choice of the parameter β is related to the mixing time of the controlled POMDP. We briefly describe extensions of GPOMDP to controlled Markov chains, continuous state, observation and control spaces, multiple-agents, higher-order derivatives, and a version for training stochastic policies with internal states. In a companion paper (Baxter, Bartlett, & Weaver, 2001) we show how the gradient estimates generated by GPOMDP can be used in both a traditional stochastic gradient algorithm and a conjugate-gradient procedure to find local optima of the average reward. ©2001 AI Access Foundation and Morgan Kaufmann Publishers. All rights reserved.