689 resultados para Learning in teams
Resumo:
The purpose of this study was to conduct a comparative textual analysis on the role of movement in 3 texts in Drama in Education in Canada. As the subject is holistic and encourages creative, active participation, movement was expected to appear, even inadvertently, in both theory and practice. It was hoped that guidelines for the use of movement within Drama in Education would emerge from the texts and that these guidelines would serve as models for others to use. A total of 26 Drama in Education experts in Canada were each asked to list the 10 most important texts in the field. Those who answered were assigned numbers and charted according to age, gender, and geography. An objective colleague helped narrow the group to 16 participants. A frequency count was used, assigning 10 points to the first text on each list, and descending to 1 point for the tenth text listed. Based on the highest number of points calculated, the 5 most frequently used texts were identified. These were compared to ascertain the widest representation ofthe authors' geographic location and gender, as well as differences in theory and practice. The final selection included 3 texts that represented differing approaches in their presentation and discussion of Drama in Education theories and practices. Analysis involved applying 5 levels of commitment to determine if,how, why, when, and with what results movement was explicitly or implicitly addressed in the 3 texts. Analysis resulted in several unexpected surprises around each of the 3 texts. The study also provided suggestions for extending and clarifying the role of movement in teaching and learning in general, as well as for Drama in Education in particular.
Resumo:
This study surveyed practicing classroom teacher’s perceptions of a proposed educational resource “Avatar Academy” designed to enhance students’, particularly young boys, motivation and general attitude towards learning. The Avatar Academy resource is an instructional guide for implementing a classroom reward system based on common game mechanics. The resource emphasizes the modification of current pedagogies to exploit the use of game design to engage boys. A survey of recent literature indicated an opportunity to study teachers’ perceptions of the possible applications of game design mechanics to support the enhancement of student motivation and learning in the classroom. As a result the Avatar Academy handbook and blog resource were developed to assist teachers with the integration and administration of a program designed to enhance student motivation, especially boys, using avatars and a point based reward system. The resources were initially distributed to several practicing teachers for their review, and their feedback formed the basis for revisions of the Avatar Academy resource. After implementing changes to the resource based on initial teacher feedback, an updated Avatar Academy was redistributed and teacher opinions and perceptions of the tool’s possible impacts on classroom learning were collected.
Resumo:
This study examined the similarities and differences that currently exist between Chinese and Canadian online higher education, and explored the economic, political, and sociocultural environments that have shaped online education in these two jurisdictions. Furthermore, this paper discussed the efficacy of, and potential for, future development of online learning in higher education in both Canada and China. The research employed a collective case study design to gather information and data on the development of online higher education. The analysis on Contact North in Canada and the One-Man University in China provide a comparative perspective on the development of 2 typical online higher educational institutions in these two countries. The study revealed that the development of online higher education is influenced by the economic, political, and sociocultural factors of environment. Contact North and the One-Man University share similarities in many aspects, but are characteristically different. The Contact North can set an example for establishing and operating a self-regulated MOOCs platform. The study also generated implications for both organizations.
Resumo:
This project presents a primer for secondary French Immersion teachers that facilitates the use of French oral communicative activities in secondary Canadian and World Studies courses. The primer supports collaborative and inclusive teaching strategies that invite students to speak and develop their oral French communication skills. The primer is divided into 2 main components: (a) Rationale for the Primer, and (b) the Strategies themselves, comprising succinct descriptions as well as potential uses and suggestions. A critical content analysis of various Ontario Ministry of Education documents was undertaken in order to explore the importance of oral communication in second-language learning in Ontario secondary schools. Furthermore, holistic and invitational education perspectives were examined in order to define the advantages of collaborative learning. Moreover, research in the stream of French Immersion studies was also referenced to frame the relevance of second-language learning and the significant role the French Immersion teacher plays. The aforementioned research contributes to the advancement of theory and practice regarding the importance of opportunities for oral French communication in secondary Canadian and World Studies courses.
Resumo:
The potential of formative assessment (FA) for informing learning in classroom-based nursing courses is clearly established in the literature; however, research on FA in clinical courses remains scarce. This inquiry explored the lived experience of nursing students using transcendental phenomenology and described the phenomenon of being assessed in clinical courses. The research question guiding the study was: How is the phenomenon of assessment experienced by nursing students when FA is formally embedded in clinical courses? Inherent in this question were the following issues: (a) the meaning of clinical experiences for nursing students, (b) the meaning of being assessed through FA, and (c) what it is like to be assessed when FA is formally embedded within clinical experiences. The noematic themes that illuminated the whatness of the participants’ experience were (a) enabled cognitive activity, (b) useful feedback, (c) freedom to be, (d) enhanced focus, (e) stress moderator, and (f) respectful mentorship. The noetic themes associated with how the phenomenon was experienced were related to bodyhood, temporality, spatiality, and relationship to others. The results suggest a fundamental paradigm shift from traditional nursing education to a more pervasive integration of FA in clinical courses so that students have time to learn before being graded on their practice. Furthermore, this inquiry and the literature consulted provide evidence that using cognitive science theory to inform and reform clinical nursing education is a timely option to address the repeated calls from nursing leaders to modernize nursing education. This inquiry contributes to reduce our reliance on assumptions derived from research on FA in nursing classrooms and provides evidence based on the reality of using formative assessment in clinical courses. Recommendations for future research are presented.
Resumo:
We instillate rational cognition and learning in seemingly riskless choices and judgments. Preferences and possibilities are given in a stochastic sense and based on revisable expectations. the theory predicts experimental preference reversals and passes a sharp econometric test of the status quo bias drawn from a field study.
Resumo:
L’observation d’un modèle pratiquant une habileté motrice promeut l’apprentissage de l’habileté en question. Toutefois, peu de chercheurs se sont attardés à étudier les caractéristiques d’un bon modèle et à mettre en évidence les conditions d’observation pouvant optimiser l’apprentissage. Dans les trois études composant cette thèse, nous avons examiné les effets du niveau d’habileté du modèle, de la latéralité du modèle, du point de vue auquel l’observateur est placé, et du mode de présentation de l’information sur l’apprentissage d’une tâche de timing séquentielle composée de quatre segments. Dans la première expérience de la première étude, les participants observaient soit un novice, soit un expert, soit un novice et un expert. Les résultats des tests de rétention et de transfert ont révélé que l’observation d’un novice était moins bénéfique pour l’apprentissage que le fait d’observer un expert ou une combinaison des deux (condition mixte). Par ailleurs, il semblerait que l’observation combinée de modèles novice et expert induise un mouvement plus stable et une meilleure généralisation du timing relatif imposé comparativement aux deux autres conditions. Dans la seconde expérience, nous voulions déterminer si un certain type de performance chez un novice (très variable, avec ou sans amélioration de la performance) dans l’observation d’une condition mixte amenait un meilleur apprentissage de la tâche. Aucune différence significative n’a été observée entre les différents types de modèle novices employés dans l’observation de la condition mixte. Ces résultats suggèrent qu’une observation mixte fournit une représentation précise de ce qu’il faut faire (modèle expert) et que l’apprentissage est d’autant plus amélioré lorsque l’apprenant peut contraster cela avec la performance de modèles ayant moins de succès. Dans notre seconde étude, des participants droitiers devaient observer un modèle à la première ou à la troisième personne. L’observation d’un modèle utilisant la même main préférentielle que soi induit un meilleur apprentissage de la tâche que l’observation d’un modèle dont la dominance latérale est opposée à la sienne, et ce, quel que soit l’angle d’observation. Ce résultat suggère que le réseau d’observation de l’action (AON) est plus sensible à la latéralité du modèle qu’à l’angle de vue de l’observateur. Ainsi, le réseau d’observation de l’action semble lié à des régions sensorimotrices du cerveau qui simulent la programmation motrice comme si le mouvement observé était réalisé par sa propre main dominante. Pour finir, dans la troisième étude, nous nous sommes intéressés à déterminer si le mode de présentation (en direct ou en vidéo) influait sur l’apprentissage par observation et si cet effet est modulé par le point de vue de l’observateur (première ou troisième personne). Pour cela, les participants observaient soit un modèle en direct soit une présentation vidéo du modèle et ceci avec une vue soit à la première soit à la troisième personne. Nos résultats ont révélé que l’observation ne diffère pas significativement selon le type de présentation utilisée ou le point de vue auquel l’observateur est placé. Ces résultats sont contraires aux prédictions découlant des études d’imagerie cérébrale ayant montré une activation plus importante du cortex sensorimoteur lors d’une observation en direct comparée à une observation vidéo et de la première personne comparée à la troisième personne. Dans l’ensemble, nos résultats indiquent que le niveau d’habileté du modèle et sa latéralité sont des déterminants importants de l’apprentissage par observation alors que le point de vue de l’observateur et le moyen de présentation n’ont pas d’effets significatifs sur l’apprentissage d’une tâche motrice. De plus, nos résultats suggèrent que la plus grande activation du réseau d’observation de l’action révélée par les études en imagerie mentale durant l’observation d’une action n’induit pas nécessairement un meilleur apprentissage de la tâche.
Resumo:
L’apprentissage supervisé de réseaux hiérarchiques à grande échelle connaît présentement un succès fulgurant. Malgré cette effervescence, l’apprentissage non-supervisé représente toujours, selon plusieurs chercheurs, un élément clé de l’Intelligence Artificielle, où les agents doivent apprendre à partir d’un nombre potentiellement limité de données. Cette thèse s’inscrit dans cette pensée et aborde divers sujets de recherche liés au problème d’estimation de densité par l’entremise des machines de Boltzmann (BM), modèles graphiques probabilistes au coeur de l’apprentissage profond. Nos contributions touchent les domaines de l’échantillonnage, l’estimation de fonctions de partition, l’optimisation ainsi que l’apprentissage de représentations invariantes. Cette thèse débute par l’exposition d’un nouvel algorithme d'échantillonnage adaptatif, qui ajuste (de fa ̧con automatique) la température des chaînes de Markov sous simulation, afin de maintenir une vitesse de convergence élevée tout au long de l’apprentissage. Lorsqu’utilisé dans le contexte de l’apprentissage par maximum de vraisemblance stochastique (SML), notre algorithme engendre une robustesse accrue face à la sélection du taux d’apprentissage, ainsi qu’une meilleure vitesse de convergence. Nos résultats sont présent ́es dans le domaine des BMs, mais la méthode est générale et applicable à l’apprentissage de tout modèle probabiliste exploitant l’échantillonnage par chaînes de Markov. Tandis que le gradient du maximum de vraisemblance peut-être approximé par échantillonnage, l’évaluation de la log-vraisemblance nécessite un estimé de la fonction de partition. Contrairement aux approches traditionnelles qui considèrent un modèle donné comme une boîte noire, nous proposons plutôt d’exploiter la dynamique de l’apprentissage en estimant les changements successifs de log-partition encourus à chaque mise à jour des paramètres. Le problème d’estimation est reformulé comme un problème d’inférence similaire au filtre de Kalman, mais sur un graphe bi-dimensionnel, où les dimensions correspondent aux axes du temps et au paramètre de température. Sur le thème de l’optimisation, nous présentons également un algorithme permettant d’appliquer, de manière efficace, le gradient naturel à des machines de Boltzmann comportant des milliers d’unités. Jusqu’à présent, son adoption était limitée par son haut coût computationel ainsi que sa demande en mémoire. Notre algorithme, Metric-Free Natural Gradient (MFNG), permet d’éviter le calcul explicite de la matrice d’information de Fisher (et son inverse) en exploitant un solveur linéaire combiné à un produit matrice-vecteur efficace. L’algorithme est prometteur: en terme du nombre d’évaluations de fonctions, MFNG converge plus rapidement que SML. Son implémentation demeure malheureusement inefficace en temps de calcul. Ces travaux explorent également les mécanismes sous-jacents à l’apprentissage de représentations invariantes. À cette fin, nous utilisons la famille de machines de Boltzmann restreintes “spike & slab” (ssRBM), que nous modifions afin de pouvoir modéliser des distributions binaires et parcimonieuses. Les variables latentes binaires de la ssRBM peuvent être rendues invariantes à un sous-espace vectoriel, en associant à chacune d’elles, un vecteur de variables latentes continues (dénommées “slabs”). Ceci se traduit par une invariance accrue au niveau de la représentation et un meilleur taux de classification lorsque peu de données étiquetées sont disponibles. Nous terminons cette thèse sur un sujet ambitieux: l’apprentissage de représentations pouvant séparer les facteurs de variations présents dans le signal d’entrée. Nous proposons une solution à base de ssRBM bilinéaire (avec deux groupes de facteurs latents) et formulons le problème comme l’un de “pooling” dans des sous-espaces vectoriels complémentaires.
Resumo:
One major component of power system operation is generation scheduling. The objective of the work is to develop efficient control strategies to the power scheduling problems through Reinforcement Learning approaches. The three important active power scheduling problems are Unit Commitment, Economic Dispatch and Automatic Generation Control. Numerical solution methods proposed for solution of power scheduling are insufficient in handling large and complex systems. Soft Computing methods like Simulated Annealing, Evolutionary Programming etc., are efficient in handling complex cost functions, but find limitation in handling stochastic data existing in a practical system. Also the learning steps are to be repeated for each load demand which increases the computation time.Reinforcement Learning (RL) is a method of learning through interactions with environment. The main advantage of this approach is it does not require a precise mathematical formulation. It can learn either by interacting with the environment or interacting with a simulation model. Several optimization and control problems have been solved through Reinforcement Learning approach. The application of Reinforcement Learning in the field of Power system has been a few. The objective is to introduce and extend Reinforcement Learning approaches for the active power scheduling problems in an implementable manner. The main objectives can be enumerated as:(i) Evolve Reinforcement Learning based solutions to the Unit Commitment Problem.(ii) Find suitable solution strategies through Reinforcement Learning approach for Economic Dispatch. (iii) Extend the Reinforcement Learning solution to Automatic Generation Control with a different perspective. (iv) Check the suitability of the scheduling solutions to one of the existing power systems.First part of the thesis is concerned with the Reinforcement Learning approach to Unit Commitment problem. Unit Commitment Problem is formulated as a multi stage decision process. Q learning solution is developed to obtain the optimwn commitment schedule. Method of state aggregation is used to formulate an efficient solution considering the minimwn up time I down time constraints. The performance of the algorithms are evaluated for different systems and compared with other stochastic methods like Genetic Algorithm.Second stage of the work is concerned with solving Economic Dispatch problem. A simple and straight forward decision making strategy is first proposed in the Learning Automata algorithm. Then to solve the scheduling task of systems with large number of generating units, the problem is formulated as a multi stage decision making task. The solution obtained is extended in order to incorporate the transmission losses in the system. To make the Reinforcement Learning solution more efficient and to handle continuous state space, a fimction approximation strategy is proposed. The performance of the developed algorithms are tested for several standard test cases. Proposed method is compared with other recent methods like Partition Approach Algorithm, Simulated Annealing etc.As the final step of implementing the active power control loops in power system, Automatic Generation Control is also taken into consideration.Reinforcement Learning has already been applied to solve Automatic Generation Control loop. The RL solution is extended to take up the approach of common frequency for all the interconnected areas, more similar to practical systems. Performance of the RL controller is also compared with that of the conventional integral controller.In order to prove the suitability of the proposed methods to practical systems, second plant ofNeyveli Thennal Power Station (NTPS IT) is taken for case study. The perfonnance of the Reinforcement Learning solution is found to be better than the other existing methods, which provide the promising step towards RL based control schemes for practical power industry.Reinforcement Learning is applied to solve the scheduling problems in the power industry and found to give satisfactory perfonnance. Proposed solution provides a scope for getting more profit as the economic schedule is obtained instantaneously. Since Reinforcement Learning method can take the stochastic cost data obtained time to time from a plant, it gives an implementable method. As a further step, with suitable methods to interface with on line data, economic scheduling can be achieved instantaneously in a generation control center. Also power scheduling of systems with different sources such as hydro, thermal etc. can be looked into and Reinforcement Learning solutions can be achieved.
Resumo:
In drawing a conclusion for this study, care must be taken in generalizing findings since the population of students and teachers investigated were limited to certain levels in the different schools and countries. This study recognized some complexity of the factors underlying the status of school gardening instruction and activities in Germany, Nigeria and the U.S. as inadequate time for decision-making in the process of gardening, motivation of teachers and students. This was seen as the major impediments that influenced the status of gardening in the three countries. However, these factors were considered to have affected students’ mode of participation in the school gardening projects. This research finding suggests that the promotion and encouragement of students in gardening activities will promote vegetable production and increasing the numbers of practical farmers. Gardening has the potential to create opportunities for learning in an environment where children are able to experience nature first hand and to use the shared experience for communication (Bowker & Tearle, 2007). Therefore, the need for students to be encouraged to participate in gardening programs as the benefit will not only reduce the rate of obesity currently spreading among youths, but will contribute to the improve knowledge on science subjects. To build a network between community, parents and schools, a parent’s community approach should be used as the curriculum. The community approach will tighten the link between schools; community members, parents, teachers and students. This will help facilitate a better gardening projects implementation. Through a close collaboration, teachers and students will be able to identify issues affecting communities and undertake action learning in collaboration with community organizations to assess community needs and plan the implementation strategies as parents are part of the community. The sense of efficacy is a central factor in motivational and learning processes that govern educational improvement, standard and performance on complex tasks of both teachers and students. Dedication and willingness are the major stimulator and achievement of a project. Through a stimulator and provision of incentives and facilities, schools can achieve the best in project development. Teachers and principals should be aware that students are the lever for achieving the set goals in schools. Failure to understand what students need will result in achieving zero result. Therefore, it is advised that schools focus more on how to lure students to work through proper collaboration with the parents and community members. Principals and teachers should identify areas where students need to be corrected, helping them to correct the problem will enable them be committed in the schools’ programs.
Resumo:
En el presente trabajo se analiza la existencia y argumenta la importancia de las ventajas que aporta el E-Learning al proceso de Internacionalización en la Universidad del Rosario, además se indaga si dichas ventajas podrían facilitar la diferenciación estratégica de la misma. Inicia con una revisión teórica sobre los conceptos de educación virtual y aprendizaje, y su estado actual en Colombia, logrando la creación de un marco teórico. En una segunda etapa se identificarán las características que comparte la institución educativa con una organización y que la hacen objeto de estudio en el campo estratégico, específicamente en cuanto a la diferenciación. Posteriormente se describirán las etapas de implementación del E-Learning en la Universidad, analizando los aspectos más importantes de este proceso. Más adelante se hace una aproximación al concepto de internacionalización y la importancia que tiene en el mundo multicultural actual. Finalmente se relacionan las ventajas de la implementación del E-Learning con las brindadas en el proceso de internacionalización y se argumenta si estas facilitan la diferenciación estratégica del Rosario.
Resumo:
A small selection of the range of educational/training situated e-learning in Southampton Education School
Resumo:
El proceso administrativo y de compras de OPL Carga tiene algunas falencias entre ellas: fallas en la Comunicación entre el personal operativo, no se realizan llamadas internas usando con frecuencia el email, produciendo la saturación de solicitudes las cuales terminan sin ser resueltas en cuanto a roles se refiere, no hay enfoque de procesos en vista que no se tiene claras las tareas de cada cargo, adicionalmente no hay claridad en los subprocesos, perjudicando el proceso con el aumento de costos, pérdida de tiempo, las responsabilidades de los funcionario no todas las veces se ejecutan en el tiempo asignado, el liderazgo compartido presenta ambigüedades. Objetivos: Definir el trabajo en equipo en el proceso administrativo y de compras en OPL carga de Bucaramanga. La investigación que a realizar es de tipo descriptivo, busca descubrir las falencias o características que permiten diseñar y desarrollar un modelo de solución para los problemas del equipo de OPL Carga S.A.S. Materiales y métodos: La investigación efectuada es de tipo descriptivo, el objetivo es definir el modelo del trabajo en equipo y describir las falencias en el proceso administrativo y de compras en OPL carga de Bucaramanga, que permitan obtener un diagnóstico integral que conlleve a la implementación de estrategias de solución. Resultados: Se identificaron las falencias en los siguientes aspectos: Variable comunicación, rendimiento, destrezas complementarias, propósito significativo y meta específicas de los funcionarios en OPL carga sección administrativa. Conclusiones: El modelo de trabajo en equipo que OPL aplica es jerárquico, en el que se ofrece estabilidad, seguridad, se toman decisiones en forma piramidal, mediante la planeación de tareas, la colaboración, igualdad y respeto por los miembros, trabajando en pro de la solución de problemas. Se construyó un plano conceptual que permitió exponer la interpretación que la estudiante tiene de las teorías, investigaciones y antecedentes válidos para la comprensión del problema investigado. Área comunicacional: Coordinar acciones tendientes para que los funcionarios respondan a tiempo los emails atenientes a su trabajo. Área condiciones de trabajo: Clarificar y diseñar las reglas de comportamiento al interior de los equipos de trabajo que redunden en el mejoramiento del mismo y la búsqueda de soluciones oportunas. Área metas específicas: Procurar mediante auditorías el cumplimiento de las metas y objetivos propuestos por cada equipo de trabajo.
Resumo:
Darrerament, l'interès pel desenvolupament d'aplicacions amb robots submarins autònoms (AUV) ha crescut de forma considerable. Els AUVs són atractius gràcies al seu tamany i el fet que no necessiten un operador humà per pilotar-los. Tot i això, és impossible comparar, en termes d'eficiència i flexibilitat, l'habilitat d'un pilot humà amb les escasses capacitats operatives que ofereixen els AUVs actuals. L'utilització de AUVs per cobrir grans àrees implica resoldre problemes complexos, especialment si es desitja que el nostre robot reaccioni en temps real a canvis sobtats en les condicions de treball. Per aquestes raons, el desenvolupament de sistemes de control autònom amb l'objectiu de millorar aquestes capacitats ha esdevingut una prioritat. Aquesta tesi tracta sobre el problema de la presa de decisions utilizant AUVs. El treball presentat es centra en l'estudi, disseny i aplicació de comportaments per a AUVs utilitzant tècniques d'aprenentatge per reforç (RL). La contribució principal d'aquesta tesi consisteix en l'aplicació de diverses tècniques de RL per tal de millorar l'autonomia dels robots submarins, amb l'objectiu final de demostrar la viabilitat d'aquests algoritmes per aprendre tasques submarines autònomes en temps real. En RL, el robot intenta maximitzar un reforç escalar obtingut com a conseqüència de la seva interacció amb l'entorn. L'objectiu és trobar una política òptima que relaciona tots els estats possibles amb les accions a executar per a cada estat que maximitzen la suma de reforços totals. Així, aquesta tesi investiga principalment dues tipologies d'algoritmes basats en RL: mètodes basats en funcions de valor (VF) i mètodes basats en el gradient (PG). Els resultats experimentals finals mostren el robot submarí Ictineu en una tasca autònoma real de seguiment de cables submarins. Per portar-la a terme, s'ha dissenyat un algoritme anomenat mètode d'Actor i Crític (AC), fruit de la fusió de mètodes VF amb tècniques de PG.
Resumo:
Aquesta tesi proposa l'ús d'un seguit de tècniques pel control a alt nivell d'un robot autònom i també per l'aprenentatge automàtic de comportaments. L'objectiu principal de la tesis fou el de dotar d'intel·ligència als robots autònoms que han d'acomplir unes missions determinades en entorns desconeguts i no estructurats. Una de les premisses tingudes en compte en tots els passos d'aquesta tesis va ser la selecció d'aquelles tècniques que poguessin ésser aplicades en temps real, i demostrar-ne el seu funcionament amb experiments reals. El camp d'aplicació de tots els experiments es la robòtica submarina. En una primera part, la tesis es centra en el disseny d'una arquitectura de control que ha de permetre l'assoliment d'una missió prèviament definida. En particular, la tesis proposa l'ús de les arquitectures de control basades en comportaments per a l'assoliment de cada una de les tasques que composen la totalitat de la missió. Una arquitectura d'aquest tipus està formada per un conjunt independent de comportaments, els quals representen diferents intencions del robot (ex.: "anar a una posició", "evitar obstacles",...). Es presenta una recerca bibliogràfica sobre aquest camp i alhora es mostren els resultats d'aplicar quatre de les arquitectures basades en comportaments més representatives a una tasca concreta. De l'anàlisi dels resultats se'n deriva que un dels factors que més influeixen en el rendiment d'aquestes arquitectures, és la metodologia emprada per coordinar les respostes dels comportaments. Per una banda, la coordinació competitiva és aquella en que només un dels comportaments controla el robot. Per altra banda, en la coordinació cooperativa el control del robot és realitza a partir d'una fusió de totes les respostes dels comportaments actius. La tesis, proposa un esquema híbrid d'arquitectura capaç de beneficiar-se dels principals avantatges d'ambdues metodologies. En una segona part, la tesis proposa la utilització de l'aprenentatge per reforç per aprendre l'estructura interna dels comportaments. Aquest tipus d'aprenentatge és adequat per entorns desconeguts i el procés d'aprenentatge es realitza al mateix temps que el robot està explorant l'entorn. La tesis presenta també un estat de l'art d'aquest camp, en el que es detallen els principals problemes que apareixen en utilitzar els algoritmes d'aprenentatge per reforç en aplicacions reals, com la robòtica. El problema de la generalització és un dels que més influeix i consisteix en permetre l'ús de variables continues sense augmentar substancialment el temps de convergència. Després de descriure breument les principals metodologies per generalitzar, la tesis proposa l'ús d'una xarxa neural combinada amb l'algoritme d'aprenentatge per reforç Q_learning. Aquesta combinació proporciona una gran capacitat de generalització i una molt bona disposició per aprendre en tasques de robòtica amb exigències de temps real. No obstant, les xarxes neurals són aproximadors de funcions no-locals, el que significa que en treballar amb un conjunt de dades no homogeni es produeix una interferència: aprendre en un subconjunt de l'espai significa desaprendre en la resta de l'espai. El problema de la interferència afecta de manera directa en robòtica, ja que l'exploració de l'espai es realitza sempre localment. L'algoritme proposat en la tesi té en compte aquest problema i manté una base de dades representativa de totes les zones explorades. Així doncs, totes les mostres de la base de dades s'utilitzen per actualitzar la xarxa neural, i per tant, l'aprenentatge és homogeni. Finalment, la tesi presenta els resultats obtinguts amb la arquitectura de control basada en comportaments i l'algoritme d'aprenentatge per reforç. Els experiments es realitzen amb el robot URIS, desenvolupat a la Universitat de Girona, i el comportament après és el seguiment d'un objecte mitjançant visió per computador. La tesi detalla tots els dispositius desenvolupats pels experiments així com les característiques del propi robot submarí. Els resultats obtinguts demostren la idoneïtat de les propostes en permetre l'aprenentatge del comportament en temps real. En un segon apartat de resultats es demostra la capacitat de generalització de l'algoritme d'aprenentatge mitjançant el "benchmark" del "cotxe i la muntanya". Els resultats obtinguts en aquest problema milloren els resultats d'altres metodologies, demostrant la millor capacitat de generalització de les xarxes neurals.