996 resultados para Aprendizaje por refuerzo
Resumo:
Resumen tomado de la publicaci??n
Resumo:
Resumen basado en el del autor
Resumo:
Uno de los mayores problemas de los sistemas de educación a distancia es su dificultad para facilitar una enseñanza personalizada. Los Sistemas de Educación Adaptativos e Inteligentes en Web (SEAIS) aplican técnicas de inteligencia artificial con el objetivo de adaptar su contenido a los estudiantes. Estos sistemas tienen problemas para definir políticas pedagógicas efectivas. La investigación tiene como objetivo definir el problema de soporte adaptativo a la navegación a través del contenido del sistema y de presentación de dicho contenido como un problema de Aprendizaje por Refuerzo. Al aplicar este modelo, el sistema puede aprender la mejor política pedagógica para cada estudiante.. En primer lugar, se revisa el estado de la cuestión. En segundo lugar, se define el problema de Soporte Adaptativo a la Navegación de los SEAIS como un problema de Aprendizaje por Refuerzo. A continuación, se abordan aspectos previos a la experimentación. Posteriormente se analizan los experimentos con estudiantes simulados. Después de demostrarse que la propuesta es aplicable, se valida con alumnos de la Ingeniería Técnica de Informática de Gestión y de la Ingeniería Superior en Informática. Por último, se presentan las conclusiones y aportaciones del trabajo y futuras líneas de investigación.. Se define el problema de Secuenciar y Presentar el contenido del curso en los sistemas formación a distancia como un problema de Aprendizaje por Refuerzo. Se valida la propuesta realizada. La definición aportada permite que el sistema adapte sus tácticas pedagógicas en función del estudiante..
Resumo:
El aprendizaje por refuerzo es un modelo de aprendizaje que permite implementar comportamientos inteligentes de forma automática. La mayor parte de la teoría del aprendizaje por refuerzo se fundamenta en la programación dinámica. La implementación tradicional de estas funciones en forma tabular no es práctica cuando el espacio de estados es muy grande, o infinito. En este caso es necesario aplicar métodos de generalización que permitan extrapolar la experiencia adquirida para un conjunto limitado de estados, a la totalidad del espacio.. Para resolver el problema mencionado se puede recurrir a dos aproximaciones. Por un lado, existen técnicas basadas en una selección adecuada de puntos significativos y, por otro, se pueden emplear los métodos basados en el desarrollo de funciones de valor con algún método supervisado de aproximación de funciones. El trabajo trata de desarrollar métodos de aprendizaje por refuerzo aplicables en dominios con espacios de estados continuos, partiendo de las dos aproximaciones mencionadas, para fundirlas en un método eficaz que permita que el aprendizaje totalmente automático.. Esta investigación facilita un nuevo método de aprendizaje por refuerzo para dominios con espacios de estados continuos (ENNC-QL). Este método permite aprender tareas en entornos de varias dimensiones con mayor eficacia y el número de parámetros que debe suministrársele es mínimo.
Resumo:
La idea de dotar a un grupo de robots o agentes artificiales de un lenguaje ha sido objeto de intenso estudio en las ultimas décadas. Como no podía ser de otra forma los primeros intentos se enfocaron hacia el estudio de la emergencia de vocabularios compartidos convencionalmente por el grupo de robots. Las ventajas que puede ofrecer un léxico común son evidentes, como también lo es que un lenguaje con una estructura más compleja, en la que se pudieran combinar palabras, sería todavía más beneficioso. Surgen así algunas propuestas enfocadas hacia la emergencia de un lenguaje consensuado que muestre una estructura sintáctica similar al lenguaje humano, entre las que se encuentra este trabajo. Tomar el lenguaje humano como modelo supone adoptar algunas de las hipótesis y teorías que disciplinas como la filosofía, la psicología o la lingüística entre otras se han encargado de proponer. Según estas aproximaciones teóricas el lenguaje presenta una doble dimension formal y funcional. En base a su dimensión formal parece claro que el lenguaje sigue unas reglas, por lo que el uso de una gramática se ha considerado esencial para su representación, pero también porque las gramáticas son un dispositivo muy sencillo y potente que permite generar fácilmente estructuras simbólicas. En cuanto a la dimension funcional se ha tenido en cuenta la teoría quizá más influyente de los últimos tiempos, que no es otra que la Teoría de los Actos del Habla. Esta teoría se basa en la idea de Wittgenstein por la que el significado reside en el uso del lenguaje, hasta el punto de que éste se entiende como una manera de actuar y de comportarse, en definitiva como una forma de vida. Teniendo presentes estas premisas en esta tesis se pretende experimentar con modelos computacionales que permitan a un grupo de robots alcanzar un lenguaje común de manera autónoma, simplemente mediante interacciones individuales entre los robots, en forma de juegos de lenguaje. Para ello se proponen tres modelos distintos de lenguaje: • Un modelo basado en gramáticas probabilísticas y aprendizaje por refuerzo en el que las interacciones y el uso del lenguaje son claves para su emergencia y que emplea una gramática generativa estática y diseñada de antemano. Este modelo se aplica a dos grupos distintos: uno formado exclusivamente por robots y otro que combina robots y un humano, de manera que en este segundo caso se plantea un aprendizaje supervisado por humanos. • Un modelo basado en evolución gramatical que permite estudiar no solo el consenso sintáctico, sino también cuestiones relativas a la génesis del lenguaje y que emplea una gramática universal a partir de la cual los robots pueden evolucionar por sí mismos la gramática más apropiada según la situación lingüística que traten en cada momento. • Un modelo basado en evolución gramatical y aprendizaje por refuerzo que toma aspectos de los anteriores y amplia las posibilidades de los robots al permitir desarrollar un lenguaje que se adapta a situaciones lingüísticas dinámicas que pueden cambiar en el tiempo y también posibilita la imposición de restricciones de orden muy frecuentes en las estructuras sintácticas complejas. Todos los modelos implican un planteamiento descentralizado y auto-organizado, de manera que ninguno de los robots es el dueño del lenguaje y todos deben cooperar y colaborar de forma coordinada para lograr el consenso sintáctico. En cada caso se plantean experimentos que tienen como objetivo validar los modelos propuestos, tanto en lo relativo al éxito en la emergencia del lenguaje como en lo relacionado con cuestiones paralelas de importancia, como la interacción hombre-máquina o la propia génesis del lenguaje. ABSTRACT The idea of giving a language to a group of robots or artificial agents has been the subject of intense study in recent decades. The first attempts have focused on the development and emergence of a conventionally shared vocabulary. The advantages that can provide a common vocabulary are evident and therefore a more complex language that combines words would be even more beneficial. Thus some proposals are put forward towards the emergence of a consensual language with a sintactical structure in similar terms to the human language. This work follows this trend. Taking the human language as a model means taking some of the assumptions and theories that disciplines such as philosophy, psychology or linguistics among others have provided. According to these theoretical positions language has a double formal and functional dimension. Based on its formal dimension it seems clear that language follows rules, so that the use of a grammar has been considered essential for representation, but also because grammars are a very simple and powerful device that easily generates these symbolic structures. As for the functional dimension perhaps the most influential theory of recent times, the Theory of Speech Acts has been taken into account. This theory is based on the Wittgenstein’s idea about that the meaning lies in the use of language, to the extent that it is understood as a way of acting and behaving. Having into account these issues this work implements some computational models in order to test if they allow a group of robots to reach in an autonomous way a shared language by means of individual interaction among them, that is by means of language games. Specifically, three different models of language for robots are proposed: • A reinforcement learning based model in which interactions and language use are key to its emergence. This model uses a static probabilistic generative grammar which is designed beforehand. The model is applied to two different groups: one formed exclusively by robots and other combining robots and a human. Therefore, in the second case the learning process is supervised by the human. • A model based on grammatical evolution that allows us to study not only the syntactic consensus, but also the very genesis of language. This model uses a universal grammar that allows robots to evolve for themselves the most appropriate grammar according to the current linguistic situation they deal with. • A model based on grammatical evolution and reinforcement learning that takes aspects of the previous models and increases their possibilities. This model allows robots to develop a language in order to adapt to dynamic language situations that can change over time and also allows the imposition of syntactical order restrictions which are very common in complex syntactic structures. All models involve a decentralized and self-organized approach so that none of the robots is the language’s owner and everyone must cooperate and work together in a coordinated manner to achieve syntactic consensus. In each case experiments are presented in order to validate the proposed models, both in terms of success about the emergence of language and it relates to the study of important parallel issues, such as human-computer interaction or the very genesis of language.
Resumo:
Estudio léxico-semántico de la lengua castellana con una clara intencionalidad didáctica, dirigido a profesores y alumnos de Educación Secundaria. Se elabora una reflexión funcional sobre los mecanismos léxico-semánticos del español, con el fin de mejorar su uso, enriquecer las posibilidades comunicativas de los alumnos y, por tanto, aumentar sus competencias de comprensión y expresión. Al final de cada capítulo se incluyen varias actividades de aprendizaje, de refuerzo, de prevención de errores o de evaluación, algunas de ellas acompañadas de las correspondientes respuestas en forma de 'sugerencias'.
Resumo:
Partiendo de la idea de que los principios de modificación de conducta son aplicables al aprendizaje del lenguaje y constituyen un método de analisis en el estudio de la sordera, se pretende: 1- Analizar los efectos de un programa de aprendizaje en el que están implicadas las conductas verbales 'textual' e 'intraverbal'; 2- Comprobar los efectos diferenciales de dos tipos de reforzamiento -refuerzo social y refuerzo de fichas- en el aprendizaje del citado programa; 3- Comprobar la influencia de los estímulos de apoyo; 4- Comprobar si el refuerzo diferencial produce generalización de unos ítems a otros de topografía similar. De una población de 15 sujetos que asistían a dos clases preparatorias de iniciación de la EGB en el Centro Municipal de Fonoaudiología de Barcelona se seleccionó una muestra de 9 sujetos de 8-9 años, con perdida de audición superior al 70 por cien y etiología diferente. La muestra se dividió en tres grupos: dos experimentales y uno control. El diseño de la investigación corresponde a los diseños de bloques latino, mediante el cual se controlaban dos variables (inteligencia facultades lingüísticas y aptitud lectora) con tres niveles cada una y tres tratamientos experimentales (refuerzo de fichas contingente y continuo, refuerzo social y no aplicación del programa). La variable independiente la definía el tipo de tratamiento y la variable dependiente la respuesta dada a una frase incompleta (en cuanto a género, número, persona y tiempo). Subtests no verbales de WISC: figuras incompletas, cubos Ce Koks y claves. Subtests no verbales del ITPA. Prueba de comprensión elaborada ad-hoc. Cuestionario evaluativo de conocimientos o correción gramatical, de oposición de enunciados y de seriación elaborado ad-hoc. Tarjetas para el programa de aprendizaje del lenguaje. Pruebas de significación estadística: prueba t de Student para diferencias de medias. Análisis de varianza. Sólo el grupo al que se le aplicó el programa con refuerzo de fichas contingente y contínuo además de refuerzo social mejora significativamente en la ejecución de la tarea de completar frases. En los grupos control y de refuerzo social no se observa ninguna mejora estadísticamente significativa. Los estímulos de apoyo aumentan la tasa de respuestas correctas, pero sólo después de haber administrado el programa al sujeto. No se produce generalización de las reglas morfológicas. De los resultados de esta investigación se derivan algunas conclusiones a nivel pedagógico, como por ejemplo que el aprendizaje del lenguaje en el niño sordo no es una actividad recompensante en sí misma y necesita para su implantación y mantenimiento de un adecuado sistema de motivación y de la presencia de reforzadores poderosos.
Resumo:
El artículo forma parte de la sección de la revista: Aula de ... Experiencias prácticas
Resumo:
Concluir la variables que influyen en el aprendizaje.. Un grupo de escolares elegidos al azar, seleccionados de acuerdo a los siguientes criterios: edad, la edad elegida fue de nueve a diez años y medio socioeconómico.. Estudio experimental.. Variables: motivación e inteligencia.. Se realiza el tratamiento estadístico mediante el análisis de la varianza.. La motivación está en relación con los resultados del aprendizaje . El refuerzo de la calificación escolar es algo que tiene que ver y que determina los resultados que los alumnos obtienen en sus aprendizajes escolares. Por otro lado, parece confirmarse la tesis de que la memoria no tiene relación alguna con el factor G.. Los métodos global y parcial de aprendizaje se ven afectados por el reforzamiento a favor del método global. Es más clara la influencia de este reforzamiento en el medio socioeconómico más desfavorecido.El factor G no influye en el aprendizaje, según un método global y parcial ni existe superioridad de un método sobre otro cuando interviene un alto o bajo factor G. Los resultados obtenidos no son generalizables a toda la población escolar ni para toda clase de material objeto de aprendizaje. Lo son cuando el aprendizaje es masivo y la memoria inmediata..
Resumo:
Este estudio ha revisado la teoría sobre comunidades de prácticas y espacios de aprendizaje aplicado a la realidad de jóvenes profesionales que colaboran entre sí para adquirir experiencia y compartir su banco de ideas en concursos de obras. Estamos ante un caso en el que la profesión se está redefiniendo y cobran protagonismo las relaciones de aprendizaje y refuerzo mutuo. Nos hemos centrado en la revisión de casos de asociaciones de jóvenes arquitectos españoles, sería conveniente ir ampliado la muestra a otro tipo de profesiones.
Resumo:
Resumen tomado de la publicación
Resumo:
Darrerament, l'interès pel desenvolupament d'aplicacions amb robots submarins autònoms (AUV) ha crescut de forma considerable. Els AUVs són atractius gràcies al seu tamany i el fet que no necessiten un operador humà per pilotar-los. Tot i això, és impossible comparar, en termes d'eficiència i flexibilitat, l'habilitat d'un pilot humà amb les escasses capacitats operatives que ofereixen els AUVs actuals. L'utilització de AUVs per cobrir grans àrees implica resoldre problemes complexos, especialment si es desitja que el nostre robot reaccioni en temps real a canvis sobtats en les condicions de treball. Per aquestes raons, el desenvolupament de sistemes de control autònom amb l'objectiu de millorar aquestes capacitats ha esdevingut una prioritat. Aquesta tesi tracta sobre el problema de la presa de decisions utilizant AUVs. El treball presentat es centra en l'estudi, disseny i aplicació de comportaments per a AUVs utilitzant tècniques d'aprenentatge per reforç (RL). La contribució principal d'aquesta tesi consisteix en l'aplicació de diverses tècniques de RL per tal de millorar l'autonomia dels robots submarins, amb l'objectiu final de demostrar la viabilitat d'aquests algoritmes per aprendre tasques submarines autònomes en temps real. En RL, el robot intenta maximitzar un reforç escalar obtingut com a conseqüència de la seva interacció amb l'entorn. L'objectiu és trobar una política òptima que relaciona tots els estats possibles amb les accions a executar per a cada estat que maximitzen la suma de reforços totals. Així, aquesta tesi investiga principalment dues tipologies d'algoritmes basats en RL: mètodes basats en funcions de valor (VF) i mètodes basats en el gradient (PG). Els resultats experimentals finals mostren el robot submarí Ictineu en una tasca autònoma real de seguiment de cables submarins. Per portar-la a terme, s'ha dissenyat un algoritme anomenat mètode d'Actor i Crític (AC), fruit de la fusió de mètodes VF amb tècniques de PG.
Resumo:
Aquesta tesi proposa l'ús d'un seguit de tècniques pel control a alt nivell d'un robot autònom i també per l'aprenentatge automàtic de comportaments. L'objectiu principal de la tesis fou el de dotar d'intel·ligència als robots autònoms que han d'acomplir unes missions determinades en entorns desconeguts i no estructurats. Una de les premisses tingudes en compte en tots els passos d'aquesta tesis va ser la selecció d'aquelles tècniques que poguessin ésser aplicades en temps real, i demostrar-ne el seu funcionament amb experiments reals. El camp d'aplicació de tots els experiments es la robòtica submarina. En una primera part, la tesis es centra en el disseny d'una arquitectura de control que ha de permetre l'assoliment d'una missió prèviament definida. En particular, la tesis proposa l'ús de les arquitectures de control basades en comportaments per a l'assoliment de cada una de les tasques que composen la totalitat de la missió. Una arquitectura d'aquest tipus està formada per un conjunt independent de comportaments, els quals representen diferents intencions del robot (ex.: "anar a una posició", "evitar obstacles",...). Es presenta una recerca bibliogràfica sobre aquest camp i alhora es mostren els resultats d'aplicar quatre de les arquitectures basades en comportaments més representatives a una tasca concreta. De l'anàlisi dels resultats se'n deriva que un dels factors que més influeixen en el rendiment d'aquestes arquitectures, és la metodologia emprada per coordinar les respostes dels comportaments. Per una banda, la coordinació competitiva és aquella en que només un dels comportaments controla el robot. Per altra banda, en la coordinació cooperativa el control del robot és realitza a partir d'una fusió de totes les respostes dels comportaments actius. La tesis, proposa un esquema híbrid d'arquitectura capaç de beneficiar-se dels principals avantatges d'ambdues metodologies. En una segona part, la tesis proposa la utilització de l'aprenentatge per reforç per aprendre l'estructura interna dels comportaments. Aquest tipus d'aprenentatge és adequat per entorns desconeguts i el procés d'aprenentatge es realitza al mateix temps que el robot està explorant l'entorn. La tesis presenta també un estat de l'art d'aquest camp, en el que es detallen els principals problemes que apareixen en utilitzar els algoritmes d'aprenentatge per reforç en aplicacions reals, com la robòtica. El problema de la generalització és un dels que més influeix i consisteix en permetre l'ús de variables continues sense augmentar substancialment el temps de convergència. Després de descriure breument les principals metodologies per generalitzar, la tesis proposa l'ús d'una xarxa neural combinada amb l'algoritme d'aprenentatge per reforç Q_learning. Aquesta combinació proporciona una gran capacitat de generalització i una molt bona disposició per aprendre en tasques de robòtica amb exigències de temps real. No obstant, les xarxes neurals són aproximadors de funcions no-locals, el que significa que en treballar amb un conjunt de dades no homogeni es produeix una interferència: aprendre en un subconjunt de l'espai significa desaprendre en la resta de l'espai. El problema de la interferència afecta de manera directa en robòtica, ja que l'exploració de l'espai es realitza sempre localment. L'algoritme proposat en la tesi té en compte aquest problema i manté una base de dades representativa de totes les zones explorades. Així doncs, totes les mostres de la base de dades s'utilitzen per actualitzar la xarxa neural, i per tant, l'aprenentatge és homogeni. Finalment, la tesi presenta els resultats obtinguts amb la arquitectura de control basada en comportaments i l'algoritme d'aprenentatge per reforç. Els experiments es realitzen amb el robot URIS, desenvolupat a la Universitat de Girona, i el comportament après és el seguiment d'un objecte mitjançant visió per computador. La tesi detalla tots els dispositius desenvolupats pels experiments així com les característiques del propi robot submarí. Els resultats obtinguts demostren la idoneïtat de les propostes en permetre l'aprenentatge del comportament en temps real. En un segon apartat de resultats es demostra la capacitat de generalització de l'algoritme d'aprenentatge mitjançant el "benchmark" del "cotxe i la muntanya". Els resultats obtinguts en aquest problema milloren els resultats d'altres metodologies, demostrant la millor capacitat de generalització de les xarxes neurals.
Resumo:
Entrenar el proceso de medida y ajuste de sistemas de refuerzo sonoro en entornos universitarios presenta claros problemas de infraestructura, pues cada estudiante debería tener acceso a un sistema de refuerzo, un sistema de medida y un sistema de procesado. Los sistemas virtuales, si están diseñados cuidadosamente permiten, si no prescindir de los sistemas reales, tener una fase previa de experimentación que puede solventar, aunque sea en parte, las carencias de infraestructura mencionadas. En este trabajo se explora la posibilidad de emplear un sistema virtual, basado en medidas sobre un sistema real, para entrenar los procedimientos de ajuste de sistemas de refuerzo sonoro.
Resumo:
Uno de los principales objetivos de la inteligencia artificial es conseguir entidades que actúen de forma autónoma ante diferentes situaciones sin necesidad de que haya un humano detrás decidiendo la siguiente acción. Cuando nos encontramos en un mundo estático e inmóvil, es posible conseguir crear un algoritmo que resuelva los problemas de manera eficaz, pero cuando el mundo en el que nos encontramos varía, pueden surgir nuevos problemas nuevos para los que el algoritmo original no funcione, por lo que necesitamos que nuestra entidad, o bot, aprenda a lidiar con ellos. Un ejemplo de mundo variante puede ser el propio mundo de StarCraft [14], un videojuego de estrategia en el que dispondremos de una base y una serie de unidades que debemos controlar con el objetivo de destruir la base enemiga. En un entorno así, a veces es difícil gestionar las diferentes situaciones para conseguir ganar, por ello, este proyecto tiene como objetivo construir un bot que aprenda a controlar varias unidades y a lidiar con las diferentes situaciones que aparezcan, permitiendo descubrir estrategias para ganar a partir de la experiencia del propio bot. Dado que no siempre sabemos en qué situación nos vamos a encontrar, parece idóneo utilizar el aprendizaje por refuerzo, que permite aprender de un entorno del que inicialmente no se tienen datos a través de la experiencia utilizando como medio un sistema de compensación de las diferentes acciones tomadas en función de sus consecuencias.