Reinforcement learning across development in humans


Autoria(s): Belo, Rita Alexandra Figueira, 1991-
Contribuinte(s)

Maia, Tiago Vaz

Data(s)

19/05/2016

19/05/2016

2015

Resumo

Tese de mestrado, Neurociências, Faculdade de Medicina, Universidade de Lisboa, 2015

Hoje em dia, o tratamento de muitas doenças neuropsiquiátricas foca-se na atenuação dos sintomas exibidos pelos doentes, não havendo, na maioria dos casos, um conhecimento profundo sobre as disfunções neurológicas que se encontram na origem das mesmas, nem sobre os mecanismos de ação pelos quais a medicação exerce os seus efeitos. Como tal, nos últimos anos tem-se verificado um esforço colectivo, nomeadamente no campo das neurociências computacionais, para a construção de novas ferramentas que permitam avaliar quantitivamente determinadas funções cognitivas e assim obter informação importante sobre a patofisiologia das doenças acima referidas. Espera-se que estas novas ferramentas tenham particular impacto ao nível das patologias do neurodesenvolvimento, devido à elevada comorbilidade existente entre estas, bem como às semelhanças entre as manifestações sintomáticas exibidas pelos diferentes doentes. Devido ao foco nestas doenças, um dos circuitos mais estudados é o circuito cortico-estriado-talamo-cortical, visto que este se encontra frequentemente significativamente comprometido nos doentes que sofrem destas patologias, tendo este circuito um papel fulcral no processo de tomadas de decisão e na motivação. Sabe-se também que a dopamina tem um papel modelador fundamental para o normal funcionamento deste circuito, nomeadamente devido à sua actividade neuromoduladora durante a aprendizagem por reforços. No estriado, os níveis de dopamina modulam a actividade das vias directa (ou Go) e indirecta (ou NoGo) envolvidas no processo de aprendizagem por reforços. Estas vias são antagónicas, sendo que (de um modo simplista) quando uma via se encontra activa a outra está inibida. Assim, a presença de dopamina no estriado leva à activação e inibição das vias directa e indirecta, respectivamente, sendo que a sua ausência provoca um efeito contrário. No processo de aprendizagem por reforços, as acções executadas pelo agente são reforçadas ou inibidas, de acordo com o valor atribuído não só ao reforço recebido, mas também ao valor das previsões feitas. Neste sentido, a actividade dopaminérgica no estriado codifica os erros de previsão obtidos durante o processo de aprendizagem por reforços. Quando os erros de previsão são positivos, ou seja, o valor do reforço (neste caso, da recompensa) é maior do que o esperado a priori, existe um aumento da actividade dopaminérgica basal no estriado, levando à posterior activação da via directa (e inibição da via indirecta). Pelo contrário, quando os erros são negativos, o valor do reforço (neste caso, da punição) é inferior ao esperado, o que diminui a actividade basal dopaminérgica e leva à activação da via indirecta (e inibição da via directa. Desta forma, ao longo dos últimos anos têm sido desenvolvidas várias tarefas cognitivas computorizadas para o estudo do processo de aprendizagem por reforços, tanto em pessoas saudáveis como em doentes. Estes estudos têm contribuído, por um lado, para uma maior compreensão do processo de aprendizagem por reforços e, por outro, ajudado a melhor compreender a fisiopatologia de determinadas doenças neuropsiquiátricas. Neste contexto, o presente estudo teve como principal objectivo determinar a influência da idade no processo de aprendizagem por reforços em humanos. Para tal, entre Novembro de 2014 e Fevereiro de 2015, foram recrutados participantes saudáveis com idades compreendidas entre os 6 e os 80 anos. Para serem admitidos no estudo, todos os participantes cumpriram a série de critérios seguidamente apresentada: gestação não inferior a 36 semanas; sem historial de 1) doenças neurológicas e psiquiátricas, 2) traumatismos cranianos com perda de consciência, e 3) ataques epiléticos; ausência de medicação psiquiátrica e/ou neurológica nos últimos 4 meses. Além disso, todos os participantes tinham o português como língua materna. Posto isto, para avaliar a influência da idade na aprendizagem por reforços e nas tendências motoras, foi aplicada uma nova tarefa probabilística de aprendizagem por reforços, bem como um questionário final a todos os participantes. A tarefa aplicada é semelhante a um jogo de computador simples. Nesta, são apresentadas aleatoriamente 5 imagens (30 ensaios para cada uma) e o participante, dependendo da acção executada (carregar ou não na barra de espaços do teclado) pode receber pontos (+1), perder pontos (-1) ou nem ganhar nem perder pontos (0). Desta forma, o objectivo dos participantes é tentar obter o maior número de pontos possíveis sendo que, para tal, estes têm de aprender qual a melhor acção a desempenhar para cada imagem. Cada jogo tem 5 condições aleatoriamente atribuídas para cada imagem: Go to win (carregar para ganhar pontos), NoGo to win (não carregar para ganhar pontos), Go to avoid losing (carregar para evitar perder pontos), NoGo to avoid losing (não carregar para evitar perder pontos), e Neutra (na qual, carregar ou não dá sempre zero pontos). Exceptuando na condição Neutra, o ganho ou perda de pontos tem uma probabilidade associada. Na condição Neutra, o resultado associado a uma das acções é fixo (100% hipótese de receber zero pontos), e nas restantes segue uma relação de 80% (+1 ou -1) / 10% (-1 ou +1) / 10% (0). Por sua vez, o questionário final foi dividido em duas partes com o objectivo de, na primeira, recolher informações demográficas acerca dos participantes (por exemplo: idade, sexo, ano de escolaridade), e, na segunda, recolher informações que permitam avaliar o nível de consciência dos participantes em relação ao seu próprio desempenho durante a execução da tarefa. Neste estudo, tanto a tarefa como o questionário foram aplicados a 419 pessoas saudáveis (cuja média de idades é de 17.36 ± 10.78 anos, e dos quais 51.6% são sexo masculino), distribuídos por 18 faixas etárias desde os 6 aos 80 anos. É no entanto de salientar que 92.4% dos participantes tinham idade inferior a 30 anos. A análise dos resultados comportamentais permitiu concluir que de facto a idade dos sujeitos condiciona fortemente a aprendizagem por reforços, mas não tem muita influência nas tendências motoras. Através da utilização desta tarefa foi também possível identificar uma ordem temporal específica de aprendizagem das condições analisadas, uma vez que a capacidade de aprender um maior número de condições é influenciada pela idade. De um modo geral, a partir dos 9 anos de idade, os participantes foram capazes de aprender ambas as condições congruentes (Go to win e NoGo to avoid losing), nas quais a acção é “compatível” com o valor intrínseco da condição. Entre os 11-13 anos de idade, observou-se o início da aprendizagem da condição Go to avoid losing, sendo que, só por volta dos 15 anos de idade é que os sujeitos se começaram a mostrar capazes de aprender a condição NoGo to win. Estas últimas são consideradas condições incongruentes, uma vez que a acção favorável é contrária ao valor intrínseco da condição. De forma a entender com maior exactidão qual a relação entre o desempenho da tarefa, dado pelas proporções de respostas correctas dos últimos 20 ensaios de cada condição, e as idades dos participantes, procedeu-se ao desenvolvimento de um modelo matemático. Nesta análise foram incluídos os resultados comportamentais dos participantes com idades compreendidas entre os 6 e os 30 anos, uma vez que não foram recolhidos dados suficientes para crer que os resultados obtidos para os participantes mais velhos possam ser representativos. Desta forma, a partir deste modelo matemático, foi possível determinar a existência de uma relação logarítmica entre o desempenho da tarefa e a idade dos participantes (p-value = 1.18 e-94). O modelo mostrou-se capaz de prever a sequência temporal de aprendizagem das diferentes condições supracitada. Adicionalmente, a utilização de contrastes permitiu comparar os diferentes valores assimptóticos de aprendizagem de cada condição, confirmando uma maior aprendizagem entre as condições congruentes, quando comparadas com as incongruentes (p-value ~ 0), e entre as condições cuja acção favorável era carregar na tecla de espaço, Go to win e Go to avoid losing, e entre aquelas que era melhor não carregar, NoGo to win e NoGo to avoid losing (p-value = 0.008). Não se verificaram diferenças significativamente estatísticas entre as condições maioritariamente associadas a uma aprendizagem por estímulos positivos (condições win), e por estímulos negativos (condições avoid losing). Por fim, o questionário permitiu verificar que os sujeitos demontraram alguma percepção acerca do seu desempenho quando questionados após a execução da tarefa, uma vez que, em média, os sujeitos conseguiram identificar correctamente a melhor acção a executar para cada condição. Em relação a quais os pontos que costumavam aparecer mais vezes no ecrã para cada condição, os sujeitos demonstraram alguma dificuldade o que pode traduzir a falta de confiança nas suas respostas. Por outro lado, quando foi pedido uma classificação quanto ao gosto pela estética de dada imagem, inconscientemente os participantes atribuíram melhor classificação às condições win, e pior classificação às condições avoid losing e Neutra. Apesar de algumas limitações, este estudo oferece um avanço para uma melhor compreensão do processo de aprendizagem por reforços em humanos, em particular sobre a influência da idade no mesmo. Esperamos também que, num futuro próximo, esta informação adquira uma ainda maior importância, ao permitir que os mecanismos específicos associados à etiologia e patofisiologia das doenças neurológicas e psiquiátricas possam ser estudados de uma forma mais controlada e exacta, tanto através desta como através de abordagens neurocomputacionais semelhantes.

The etiology of most neuropsychiatric disorders is currently unknown and treatment strategies concerning these disorders are mainly targeted at the amelioration of symptoms. To overcome this, several approaches aiming to study not only distinct cognitive processes but also how these processes can be disrupted in the aforementioned disorders have been developed in recent years. Neurodevelopment disorders, in particular, constitute a significant burden to our society. For this reason, we developed a new probabilistic task to evaluate reinforcement learning (RL) and motor biases in children, adolescents, and young adults, since these aspects are related to basal-ganglia functioning and dopaminergic signalling, two processes which are commonly reported to be impaired in these patients. To this end, we used our task and a final questionnaire. Our sample included 419 healthy subjects, aged from 6 to 80 years old (mean = 17.36 ± 10.78 years; 51.6% males), most of whom (92.4%) were less than 30 years old. We found that RL performance increased with age, and that subjects were mostly unaware of their performance. In fact, our results identified a sequence across age by which the subjects learned the task contingencies. From 9 years old, subjects were capable of learning both to win points and to avoid losing points by, respectively, pressing or withholding from pressing a key, during task solving (congruent learning). Around 11-13 years old, the subjects started to learn to avoid losing points by pressing the key, and only at 15 years old, they started to learn to win points by not pressing the key (incongruent learning). A general linear model of task performance across age also predicted the aforementioned sequence (p-value = 1.18 e-94). Through this model, we found once again that subjects were better in congruent than in incongruent learning (p-value ~ 0), and that their performance was better in conditions where the correct action was to perform a key press (p-value = 0.008).

Identificador

http://hdl.handle.net/10451/23744

Idioma(s)

eng

Direitos

openAccess

Palavras-Chave #Aprendizagem por reforços #Idade #Tarefa probabilística Go/NoGo #Tendências motoras #Teses de mestrado - 2015 #Domínio/Área Científica::Ciências Médicas::Ciências da Saúde
Tipo

masterThesis