1 resultado para Net expected return
em Massachusetts Institute of Technology
Filtro por publicador
- Aberdeen University (2)
- Academic Research Repository at Institute of Developing Economies (3)
- Adam Mickiewicz University Repository (1)
- AMS Tesi di Dottorato - Alm@DL - Università di Bologna (1)
- AMS Tesi di Laurea - Alm@DL - Università di Bologna (1)
- Archive of European Integration (1)
- Aston University Research Archive (5)
- B-Digital - Universidade Fernando Pessoa - Portugal (1)
- Biblioteca de Teses e Dissertações da USP (1)
- Biblioteca Digital da Produção Intelectual da Universidade de São Paulo (2)
- Biblioteca Digital da Produção Intelectual da Universidade de São Paulo (BDPI/USP) (17)
- BORIS: Bern Open Repository and Information System - Berna - Suiça (2)
- Brock University, Canada (18)
- Bulgarian Digital Mathematics Library at IMI-BAS (2)
- CentAUR: Central Archive University of Reading - UK (7)
- CiencIPCA - Instituto Politécnico do Cávado e do Ave, Portugal (20)
- Comissão Econômica para a América Latina e o Caribe (CEPAL) (16)
- Consorci de Serveis Universitaris de Catalunya (CSUC), Spain (26)
- CORA - Cork Open Research Archive - University College Cork - Ireland (1)
- Digital Commons - Michigan Tech (1)
- Digital Commons at Florida International University (4)
- Digital Peer Publishing (1)
- Doria (National Library of Finland DSpace Services) - National Library of Finland, Finland (5)
- DRUM (Digital Repository at the University of Maryland) (2)
- Duke University (1)
- Ecology and Society (1)
- Illinois Digital Environment for Access to Learning and Scholarship Repository (1)
- Instituto Politécnico de Bragança (1)
- Instituto Politécnico do Porto, Portugal (250)
- Iowa Publications Online (IPO) - State Library, State of Iowa (Iowa), United States (2)
- Lume - Repositório Digital da Universidade Federal do Rio Grande do Sul (1)
- Massachusetts Institute of Technology (1)
- Portal do Conhecimento - Ministerio do Ensino Superior Ciencia e Inovacao, Cape Verde (1)
- Publishing Network for Geoscientific & Environmental Data (2)
- RCAAP - Repositório Científico de Acesso Aberto de Portugal (1)
- ReCiL - Repositório Científico Lusófona - Grupo Lusófona, Portugal (5)
- Repositório Científico da Universidade de Évora - Portugal (1)
- Repositório Científico do Instituto Politécnico de Lisboa - Portugal (171)
- Repositório da Escola Nacional de Administração Pública (ENAP) (1)
- Repositório da Produção Científica e Intelectual da Unicamp (5)
- Repositório de Administração Pública (REPAP) - Direção-Geral da Qualificação dos Trabalhadores em Funções Públicas (INA), Portugal (1)
- Repositório digital da Fundação Getúlio Vargas - FGV (32)
- Repositório do Centro Hospitalar de Lisboa Central, EPE - Centro Hospitalar de Lisboa Central, EPE, Portugal (10)
- Repositório Institucional da Universidade de Brasília (1)
- Repositório Institucional da Universidade Estadual de São Paulo - UNESP (3)
- Repositório Institucional UNESP - Universidade Estadual Paulista "Julio de Mesquita Filho" (23)
- Repositorio Institucional Universidad de Medellín (1)
- Repositorio Institucional Universidad EAFIT - Medelin - Colombia (1)
- RUN (Repositório da Universidade Nova de Lisboa) - FCT (Faculdade de Cienecias e Technologia), Universidade Nova de Lisboa (UNL), Portugal (66)
- Scielo Saúde Pública - SP (4)
- Scottish Institute for Research in Economics (SIRE) (SIRE), United Kingdom (3)
- The Scholarly Commons | School of Hotel Administration; Cornell University Research (1)
- Universidad de Alicante (1)
- Universidad del Rosario, Colombia (1)
- Universidad Politécnica de Madrid (5)
- Universidade dos Açores - Portugal (24)
- Universidade Técnica de Lisboa (5)
- Universitätsbibliothek Kassel, Universität Kassel, Germany (2)
- Université de Lausanne, Switzerland (2)
- Université de Montréal (2)
- Université de Montréal, Canada (15)
- University of Connecticut - USA (2)
- University of Michigan (86)
- University of Queensland eSpace - Australia (20)
- University of Washington (4)
Resumo:
We present a new method for estimating the expected return of a POMDP from experience. The estimator does not assume any knowle ge of the POMDP and allows the experience to be gathered with an arbitrary set of policies. The return is estimated for any new policy of the POMDP. We motivate the estimator from function-approximation and importance sampling points-of-view and derive its theoretical properties. Although the estimator is biased, it has low variance and the bias is often irrelevant when the estimator is used for pair-wise comparisons.We conclude by extending the estimator to policies with memory and compare its performance in a greedy search algorithm to the REINFORCE algorithm showing an order of magnitude reduction in the number of trials required.