2 resultados para Penalties
em Repositório Institucional da Universidade de Aveiro - Portugal
Resumo:
Este trabalho surge do interesse em substituir os nós de rede óptica baseados maioritariamente em electrónica por nós de rede baseados em tecnologia óptica. Espera-se que a tecnologia óptica permita maiores débitos binários na rede, maior transparência e maior eficiência através de novos paradigmas de comutação. Segundo esta visão, utilizou-se o MZI-SOA, um dispositivo semicondutor integrado hibridamente, para realizar funcionalidades de processamento óptico de sinal necessárias em nós de redes ópticas de nova geração. Nas novas redes ópticas são utilizados formatos de modulação avançados, com gestão da fase, pelo que foi estudado experimentalmente e por simulação o impacto da utilização destes formatos no desempenho do MZI-SOA na conversão de comprimento de onda e formato, em várias condições de operação. Foram derivadas regras de utilização para funcionamento óptimo. Foi também estudado o impacto da forma dos pulsos do sinal no desempenho do dispositivo. De seguida, o MZI-SOA foi utilizado para realizar funcionalidades temporais ao nível do bit e do pacote. Foi investigada a operação de um conversor de multiplexagem por divisão no comprimento de onda para multiplexagem por divisão temporal óptica, experimentalmente e por simulação, e de um compressor e descompressor de pacotes, por simulação. Para este último, foi investigada a operação com o MZI-SOA baseado em amplificadores ópticos de semicondutor com geometria de poço quântico e ponto quântico. Foi também realizado experimentalmente um ermutador de intervalos temporais que explora o MZI-SOA como conversor de comprimento de onda e usa um banco de linhas de atraso ópticas para introduzir no sinal um atraso seleccionável. Por fim, foi estudado analiticamente, experimentalmente e por simulação o impacto de diafonia em redes ópticas em diversas situações. Extendeu-se um modelo analítico de cálculo de desempenho para contemplar sinais distorcidos e afectados por diafonia. Estudou-se o caso de sinais muito filtrados e afectados por diafonia e mostrou-se que, para determinar correctamente as penalidades que ocorrem, ambos os efeitos devem ser considerados simultaneamente e não em separado. Foi estudada a escalabilidade limitada por diafonia de um comutador de intervalos temporais baseado em MZI-SOA a operar como comutador espacial. Mostrou-se também que sinais afectados fortemente por não-linearidades podem causar penalidades de diafonia mais elevadas do que sinais não afectados por não-linearidades. Neste trabalho foi demonstrado que o MZI-SOA permite construir vários e pertinentes circuitos ópticos, funcionando como bloco fundamental de construção, tendo sido o seu desempenho analisado, desde o nível de componente até ao nível de sistema. Tendo em conta as vantagens e desvantagens do MZI-SOA e os desenvolvimentos recentes de outras tecnologias, foram sugeridos tópicos de investigação com o intuito de evoluir para as redes ópticas de nova geração.
Resumo:
This thesis addresses the Batch Reinforcement Learning methods in Robotics. This sub-class of Reinforcement Learning has shown promising results and has been the focus of recent research. Three contributions are proposed that aim to extend the state-of-art methods allowing for a faster and more stable learning process, such as required for learning in Robotics. The Q-learning update-rule is widely applied, since it allows to learn without the presence of a model of the environment. However, this update-rule is transition-based and does not take advantage of the underlying episodic structure of collected batch of interactions. The Q-Batch update-rule is proposed in this thesis, to process experiencies along the trajectories collected in the interaction phase. This allows a faster propagation of obtained rewards and penalties, resulting in faster and more robust learning. Non-parametric function approximations are explored, such as Gaussian Processes. This type of approximators allows to encode prior knowledge about the latent function, in the form of kernels, providing a higher level of exibility and accuracy. The application of Gaussian Processes in Batch Reinforcement Learning presented a higher performance in learning tasks than other function approximations used in the literature. Lastly, in order to extract more information from the experiences collected by the agent, model-learning techniques are incorporated to learn the system dynamics. In this way, it is possible to augment the set of collected experiences with experiences generated through planning using the learned models. Experiments were carried out mainly in simulation, with some tests carried out in a physical robotic platform. The obtained results show that the proposed approaches are able to outperform the classical Fitted Q Iteration.