969 resultados para Human Machine Interfaces
Resumo:
A single picture provides a largely incomplete representation of the scene one is looking at. Usually it reproduces only a limited spatial portion of the scene according to the standpoint and the viewing angle, besides it contains only instantaneous information. Thus very little can be understood on the geometrical structure of the scene, the position and orientation of the observer with respect to it remaining also hard to guess. When multiple views, taken from different positions in space and time, observe the same scene, then a much deeper knowledge is potentially achievable. Understanding inter-views relations enables construction of a collective representation by fusing the information contained in every single image. Visual reconstruction methods confront with the formidable, and still unanswered, challenge of delivering a comprehensive representation of structure, motion and appearance of a scene from visual information. Multi-view visual reconstruction deals with the inference of relations among multiple views and the exploitation of revealed connections to attain the best possible representation. This thesis investigates novel methods and applications in the field of visual reconstruction from multiple views. Three main threads of research have been pursued: dense geometric reconstruction, camera pose reconstruction, sparse geometric reconstruction of deformable surfaces. Dense geometric reconstruction aims at delivering the appearance of a scene at every single point. The construction of a large panoramic image from a set of traditional pictures has been extensively studied in the context of image mosaicing techniques. An original algorithm for sequential registration suitable for real-time applications has been conceived. The integration of the algorithm into a visual surveillance system has lead to robust and efficient motion detection with Pan-Tilt-Zoom cameras. Moreover, an evaluation methodology for quantitatively assessing and comparing image mosaicing algorithms has been devised and made available to the community. Camera pose reconstruction deals with the recovery of the camera trajectory across an image sequence. A novel mosaic-based pose reconstruction algorithm has been conceived that exploit image-mosaics and traditional pose estimation algorithms to deliver more accurate estimates. An innovative markerless vision-based human-machine interface has also been proposed, so as to allow a user to interact with a gaming applications by moving a hand held consumer grade camera in unstructured environments. Finally, sparse geometric reconstruction refers to the computation of the coarse geometry of an object at few preset points. In this thesis, an innovative shape reconstruction algorithm for deformable objects has been designed. A cooperation with the Solar Impulse project allowed to deploy the algorithm in a very challenging real-world scenario, i.e. the accurate measurements of airplane wings deformations.
Resumo:
Le moderne tecniche di imaging e i recenti sviluppi nel campo della visione computazionale consentono sempre più diffusamente l'utilizzo di metodi di image analysis, specialmente in ambito medico e biologico, permettendo un maggiore supporto sia alla diagnosi, sia alla ricerca. Il lavoro svolto in questa tesi si pone in un contesto di ricerca di carattere interdisciplinare, e riguarda il progetto e la realizzazione di un‘interfaccia grafica per l'analisi di colture batteriche geneticamente modificate, marcate con proteine fluorescenti (GFP), acquisite tramite un microscopio ad epifluorescenza. Nota la funzione di risposta del sistema di acquisizione delle immagini, l'analisi quantitativa delle colture batteriche è effettuata mediante la misurazione di proprietà legate all'intensità della risposta al marcatore fluorescente. L'interfaccia consente un'analisi sia globale dei batteri individuati nell'immagine, sia di singoli gruppi di batteri selezionati dall'utente, fornendo utili informazioni statistiche, sia in forma grafica che numerica. Per la realizzazione dell'interfaccia sono state adottate tecniche di ingegneria del software, con particolare enfasi alla interazione uomo-macchina e seguendo criteri di usability, al fine di consentire un corretto utilizzo dello strumento anche da parte di personale senza conoscenza in campo informatico.
Resumo:
The dissertation titled "Driver Safety in Far-side and Far-oblique Crashes" presents a novel approach to assessing vehicle cockpit safety by integrating Human Factors and Applied Mechanics. The methodology of this approach is aimed at improving safety in compact mobile workspaces such as patrol vehicle cockpits. A statistical analysis performed using Michigan state's traffic crash data to assess various contributing factors that affect the risk of severe driver injuries showed that the risk was greater for unrestrained drivers (OR=3.38, p<0.0001) and for incidents involving front and far-side crashes without seatbelts (OR=8.0 and 23.0 respectively, p<0.005). Statistics also showed that near-side and far-side crashes pose similar threat to driver injury severity. A Human Factor survey was conducted to assess various Human-Machine/Human-Computer Interaction aspects in patrol vehicle cockpits. Results showed that tasks requiring manual operation, especially the usage of laptop, would require more attention and potentially cause more distraction. A vehicle survey conducted to evaluate ergonomics-related issues revealed that some of the equipment was in airbag deployment zones. In addition, experiments were conducted to assess the effects on driver distraction caused by changing the position of in-car accessories. A driving simulator study was conducted to mimic HMI/HCI in a patrol vehicle cockpit (20 subjects, average driving experience = 5.35 years, s.d. = 1.8). It was found that the mounting locations of manual tasks did not result in a significant change in response times. Visual displays resulted in response times less than 1.5sec. It can also be concluded that the manual task was equally distracting regardless of mounting positions (average response time was 15 secs). Average speeds and lane deviations did not show any significant results. Data from 13 full-scale sled tests conducted to simulate far-side impacts at 70 PDOF and 40 PDOF was used to analyze head injuries and HIC/AIS values. It was found that accelerations generated by the vehicle deceleration alone were high enough to cause AIS 3 - AIS 6 injuries. Pretensioners could mitigated injuries only in 40 PDOF (oblique) impacts but are useless in 70 PDOF impacts. Seat belts were ineffective in protecting the driver's head from injuries. Head would come in contact with the laptop during a far-oblique (40 PDOF) crash and far-side door for an angle-type crash (70 PDOF). Finite Element analysis head-laptop impact interaction showed that the contact velocity was the most crucial factor in causing a severe (and potentially fatal) head injury. Results indicate that no equipment may be mounted in driver trajectory envelopes. A very narrow band of space is left in patrol vehicles for installation of manual-task equipment to be both safe and ergonomic. In case of a contact, the material stiffness and damping properties play a very significant role in determining the injury outcome. Future work may be done on improving the interiors' material properties to better absorb and dissipate kinetic energy of the head. The design of seat belts and pretensioners may also be seen as an essential aspect to be further improved.
Resumo:
The majority of sensor network research deals with land-based networks, which are essentially two-dimensional, and thus the majority of simulation and animation tools also only handle such networks. Underwater sensor networks on the other hand, are essentially 3D networks because the depth at which a sensor node is located needs to be considered as well. Due to that additional dimension, specialized tools need to be used when conducting simulations for experimentation. The School of Engineering’s Underwater Sensor Network (UWSN) lab is conducting research on underwater sensor networks and requires simulation tools for 3D networks. The lab has extended NS-2, a widely used network simulator, so that it can simulate three-dimensional networks. However, NAM, a widely used network animator, currently only supports two-dimensional networks and no extensions have been implemented to give it three-dimensional capabilities. In this project, we develop a network visualization tool that functions similarly to NAM but is able to render network environments in full 3-D. It is able to take as input a NS-2 trace file (the same file taken as input by NAM), create the environment, position the sensor nodes, and animate the events of the simulation. Further, the visualization tool is easy to use, especially friendly to NAM users, as it is designed to follow the interfaces and functions similar to NAM. So far, the development has fulfilled the basic functionality. Future work includes fully functional capabilities for visualization and much improved user interfaces.
Resumo:
Este trabajo se enmarca en el área de interacción hombre-máquina y los diferentes paradigmas que existe actualmente. Serevisan antecedentes y posibilidades vinculadas a la educación especial. Comocaso de estudio, se presenta una propuesta de adaptación al software educativo JClic, mediante la utilización de comandos por voz, con el objetivo de ser utilizado por usuarios/alumnos con deficiencia motriz sin consecuencias o con consecuencias leves en el desarrollo del lenguaje. Como parte de esta propuesta de adaptación, se estudiaron diferentes motores de reconocimiento de voz (RV), y se profundizó el análisis del motor de RV Sphinx-4. Se presenta aquí parte de este trabajo realizado y los resultados y conclusiones obtenidas, luego de la evaluación del prototipo.
Resumo:
En la tesis se consideran los procesos de cambio conceptual, teórico y metodológico que modelaron el desarrollo de los estudios sociales de la ciencia desde su emergencia hasta la actualidad, con el objeto de analizar los alcances y límites de las perspectivas humanistas y poshumanistas en la comprensión del vínculo "humano-no humano". Los estudios sociales de la ciencia conforman un campo marginal tanto dentro de los estudios metacientíficos como de la disciplina que les dio origen: la sociología. Si bien en las últimas décadas éstos han dado lugar a un significativo progreso en la comprensión cualitativa y cuantitativa de la ciencia y la tecnología, al responder primordialmente a la inquietud empírico-comparativa de programas de investigación de corte institucionalista han tendido a relegar de sus agendas de investigación el análisis epistemológico de los modelos explicativos considerados. En este sentido, en su afán de dar cuenta del carácter social de la ciencia apenas si han reparado en los nexos que pueden establecerse entre la explicación social de la ciencia y la explicación científica de "lo social". Con el objeto de atender a ello la tesis analiza las implicancias epistemológicas, metodológicas y ontológicas del estudio social de la ciencia considerando a la relación "humano-máquina" o "humano-no humano" como un hilo de Ariadna en la identificación de rupturas y continuidades en la consideración del vínculo "ciencia-sociedad". Desde esta perspectiva se estudia la dinámica de cambio conceptual, teórico y/o metodológico que dio lugar a la emergencia y desarrollo del estudio social de la ciencia en relación con aquella que modeló al estudio científico de "lo social", se identifican los cambios epistemológicos, ontológicos y metodológicos que configuraron a la dimensión no humana como un tópico relevante, cuando no ineludible, en la explicación social de la ciencia, se examinan las implicancias de la incorporación de los objetos naturales y/o tecnológicos a los modelos explicativos del estudio social de la ciencia en el contexto de la crítica poshumanista a las teorías de la acción que han asumido al sujeto como epicentro del análisis, y se analiza el impacto de la mencionada crítica en términos de un reordenamiento de los vínculos entre el estudio social de la ciencia y el estudio científico de "lo social". De este modo se ofrece una faceta de los estudios sociales de la ciencia inadvertida por buena parte de la literatura especializada, más atenta a la confrontación de imágenes sociológicas y filosóficas de la ciencia en el contexto de la denominada "guerra de las ciencias" que a sus implicancias epistemológicas para el estudio científico de "lo social". Enfatizando así el anclaje disciplinar del estudio social de la ciencia no se suscribe una visión "internalista" del progreso epistémico, sino que, por el contrario, se sugiere que la simultánea consideración de factores disciplinares y extra disciplinares resulta una estrategia tan fructífera como innovadora para analizar un campo que, al extender el dominio de la explicación social al ámbito de los fenómenos físico-naturales, ha dado lugar a uno de los más complejos casos de interacción disciplinar.
Resumo:
En la tesis se consideran los procesos de cambio conceptual, teórico y metodológico que modelaron el desarrollo de los estudios sociales de la ciencia desde su emergencia hasta la actualidad, con el objeto de analizar los alcances y límites de las perspectivas humanistas y poshumanistas en la comprensión del vínculo "humano-no humano". Los estudios sociales de la ciencia conforman un campo marginal tanto dentro de los estudios metacientíficos como de la disciplina que les dio origen: la sociología. Si bien en las últimas décadas éstos han dado lugar a un significativo progreso en la comprensión cualitativa y cuantitativa de la ciencia y la tecnología, al responder primordialmente a la inquietud empírico-comparativa de programas de investigación de corte institucionalista han tendido a relegar de sus agendas de investigación el análisis epistemológico de los modelos explicativos considerados. En este sentido, en su afán de dar cuenta del carácter social de la ciencia apenas si han reparado en los nexos que pueden establecerse entre la explicación social de la ciencia y la explicación científica de "lo social". Con el objeto de atender a ello la tesis analiza las implicancias epistemológicas, metodológicas y ontológicas del estudio social de la ciencia considerando a la relación "humano-máquina" o "humano-no humano" como un hilo de Ariadna en la identificación de rupturas y continuidades en la consideración del vínculo "ciencia-sociedad". Desde esta perspectiva se estudia la dinámica de cambio conceptual, teórico y/o metodológico que dio lugar a la emergencia y desarrollo del estudio social de la ciencia en relación con aquella que modeló al estudio científico de "lo social", se identifican los cambios epistemológicos, ontológicos y metodológicos que configuraron a la dimensión no humana como un tópico relevante, cuando no ineludible, en la explicación social de la ciencia, se examinan las implicancias de la incorporación de los objetos naturales y/o tecnológicos a los modelos explicativos del estudio social de la ciencia en el contexto de la crítica poshumanista a las teorías de la acción que han asumido al sujeto como epicentro del análisis, y se analiza el impacto de la mencionada crítica en términos de un reordenamiento de los vínculos entre el estudio social de la ciencia y el estudio científico de "lo social". De este modo se ofrece una faceta de los estudios sociales de la ciencia inadvertida por buena parte de la literatura especializada, más atenta a la confrontación de imágenes sociológicas y filosóficas de la ciencia en el contexto de la denominada "guerra de las ciencias" que a sus implicancias epistemológicas para el estudio científico de "lo social". Enfatizando así el anclaje disciplinar del estudio social de la ciencia no se suscribe una visión "internalista" del progreso epistémico, sino que, por el contrario, se sugiere que la simultánea consideración de factores disciplinares y extra disciplinares resulta una estrategia tan fructífera como innovadora para analizar un campo que, al extender el dominio de la explicación social al ámbito de los fenómenos físico-naturales, ha dado lugar a uno de los más complejos casos de interacción disciplinar.
Resumo:
En la tesis se consideran los procesos de cambio conceptual, teórico y metodológico que modelaron el desarrollo de los estudios sociales de la ciencia desde su emergencia hasta la actualidad, con el objeto de analizar los alcances y límites de las perspectivas humanistas y poshumanistas en la comprensión del vínculo "humano-no humano". Los estudios sociales de la ciencia conforman un campo marginal tanto dentro de los estudios metacientíficos como de la disciplina que les dio origen: la sociología. Si bien en las últimas décadas éstos han dado lugar a un significativo progreso en la comprensión cualitativa y cuantitativa de la ciencia y la tecnología, al responder primordialmente a la inquietud empírico-comparativa de programas de investigación de corte institucionalista han tendido a relegar de sus agendas de investigación el análisis epistemológico de los modelos explicativos considerados. En este sentido, en su afán de dar cuenta del carácter social de la ciencia apenas si han reparado en los nexos que pueden establecerse entre la explicación social de la ciencia y la explicación científica de "lo social". Con el objeto de atender a ello la tesis analiza las implicancias epistemológicas, metodológicas y ontológicas del estudio social de la ciencia considerando a la relación "humano-máquina" o "humano-no humano" como un hilo de Ariadna en la identificación de rupturas y continuidades en la consideración del vínculo "ciencia-sociedad". Desde esta perspectiva se estudia la dinámica de cambio conceptual, teórico y/o metodológico que dio lugar a la emergencia y desarrollo del estudio social de la ciencia en relación con aquella que modeló al estudio científico de "lo social", se identifican los cambios epistemológicos, ontológicos y metodológicos que configuraron a la dimensión no humana como un tópico relevante, cuando no ineludible, en la explicación social de la ciencia, se examinan las implicancias de la incorporación de los objetos naturales y/o tecnológicos a los modelos explicativos del estudio social de la ciencia en el contexto de la crítica poshumanista a las teorías de la acción que han asumido al sujeto como epicentro del análisis, y se analiza el impacto de la mencionada crítica en términos de un reordenamiento de los vínculos entre el estudio social de la ciencia y el estudio científico de "lo social". De este modo se ofrece una faceta de los estudios sociales de la ciencia inadvertida por buena parte de la literatura especializada, más atenta a la confrontación de imágenes sociológicas y filosóficas de la ciencia en el contexto de la denominada "guerra de las ciencias" que a sus implicancias epistemológicas para el estudio científico de "lo social". Enfatizando así el anclaje disciplinar del estudio social de la ciencia no se suscribe una visión "internalista" del progreso epistémico, sino que, por el contrario, se sugiere que la simultánea consideración de factores disciplinares y extra disciplinares resulta una estrategia tan fructífera como innovadora para analizar un campo que, al extender el dominio de la explicación social al ámbito de los fenómenos físico-naturales, ha dado lugar a uno de los más complejos casos de interacción disciplinar.
Resumo:
Durante el transcurso de esta Tesis Doctoral se ha realizado un estudio de la problemática asociada al desarrollo de sistemas de interacción hombre-máquina sensibles al contexto. Este problema se enmarca dentro de dos áreas de investigación: los sistemas interactivos y las fuentes de información contextual. Tradicionalmente la integración entre ambos campos se desarrollaba a través de soluciones verticales específicas, que abstraen a los sistemas interactivos de conocer los procedimientos de bajo nivel de acceso a la información contextual, pero limitan su interoperabilidad con otras aplicaciones y fuentes de información. Para solventar esta limitación se hace imprescindible potenciar soluciones interoperables que permitan acceder a la información del mundo real a través de procedimientos homogéneos. Esta problemática coincide perfectamente con los escenarios de \Computación Ubicua" e \Internet de las Cosas", donde se apunta a un futuro en el que los objetos que nos rodean serán capaces de obtener información del entorno y comunicarla a otros objetos y personas. Los sistemas interactivos, al ser capaces de obtener información de su entorno a través de la interacción con el usuario, pueden tomar un papel especial en este escenario tanto como consumidores como productores de información. En esta Tesis se ha abordado la integración de ambos campos teniendo en cuenta este escenario tecnológico. Para ello, en primer lugar se ha realizado un an álisis de las iniciativas más importantes para la definición y diseño de sistemas interactivos, y de las principales infraestructuras de suministro de información. Mediante este estudio se ha propuesto utilizar el lenguaje SCXML del W3C para el diseño de los sistemas interactivos y el procesamiento de los datos proporcionados por fuentes de contexto. Así, se ha reflejado cómo las capacidades del lenguaje SCXML para combinar información de diferentes modalidades pueden también utilizarse para procesar e integrar información contextual de diferentes fuentes heterogéneas, y por consiguiente diseñar sistemas de interacción sensibles al contexto. Del mismo modo se presenta a la iniciativa Sensor Web, y a su extensión semántica Semantic Sensor Web, como una iniciativa idónea para permitir un acceso y suministro homogéneo de la información a los sistemas interactivos sensibles al contexto. Posteriormente se han analizado los retos que plantea la integración de ambos tipos de iniciativas. Como resultado se ha conseguido establecer una serie de funcionalidades que son necesarias implementar para llevar a cabo esta integración. Utilizando tecnologías que aportan una gran flexibilidad al proceso de implementación y que se apoyan en recomendaciones y estándares actuales, se implementaron una serie de desarrollos experimentales que integraban las funcionalidades identificadas anteriormente. Finalmente, con el fin de validar nuestra propuesta, se realizaron un conjunto de experimentos sobre un entorno de experimentación que simula el escenario de la conducción. En este escenario un sistema interactivo se comunica con una extensión semántica de una plataforma basada en los estándares de la Sensor Web para poder obtener información y publicar las observaciones que el usuario realizaba al sistema. Los resultados obtenidos han demostrado la viabilidad de utilizar el lenguaje SCXML para el diseño de sistemas interactivos sensibles al contexto que requieren acceder a plataformas avanzadas de información para consumir y publicar información a la vez que interaccionan con el usuario. Del mismo modo, se ha demostrado cómo la utilización de tecnologías semánticas en los procesos de consulta y publicación de información puede facilitar la reutilización de la información publicada en infraestructuras Sensor Web por cualquier tipo de aplicación, y de este modo contribuir al futuro escenario de Internet de las Cosas. ABSTRACT In this Thesis, we have addressed the difficulties related to the development of context-aware human-machine interaction systems. This issue is part of two research fields: interactive systems and contextual information sources. Traditionally both fields have been integrated through domain-specific vertical solutions that allow interactive systems to access contextual information without having to deal with low-level procedures, but restricting their interoperability with other applications and heterogeneous data sources. Thus, it is essential to boost the research on interoperable solutions that provide access to real world information through homogeneous procedures. This issue perfectly matches with the scenarios of \Ubiquitous Computing" and \Internet of Things", which point toward a future in which many objects around us will be able to acquire meaningful information about the environment and communicate it to other objects and to people. Since interactive systems are able to get information from their environment through interaction with the user, they can play an important role in this scenario as they can both consume real-world data and produce enriched information. This Thesis deals with the integration of both fields considering this technological scenario. In order to do this, we first carried out an analysis of the most important initiatives for the definition and design of interactive systems, and the main infrastructures for providing information. Through this study the use of the W3C SCXML language is proposed for both the design of interactive systems and the processing of data provided by different context sources. Thus, this work has shown how the SCXML capabilities for combining information from different modalities can also be used to process and integrate contextual information from different heterogeneous sensor sources, and therefore to develope context-aware interaction systems. Similarly, we present the Sensor Web initiative, and its semantic extension Semantic Sensor Web, as an appropriate initiative to allow uniform access and delivery of information to the context-aware interactive systems. Subsequently we have analyzed the challenges of integrating both types of initiatives: SCXML and (Semantic) Sensor Web. As a result, we state a number of functionalities that are necessary to implement in order to perform this integration. By using technologies that provide exibility to the implementation process and are based on current recommendations and standards, we implemented a series of experimental developments that integrate the identified functionalities. Finally, in order to validate our approach, we conducted different experiments with a testing environment simulating a driving scenario. In this framework an interactive system can access a semantic extension of a Telco plataform, based on the standards of the Sensor Web, to acquire contextual information and publish observations that the user performed to the system. The results showed the feasibility of using the SCXML language for designing context-aware interactive systems that require access to advanced sensor platforms for consuming and publishing information while interacting with the user. In the same way, it was shown how the use of semantic technologies in the processes of querying and publication sensor data can assist in reusing and sharing the information published by any application in Sensor Web infrastructures, and thus contribute to realize the future scenario of \Internet of Things".
Resumo:
En la presente memoria se describe el trabajo de diseño de una herramienta de interacción persona-ordenador (HMI) para la operación y supervisión de vehículos aéreos no tripulados (UAV). En primer lugar se hace una introducción a los tipos de UAVs y aplicaciones más comunes, describiendo sus características técnicas y los componentes que integra en el sistema. Mediante la revisión y análisis de los diferentes niveles de autonomía y las diferentes soluciones de presentación existentes en el mercado, se identifican los modos de operación y componentes principales de la interfaz. A continuación se describe el diseño final del software de la interfaz y el proceso de desarrollo de la misma, para ello se hace un análisis previo del software robótico sobre el que opera el sistema abordo del UAV y se establecen los enlaces de comunicación entre cada uno de los componentes y los requisitos de integración con el sistema. Finalmente, se muestran las pruebas que se han realizado para validar la construcción de la herramienta. This report outlines the design and construction of a human-machine interface (HMI), designed to facilitate the supervision and operation with unmanned aerial vehicles (UAV). First, it is described an introduction to UAVs classification and application fields, reviewing the hardware features and software integration components. In order to define the basic components and operation modes in the general design, a brief review of the different presentation solutions and autonomous levels is described. As a result, it is presented the final software design, the components details and the system integration requirements. Finally, it is also concluded with some of the tests that have been conducted to validate the design and construction of the human-machine interface
Resumo:
The field of exoskeletons and wearable devices for walking assistance and rehabilitation has advanced considerably over the past few years. Currently, commercial devices contain joints with stiff actuators that cannot adapt to unpredictable environments. These actuators consume more energy and may not be appropriate for human-machine interactions. Thus, adjustable compliant actuators are being cautiously incorporated into new exoskeletons and active orthoses. Some simulation-based studies have evaluated the benefits of incorporating compliant joints into such devices. Another reason that compliant actuators are desirable is that spasticity and spasmodic movements are common among patients with motor deficiencies; compliant actuators could efficiently absorb these perturbations and improve joint control. In this paper, we provide an overview of the requirements that must be fulfilled by these actuators while evaluating the behavior of leg joints in the locomotion cycle. A brief review of existing compliant actuators is conducted, and our proposed variable stiffness actuator prototype is presented and evaluated. The actuator prototype is implemented in an exoskeleton knee joint operated by a state machine that exploits the dynamics of the leg, resulting in a reduction in actuation energy demand and better adaptability to disturbances.
Resumo:
Advances in digital speech processing are now supporting application and deployment of a variety of speech technologies for human/machine communication. In fact, new businesses are rapidly forming about these technologies. But these capabilities are of little use unless society can afford them. Happily, explosive advances in microelectronics over the past two decades have assured affordable access to this sophistication as well as to the underlying computing technology. The research challenges in speech processing remain in the traditionally identified areas of recognition, synthesis, and coding. These three areas have typically been addressed individually, often with significant isolation among the efforts. But they are all facets of the same fundamental issue--how to represent and quantify the information in the speech signal. This implies deeper understanding of the physics of speech production, the constraints that the conventions of language impose, and the mechanism for information processing in the auditory system. In ongoing research, therefore, we seek more accurate models of speech generation, better computational formulations of language, and realistic perceptual guides for speech processing--along with ways to coalesce the fundamental issues of recognition, synthesis, and coding. Successful solution will yield the long-sought dictation machine, high-quality synthesis from text, and the ultimate in low bit-rate transmission of speech. It will also open the door to language-translating telephony, where the synthetic foreign translation can be in the voice of the originating talker.
Resumo:
The Colloquium on Human-Machine Communication by Voice highlighted the global technical community's focus on the problems and promise of voice-processing technology, particularly, speech recognition and speech synthesis. Clearly, there are many areas in both the research and development of these technologies that can be advanced significantly. However, it is also true that there are many applications of these technologies that are capable of commercialization now. Early successful commercialization of new technology is vital to ensure continuing interest in its development. This paper addresses efforts to commercialize speech technologies in two markets: telecommunications and aids for the handicapped.
Resumo:
This paper introduces the session "Technology in the Year 2001" and is the first of four papers dealing with the future of human-machine communication by voice. In looking to the future it is important to recognize both the difficulties of technological forecasting and the frailties of the technology as it exists today--frailties that are manifestations of our limited scientific understanding of human cognition. The technology to realize truly advanced applications does not yet exist and cannot be supported by our presently incomplete science of speech. To achieve this long-term goal, the authors advocate a fundamental research program using a cybernetic approach substantially different from more conventional synthetic approaches. In a cybernetic approach, feedback control systems will allow a machine to adapt to a linguistically rich environment using reinforcement learning.
Resumo:
This paper predicts speech synthesis, speech recognition, and speaker recognition technology for the year 2001, and it describes the most important research problems to be solved in order to arrive at these ultimate synthesis and recognition systems. The problems for speech synthesis include natural and intelligible voice production, prosody control based on meaning, capability of controlling synthesized voice quality and choosing individual speaking style, multilingual and multidialectal synthesis, choice of application-oriented speaking styles, capability of adding emotion, and synthesis from concepts. The problems for speech recognition include robust recognition against speech variations, adaptation/normalization to variations due to environmental conditions and speakers, automatic knowledge acquisition for acoustic and linguistic modeling, spontaneous speech recognition, naturalness and ease of human-machine interaction, and recognition of emotion. The problems for speaker recognition are similar to those for speech recognition. The research topics related to all these techniques include the use of articulatory and perceptual constraints and evaluation methods for measuring the quality of technology and systems.