805 resultados para MP3 (Audio coding standard)


Relevância:

20.00% 20.00%

Publicador:

Resumo:

Depuis quelques années, il y a un intérêt de la communauté en dosimétrie d'actualiser les protocoles de dosimétrie des faisceaux larges tels que le TG-51 (AAPM) et le TRS-398 (IAEA) aux champs non standard qui requièrent un facteur de correction additionnel. Or, ces facteurs de correction sont difficiles à déterminer précisément dans un temps acceptable. Pour les petits champs, ces facteurs augmentent rapidement avec la taille de champ tandis que pour les champs d'IMRT, les incertitudes de positionnement du détecteur rendent une correction cas par cas impraticable. Dans cette étude, un critère théorique basé sur la fonction de réponse dosimétrique des détecteurs est développé pour déterminer dans quelles situations les dosimètres peuvent être utilisés sans correction. Les réponses de quatre chambres à ionisation, d'une chambre liquide, d'un détecteur au diamant, d'une diode, d'un détecteur à l'alanine et d'un détecteur à scintillation sont caractérisées à 6 MV et 25 MV. Plusieurs stratégies sont également suggérées pour diminuer/éliminer les facteurs de correction telles que de rapporter la dose absorbée à un volume et de modifier les matériaux non sensibles du détecteur pour pallier l'effet de densité massique. Une nouvelle méthode de compensation de la densité basée sur une fonction de perturbation est présentée. Finalement, les résultats démontrent que le détecteur à scintillation peut mesurer les champs non standard utilisés en clinique avec une correction inférieure à 1%.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Cette thèse étudie des modèles de séquences de haute dimension basés sur des réseaux de neurones récurrents (RNN) et leur application à la musique et à la parole. Bien qu'en principe les RNN puissent représenter les dépendances à long terme et la dynamique temporelle complexe propres aux séquences d'intérêt comme la vidéo, l'audio et la langue naturelle, ceux-ci n'ont pas été utilisés à leur plein potentiel depuis leur introduction par Rumelhart et al. (1986a) en raison de la difficulté de les entraîner efficacement par descente de gradient. Récemment, l'application fructueuse de l'optimisation Hessian-free et d'autres techniques d'entraînement avancées ont entraîné la recrudescence de leur utilisation dans plusieurs systèmes de l'état de l'art. Le travail de cette thèse prend part à ce développement. L'idée centrale consiste à exploiter la flexibilité des RNN pour apprendre une description probabiliste de séquences de symboles, c'est-à-dire une information de haut niveau associée aux signaux observés, qui en retour pourra servir d'à priori pour améliorer la précision de la recherche d'information. Par exemple, en modélisant l'évolution de groupes de notes dans la musique polyphonique, d'accords dans une progression harmonique, de phonèmes dans un énoncé oral ou encore de sources individuelles dans un mélange audio, nous pouvons améliorer significativement les méthodes de transcription polyphonique, de reconnaissance d'accords, de reconnaissance de la parole et de séparation de sources audio respectivement. L'application pratique de nos modèles à ces tâches est détaillée dans les quatre derniers articles présentés dans cette thèse. Dans le premier article, nous remplaçons la couche de sortie d'un RNN par des machines de Boltzmann restreintes conditionnelles pour décrire des distributions de sortie multimodales beaucoup plus riches. Dans le deuxième article, nous évaluons et proposons des méthodes avancées pour entraîner les RNN. Dans les quatre derniers articles, nous examinons différentes façons de combiner nos modèles symboliques à des réseaux profonds et à la factorisation matricielle non-négative, notamment par des produits d'experts, des architectures entrée/sortie et des cadres génératifs généralisant les modèles de Markov cachés. Nous proposons et analysons également des méthodes d'inférence efficaces pour ces modèles, telles la recherche vorace chronologique, la recherche en faisceau à haute dimension, la recherche en faisceau élagué et la descente de gradient. Finalement, nous abordons les questions de l'étiquette biaisée, du maître imposant, du lissage temporel, de la régularisation et du pré-entraînement.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

L’objectif de cette thèse par articles est de présenter modestement quelques étapes du parcours qui mènera (on espère) à une solution générale du problème de l’intelligence artificielle. Cette thèse contient quatre articles qui présentent chacun une différente nouvelle méthode d’inférence perceptive en utilisant l’apprentissage machine et, plus particulièrement, les réseaux neuronaux profonds. Chacun de ces documents met en évidence l’utilité de sa méthode proposée dans le cadre d’une tâche de vision par ordinateur. Ces méthodes sont applicables dans un contexte plus général, et dans certains cas elles on tété appliquées ailleurs, mais ceci ne sera pas abordé dans le contexte de cette de thèse. Dans le premier article, nous présentons deux nouveaux algorithmes d’inférence variationelle pour le modèle génératif d’images appelé codage parcimonieux “spike- and-slab” (CPSS). Ces méthodes d’inférence plus rapides nous permettent d’utiliser des modèles CPSS de tailles beaucoup plus grandes qu’auparavant. Nous démontrons qu’elles sont meilleures pour extraire des détecteur de caractéristiques quand très peu d’exemples étiquetés sont disponibles pour l’entraînement. Partant d’un modèle CPSS, nous construisons ensuite une architecture profonde, la machine de Boltzmann profonde partiellement dirigée (MBP-PD). Ce modèle a été conçu de manière à simplifier d’entraînement des machines de Boltzmann profondes qui nécessitent normalement une phase de pré-entraînement glouton pour chaque couche. Ce problème est réglé dans une certaine mesure, mais le coût d’inférence dans le nouveau modèle est relativement trop élevé pour permettre de l’utiliser de manière pratique. Dans le deuxième article, nous revenons au problème d’entraînement joint de machines de Boltzmann profondes. Cette fois, au lieu de changer de famille de modèles, nous introduisons un nouveau critère d’entraînement qui donne naissance aux machines de Boltzmann profondes à multiples prédictions (MBP-MP). Les MBP-MP sont entraînables en une seule étape et ont un meilleur taux de succès en classification que les MBP classiques. Elles s’entraînent aussi avec des méthodes variationelles standard au lieu de nécessiter un classificateur discriminant pour obtenir un bon taux de succès en classification. Par contre, un des inconvénients de tels modèles est leur incapacité de générer deséchantillons, mais ceci n’est pas trop grave puisque la performance de classification des machines de Boltzmann profondes n’est plus une priorité étant donné les dernières avancées en apprentissage supervisé. Malgré cela, les MBP-MP demeurent intéressantes parce qu’elles sont capable d’accomplir certaines tâches que des modèles purement supervisés ne peuvent pas faire, telles que celle de classifier des données incomplètes ou encore celle de combler intelligemment l’information manquante dans ces données incomplètes. Le travail présenté dans cette thèse s’est déroulé au milieu d’une période de transformations importantes du domaine de l’apprentissage à réseaux neuronaux profonds qui a été déclenchée par la découverte de l’algorithme de “dropout” par Geoffrey Hinton. Dropout rend possible un entraînement purement supervisé d’architectures de propagation unidirectionnel sans être exposé au danger de sur- entraînement. Le troisième article présenté dans cette thèse introduit une nouvelle fonction d’activation spécialement con ̧cue pour aller avec l’algorithme de Dropout. Cette fonction d’activation, appelée maxout, permet l’utilisation de aggrégation multi-canal dans un contexte d’apprentissage purement supervisé. Nous démontrons comment plusieurs tâches de reconnaissance d’objets sont mieux accomplies par l’utilisation de maxout. Pour terminer, sont présentons un vrai cas d’utilisation dans l’industrie pour la transcription d’adresses de maisons à plusieurs chiffres. En combinant maxout avec une nouvelle sorte de couche de sortie pour des réseaux neuronaux de convolution, nous démontrons qu’il est possible d’atteindre un taux de succès comparable à celui des humains sur un ensemble de données coriace constitué de photos prises par les voitures de Google. Ce système a été déployé avec succès chez Google pour lire environ cent million d’adresses de maisons.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

La musique aujourd’hui est régulièrement accompagnée d’environnements visuels. Depuis les propositions en provenance du vidéoclip jusqu’aux œuvres installatives en passant par l’art web ou le cinéma, l’audiovisuel occupe une place considérable dans notre monde médiatisé et constitue un foyer important du développement des pratiques musicales. L’alliage entre son et image est souvent rattachée à l’histoire du cinéma mais les prémisses entourant l’audiovisuel remontent en réalité à l’Antiquité. Les correspondances entre sons et couleurs ont pris racine en premier chez les Pythagoriciens et cet intérêt se poursuit encore aujourd’hui. L’avènement de différentes technologies est venu reformuler au fil des siècles cette recherche qui retourne du décloisonnement artistique. L’arrivée de l’électricité permet au XIXe siècle le développement d’une lutherie expérimentale avec entre autres l’orgue à couleur d’Alexander Rimington. Ces instruments audiovisuels donnent naissance plus tard au Lumia, un art de la couleur et du mouvement se voulant proche de la musique et qui ne donne pourtant rien à entendre. Parallèlement à ces nouvelles propositions artistiques, il se développe dès les tout début du XXe siècle au sein des avant-gardes cinématographiques un corpus d’œuvres qui sera ensuite appelé musique visuelle. Les possibilités offertes par le support filmique vient offrir de nouvelles possibilités quant à l’organisation de la couleur et du mouvement. La pratique de cet art hybride est ensuite reformulée par les artistes associés à l’art vidéo avant de connaitre une vaste phase de démocratisation avec l’avènement des ordinateurs domestiques depuis les années 1990. Je retrace le parcours historique de ces pratiques audiovisuelles qui s’inscrivent résolument sur le terrain du musical. Un parcours appuyé essentiellement sur des œuvres et des ouvrages théoriques tout en étant parsemé de réflexions personnelles. Je traite des enjeux théoriques associés à ces propositions artistiques en les différenciant d’un autre format audiovisuel majeur soit le cinéma. Cet exposé permet de préparer le terrain afin de présenter et contextualiser mon travail de création. Je traite de deux œuvres, Trombe (2011) et Lungta (2012), des propositions qui héritent à la fois des musiques visuelles, de l’art interactif et de l’art cinétique.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Introduction: La répartition de la main-d'oeuvre dentaire à travers le Canada est fortement balancée en faveur des zones urbaines, une situation qui favorise les disparités dans l'accès aux soins de santé buccodentaire. En engageant des professionnels de la santé buccodentaire dans la pratique dentaire en milieu rural, il faut d’abord comprendre leurs opinions personnelles et professionnelles, ainsi que les obstacles et les facteurs motivant leur choix de pratique. Cependant, il existe un manque des connaissances sur la perception des étudiants de soins de santé buccodentaire à l'égard de la pratique rurale. Par conséquent, nous avons voulu vérifier comment les étudiantes en médecine dentaire perçoivent la pratique dentaire en milieu rural. Méthodes: Nous avons effectué une recherche qualitative dans deux grandes facultés de médecine dentaire au Québec. Un échantillonnage intentionnel et la technique boule de neige ont été utilisé pour recruter des étudiants finissants et des résidents en médecine dentaire en tant que participants à l'étude. Des enregistrements sonores des entrevues, d’une durée de 60 à 90 minutes, semi-structurées et face à face ont été colligés jusqu’à atteinte de la saturation. Nous avons procédé à une analyse thématique pour dégager les enjeux. Cela a inclus un compte-rendu des entrevues, l’encodage des transcriptions, la présentation des données et leur interprétation. Résultats: Dix-sept entretiens (10 F et 7 M, âge: 22 à 39) ont été réalisées. Cinq grands thèmes ont émergé des entrevues: niveau des connaissances sur les inégalités de la santé buccodentaire en milieu rural, image de la ruralité, image de la pratique dentaire en milieu rural, obstacles perçus et facteurs mobilisateurs. Les étudiants ont exprimé que l'éducation dentaire, les avantages financiers, le professionnalisme, le soutien professionnel, et les médias sociaux peuvent influencer positivement leur intérêt à l’égard de la pratique dentaire en milieu rural. Conclusion : Les résultats de cette étude soutiennent la mise en place de stratégies connues pour augmenter la connaissance et la motivation des étudiants en médecine dentaire pour choisir leur profession dans une région rurale. Les acteurs des politiques éducatives ont un rôle essentiel dans la promotion de ces politiques et stratégies facilitantes.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Introduction : Les adolescents avec déficiences physiques en transition vers la vie adulte éprouvent des difficultés à établir une participation sociale optimale. Cette étude explore les retombées d'un programme de cirque social sur la participation sociale de ces jeunes selon leur point de vue et celui de leurs parents. Méthode : Étude qualitative exploratoire d’orientation phénoménologique. Neuf personnes avec déficiences physiques, âgées de 18 et 25 ans, ont participé au programme pendant neuf mois. Données recueillies : perceptions de leur qualité de participation sociale à partir d’entrevues semi-structurées en pré, mi-temps et post-intervention avec les participants et un de leurs parents. Le guide d’entrevue validé est ancré sur le Modèle du développement humain- Processus de production du handicap - 2 (HDM-PPH2). L’enregistrement audio des entretiens a été transcrit en verbatim. Le contenu a été analysé avec le logiciel Nvivo 9 à travers une grille de codage préalablement validée (co-codage, codage-inverse). Résultats : Corpus de 54 entrevues. L’âge moyen des jeunes était de 20,0 ± 1,4 années et de 51 ± 3,6 années pour les parents. Selon tous, la participation sociale des jeunes adultes a été optimisée, surtout sur le plan de la communication, des déplacements, des relations interpersonnelles, des responsabilités et de la vie communautaire. La perception de soi et les habiletés sociales, également améliorées, ont favorisé une plus grande auto-efficacité. Conclusion : Cette étude soutient donc le potentiel du cirque social comme approche novatrice et probante en réadaptation physique pour cette population, et appuie la pertinence d’autres études rigoureuses mesurant les diverses retombées possibles et identifiées.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Ce texte porte sur l’analyse sémantique de la logique déontique. Nous analyserons de façon critique un texte de Schotch (1981) portant sur une interprétation de la logique déontique dans le cadre d’une sémantique non-kripkéenne. Nous laisserons de côté les choix relatifs à la syntaxe de son système afin de se concentrer sur l’analyse sémantique qu’il expose contre la logique déontique et sur celle qu’il propose en retour. Avant de voir le détail de son raisonnement, nous présenterons brièvement quelques notions de logique modale afin de faciliter la compréhension de l’argument de Schotch. Nous présenterons ensuite l’argument de l’auteur contre la logique déontique afin de pouvoir exposer sa solution, ce qui ouvrira la porte à une lecture critique de son analyse.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

During 1990's the Wavelet Transform emerged as an important signal processing tool with potential applications in time-frequency analysis and non-stationary signal processing.Wavelets have gained popularity in broad range of disciplines like signal/image compression, medical diagnostics, boundary value problems, geophysical signal processing, statistical signal processing,pattern recognition,underwater acoustics etc.In 1993, G. Evangelista introduced the Pitch- synchronous Wavelet Transform, which is particularly suited for pseudo-periodic signal processing.The work presented in this thesis mainly concentrates on two interrelated topics in signal processing,viz. the Wavelet Transform based signal compression and the computation of Discrete Wavelet Transform. A new compression scheme is described in which the Pitch-Synchronous Wavelet Transform technique is combined with the popular linear Predictive Coding method for pseudo-periodic signal processing. Subsequently,A novel Parallel Multiple Subsequence structure is presented for the efficient computation of Wavelet Transform. Case studies also presented to highlight the potential applications.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Machine tool chatter is an unfavorable phenomenon during metal cutting, which results in heavy vibration of cutting tool. With increase in depth of cut, the cutting regime changes from chatter-free cutting to one with chatter. In this paper, we propose the use of permutation entropy (PE), a conceptually simple and computationally fast measurement to detect the onset of chatter from the time series using sound signal recorded with a unidirectional microphone. PE can efficiently distinguish the regular and complex nature of any signal and extract information about the dynamics of the process by indicating sudden change in its value. Under situations where the data sets are huge and there is no time for preprocessing and fine-tuning, PE can effectively detect dynamical changes of the system. This makes PE an ideal choice for online detection of chatter, which is not possible with other conventional nonlinear methods. In the present study, the variation of PE under two cutting conditions is analyzed. Abrupt variation in the value of PE with increase in depth of cut indicates the onset of chatter vibrations. The results are verified using frequency spectra of the signals and the nonlinear measure, normalized coarse-grained information rate (NCIR).

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Timely detection of sudden change in dynamics that adversely affect the performance of systems and quality of products has great scientific relevance. This work focuses on effective detection of dynamical changes of real time signals from mechanical as well as biological systems using a fast and robust technique of permutation entropy (PE). The results are used in detecting chatter onset in machine turning and identifying vocal disorders from speech signal.Permutation Entropy is a nonlinear complexity measure which can efficiently distinguish regular and complex nature of any signal and extract information about the change in dynamics of the process by indicating sudden change in its value. Here we propose the use of permutation entropy (PE), to detect the dynamical changes in two non linear processes, turning under mechanical system and speech under biological system.Effectiveness of PE in detecting the change in dynamics in turning process from the time series generated with samples of audio and current signals is studied. Experiments are carried out on a lathe machine for sudden increase in depth of cut and continuous increase in depth of cut on mild steel work pieces keeping the speed and feed rate constant. The results are applied to detect chatter onset in machining. These results are verified using frequency spectra of the signals and the non linear measure, normalized coarse-grained information rate (NCIR).PE analysis is carried out to investigate the variation in surface texture caused by chatter on the machined work piece. Statistical parameter from the optical grey level intensity histogram of laser speckle pattern recorded using a charge coupled device (CCD) camera is used to generate the time series required for PE analysis. Standard optical roughness parameter is used to confirm the results.Application of PE in identifying the vocal disorders is studied from speech signal recorded using microphone. Here analysis is carried out using speech signals of subjects with different pathological conditions and normal subjects, and the results are used for identifying vocal disorders. Standard linear technique of FFT is used to substantiate thc results.The results of PE analysis in all three cases clearly indicate that this complexity measure is sensitive to change in regularity of a signal and hence can suitably be used for detection of dynamical changes in real world systems. This work establishes the application of the simple, inexpensive and fast algorithm of PE for the benefit of advanced manufacturing process as well as clinical diagnosis in vocal disorders.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

After skin cancer, breast cancer accounts for the second greatest number of cancer diagnoses in women. Currently the etiologies of breast cancer are unknown, and there is no generally accepted therapy for preventing it. Therefore, the best way to improve the prognosis for breast cancer is early detection and treatment. Computer aided detection systems (CAD) for detecting masses or micro-calcifications in mammograms have already been used and proven to be a potentially powerful tool , so the radiologists are attracted by the effectiveness of clinical application of CAD systems. Fractal geometry is well suited for describing the complex physiological structures that defy the traditional Euclidean geometry, which is based on smooth shapes. The major contribution of this research include the development of • A new fractal feature to accurately classify mammograms into normal and normal (i)With masses (benign or malignant) (ii) with microcalcifications (benign or malignant) • A novel fast fractal modeling method to identify the presence of microcalcifications by fractal modeling of mammograms and then subtracting the modeled image from the original mammogram. The performances of these methods were evaluated using different standard statistical analysis methods. The results obtained indicate that the developed methods are highly beneficial for assisting radiologists in making diagnostic decisions. The mammograms for the study were obtained from the two online databases namely, MIAS (Mammographic Image Analysis Society) and DDSM (Digital Database for Screening Mammography.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

In recent years, reversible logic has emerged as one of the most important approaches for power optimization with its application in low power CMOS, quantum computing and nanotechnology. Low power circuits implemented using reversible logic that provides single error correction – double error detection (SEC-DED) is proposed in this paper. The design is done using a new 4 x 4 reversible gate called ‘HCG’ for implementing hamming error coding and detection circuits. A parity preserving HCG (PPHCG) that preserves the input parity at the output bits is used for achieving fault tolerance for the hamming error coding and detection circuits.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

The modern telecommunication industry demands higher capacity networks with high data rate. Orthogonal frequency division multiplexing (OFDM) is a promising technique for high data rate wireless communications at reasonable complexity in wireless channels. OFDM has been adopted for many types of wireless systems like wireless local area networks such as IEEE 802.11a, and digital audio/video broadcasting (DAB/DVB). The proposed research focuses on a concatenated coding scheme that improve the performance of OFDM based wireless communications. It uses a Redundant Residue Number System (RRNS) code as the outer code and a convolutional code as the inner code. The bit error rate (BER) performances of the proposed system under different channel conditions are investigated. These include the effect of additive white Gaussian noise (AWGN), multipath delay spread, peak power clipping and frame start synchronization error. The simulation results show that the proposed RRNS-Convolutional concatenated coding (RCCC) scheme provides significant improvement in the system performance by exploiting the inherent properties of RRNS.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Any automatically measurable, robust and distinctive physical characteristic or personal trait that can be used to identify an individual or verify the claimed identity of an individual, referred to as biometrics, has gained significant interest in the wake of heightened concerns about security and rapid advancements in networking, communication and mobility. Multimodal biometrics is expected to be ultra-secure and reliable, due to the presence of multiple and independent—verification clues. In this study, a multimodal biometric system utilising audio and facial signatures has been implemented and error analysis has been carried out. A total of one thousand face images and 250 sound tracks of 50 users are used for training the proposed system. To account for the attempts of the unregistered signatures data of 25 new users are tested. The short term spectral features were extracted from the sound data and Vector Quantization was done using K-means algorithm. Face images are identified based on Eigen face approach using Principal Component Analysis. The success rate of multimodal system using speech and face is higher when compared to individual unimodal recognition systems

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Speech signals are one of the most important means of communication among the human beings. In this paper, a comparative study of two feature extraction techniques are carried out for recognizing speaker independent spoken isolated words. First one is a hybrid approach with Linear Predictive Coding (LPC) and Artificial Neural Networks (ANN) and the second method uses a combination of Wavelet Packet Decomposition (WPD) and Artificial Neural Networks. Voice signals are sampled directly from the microphone and then they are processed using these two techniques for extracting the features. Words from Malayalam, one of the four major Dravidian languages of southern India are chosen for recognition. Training, testing and pattern recognition are performed using Artificial Neural Networks. Back propagation method is used to train the ANN. The proposed method is implemented for 50 speakers uttering 20 isolated words each. Both the methods produce good recognition accuracy. But Wavelet Packet Decomposition is found to be more suitable for recognizing speech because of its multi-resolution characteristics and efficient time frequency localizations