928 resultados para audio coding
Resumo:
Audio coding is used to compress digital audio signals, thereby reducing the amount of bits needed to transmit or to store an audio signal. This is useful when network bandwidth or storage capacity is very limited. Audio compression algorithms are based on an encoding and decoding process. In the encoding step, the uncompressed audio signal is transformed into a coded representation, thereby compressing the audio signal. Thereafter, the coded audio signal eventually needs to be restored (e.g. for playing back) through decoding of the coded audio signal. The decoder receives the bitstream and reconverts it into an uncompressed signal. ISO-MPEG is a standard for high-quality, low bit-rate video and audio coding. The audio part of the standard is composed by algorithms for high-quality low-bit-rate audio coding, i.e. algorithms that reduce the original bit-rate, while guaranteeing high quality of the audio signal. The audio coding algorithms consists of MPEG-1 (with three different layers), MPEG-2, MPEG-2 AAC, and MPEG-4. This work presents a study of the MPEG-4 AAC audio coding algorithm. Besides, it presents the implementation of the AAC algorithm on different platforms, and comparisons among implementations. The implementations are in C language, in Assembly of Intel Pentium, in C-language using DSP processor, and in HDL. Since each implementation has its own application niche, each one is valid as a final solution. Moreover, another purpose of this work is the comparison among these implementations, considering estimated costs, execution time, and advantages and disadvantages of each one.
Resumo:
Chaque année, le piratage mondial de la musique coûte plusieurs milliards de dollars en pertes économiques, pertes d’emplois et pertes de gains des travailleurs ainsi que la perte de millions de dollars en recettes fiscales. La plupart du piratage de la musique est dû à la croissance rapide et à la facilité des technologies actuelles pour la copie, le partage, la manipulation et la distribution de données musicales [Domingo, 2015], [Siwek, 2007]. Le tatouage des signaux sonores a été proposé pour protéger les droit des auteurs et pour permettre la localisation des instants où le signal sonore a été falsifié. Dans cette thèse, nous proposons d’utiliser la représentation parcimonieuse bio-inspirée par graphe de décharges (spikegramme), pour concevoir une nouvelle méthode permettant la localisation de la falsification dans les signaux sonores. Aussi, une nouvelle méthode de protection du droit d’auteur. Finalement, une nouvelle attaque perceptuelle, en utilisant le spikegramme, pour attaquer des systèmes de tatouage sonore. Nous proposons tout d’abord une technique de localisation des falsifications (‘tampering’) des signaux sonores. Pour cela nous combinons une méthode à spectre étendu modifié (‘modified spread spectrum’, MSS) avec une représentation parcimonieuse. Nous utilisons une technique de poursuite perceptive adaptée (perceptual marching pursuit, PMP [Hossein Najaf-Zadeh, 2008]) pour générer une représentation parcimonieuse (spikegramme) du signal sonore d’entrée qui est invariante au décalage temporel [E. C. Smith, 2006] et qui prend en compte les phénomènes de masquage tels qu’ils sont observés en audition. Un code d’authentification est inséré à l’intérieur des coefficients de la représentation en spikegramme. Puis ceux-ci sont combinés aux seuils de masquage. Le signal tatoué est resynthétisé à partir des coefficients modifiés, et le signal ainsi obtenu est transmis au décodeur. Au décodeur, pour identifier un segment falsifié du signal sonore, les codes d’authentification de tous les segments intacts sont analysés. Si les codes ne peuvent être détectés correctement, on sait qu’alors le segment aura été falsifié. Nous proposons de tatouer selon le principe à spectre étendu (appelé MSS) afin d’obtenir une grande capacité en nombre de bits de tatouage introduits. Dans les situations où il y a désynchronisation entre le codeur et le décodeur, notre méthode permet quand même de détecter des pièces falsifiées. Par rapport à l’état de l’art, notre approche a le taux d’erreur le plus bas pour ce qui est de détecter les pièces falsifiées. Nous avons utilisé le test de l’opinion moyenne (‘MOS’) pour mesurer la qualité des systèmes tatoués. Nous évaluons la méthode de tatouage semi-fragile par le taux d’erreur (nombre de bits erronés divisé par tous les bits soumis) suite à plusieurs attaques. Les résultats confirment la supériorité de notre approche pour la localisation des pièces falsifiées dans les signaux sonores tout en préservant la qualité des signaux. Ensuite nous proposons une nouvelle technique pour la protection des signaux sonores. Cette technique est basée sur la représentation par spikegrammes des signaux sonores et utilise deux dictionnaires (TDA pour Two-Dictionary Approach). Le spikegramme est utilisé pour coder le signal hôte en utilisant un dictionnaire de filtres gammatones. Pour le tatouage, nous utilisons deux dictionnaires différents qui sont sélectionnés en fonction du bit d’entrée à tatouer et du contenu du signal. Notre approche trouve les gammatones appropriés (appelés noyaux de tatouage) sur la base de la valeur du bit à tatouer, et incorpore les bits de tatouage dans la phase des gammatones du tatouage. De plus, il est montré que la TDA est libre d’erreur dans le cas d’aucune situation d’attaque. Il est démontré que la décorrélation des noyaux de tatouage permet la conception d’une méthode de tatouage sonore très robuste. Les expériences ont montré la meilleure robustesse pour la méthode proposée lorsque le signal tatoué est corrompu par une compression MP3 à 32 kbits par seconde avec une charge utile de 56.5 bps par rapport à plusieurs techniques récentes. De plus nous avons étudié la robustesse du tatouage lorsque les nouveaux codec USAC (Unified Audion and Speech Coding) à 24kbps sont utilisés. La charge utile est alors comprise entre 5 et 15 bps. Finalement, nous utilisons les spikegrammes pour proposer trois nouvelles méthodes d’attaques. Nous les comparons aux méthodes récentes d’attaques telles que 32 kbps MP3 et 24 kbps USAC. Ces attaques comprennent l’attaque par PMP, l’attaque par bruit inaudible et l’attaque de remplacement parcimonieuse. Dans le cas de l’attaque par PMP, le signal de tatouage est représenté et resynthétisé avec un spikegramme. Dans le cas de l’attaque par bruit inaudible, celui-ci est généré et ajouté aux coefficients du spikegramme. Dans le cas de l’attaque de remplacement parcimonieuse, dans chaque segment du signal, les caractéristiques spectro-temporelles du signal (les décharges temporelles ;‘time spikes’) se trouvent en utilisant le spikegramme et les spikes temporelles et similaires sont remplacés par une autre. Pour comparer l’efficacité des attaques proposées, nous les comparons au décodeur du tatouage à spectre étendu. Il est démontré que l’attaque par remplacement parcimonieux réduit la corrélation normalisée du décodeur de spectre étendu avec un plus grand facteur par rapport à la situation où le décodeur de spectre étendu est attaqué par la transformation MP3 (32 kbps) et 24 kbps USAC.
Resumo:
TFC sobre normalització del volum d'arxius MP3, emmarcat dins d'un projecte més ampli que inclou la lectura d'arxius MP3, la modificació per a implementar-ne el guany i el desenvolupament d'una interfície d'usuari que permeti aplicar la normalització a fitxers MP3. La part que s'ha elaborat és la fase intermèdia, consistent en el càlcul del guany de volum que caldria aplicar a un arxiu de so per a aconseguir normalitzar-ne el volum.
Resumo:
Aquest projecte es pot dividir en tres parts: una primera part d'extracció dels components freqüencials de les trames d'arxius MP3, una segona part d'anàlisi i càlcul d'un factor de normalització a partir de les dades dels components freqüencials de diversos arxius MP3, i una última part amb la modificació correcta dels guanys de les trames dels arxius MP3 a partir del factor de normalització generat en la part anterior. En aquest treball de final de carrera s'implementen la primera i la tercera de les parts descrites anteriorment.
Resumo:
L'estàndard MPEG-1 Layer III va ser creat fa poc més de 10 anys i en aquest curt espai de temps ha revolucionat el fins aleshores estable món de la música. El fet de poder comprimir tota una cançó en uns pocs 'megues' (3 o 4) sense una pèrdua apreciable de qualitat i la proliferació d'ordinadors connectats a Internet va fer que el tràfic de fitxers en aquest format col·lapsés més d'un servidor. Per això, no és estrany que apareguessin autèntiques col·leccions de fitxers musicals en format MP3 procedents de les fonts més variades. Aquest fet (la diversitat de les fonts) i la variabilitat entre els diferents codificadors fa que el volum del so d'aquests fitxers disti molt de ser semblant. I això és precisament el que procura aconseguir aquest projecte: fer que tota col·lecció de fitxers MP3 soni igual de fort.
Resumo:
This paper describes an audio watermarking scheme based on lossy compression. The main idea is taken from an image watermarking approach where the JPEG compression algorithm is used to determine where and how the mark should be placed. Similarly, in the audio scheme suggested in this paper, an MPEG 1 Layer 3 algorithm is chosen for compression to determine the position of the mark bits and, thus, the psychoacoustic masking of the MPEG 1 Layer 3compression is implicitly used. This methodology provides with a high robustness degree against compression attacks. The suggested scheme is also shown to succeed against most of the StirMark benchmark attacks for audio.
Resumo:
The subject of the thesis was the digital audio broadcasting technology developed in the Eureka project 147. The research was based on the literature on the subject. At first, some reasons for the digitisation of broadcasting technology were given. Next, the channel multiplexing and channel coding methods employed by digital radio were discussed. The design of these methods is based on certain phenomena related to the propagation of radio-frequency signals, and these phenomena were also described. After that, audio and data transfer mechanisms as well as the structure of digital radio network were explained. Furthermore, digital audio and data services were considered. Finally, the digital radio was examined from marketing and administrative aspects. From a merely technical point of view, the digital radio technology offers several improvements in comparison with analogue technology. However, the digital radio has not become as widespread as it was perhaps originally expected during its development.
Resumo:
On étudie l’application des algorithmes de décomposition matricielles tel que la Factorisation Matricielle Non-négative (FMN), aux représentations fréquentielles de signaux audio musicaux. Ces algorithmes, dirigés par une fonction d’erreur de reconstruction, apprennent un ensemble de fonctions de base et un ensemble de coef- ficients correspondants qui approximent le signal d’entrée. On compare l’utilisation de trois fonctions d’erreur de reconstruction quand la FMN est appliquée à des gammes monophoniques et harmonisées: moindre carré, divergence Kullback-Leibler, et une mesure de divergence dépendente de la phase, introduite récemment. Des nouvelles méthodes pour interpréter les décompositions résultantes sont présentées et sont comparées aux méthodes utilisées précédemment qui nécessitent des connaissances du domaine acoustique. Finalement, on analyse la capacité de généralisation des fonctions de bases apprises par rapport à trois paramètres musicaux: l’amplitude, la durée et le type d’instrument. Pour ce faire, on introduit deux algorithmes d’étiquetage des fonctions de bases qui performent mieux que l’approche précédente dans la majorité de nos tests, la tâche d’instrument avec audio monophonique étant la seule exception importante.
Resumo:
This dissertation studies the coding strategies of computational imaging to overcome the limitation of conventional sensing techniques. The information capacity of conventional sensing is limited by the physical properties of optics, such as aperture size, detector pixels, quantum efficiency, and sampling rate. These parameters determine the spatial, depth, spectral, temporal, and polarization sensitivity of each imager. To increase sensitivity in any dimension can significantly compromise the others.
This research implements various coding strategies subject to optical multidimensional imaging and acoustic sensing in order to extend their sensing abilities. The proposed coding strategies combine hardware modification and signal processing to exploiting bandwidth and sensitivity from conventional sensors. We discuss the hardware architecture, compression strategies, sensing process modeling, and reconstruction algorithm of each sensing system.
Optical multidimensional imaging measures three or more dimensional information of the optical signal. Traditional multidimensional imagers acquire extra dimensional information at the cost of degrading temporal or spatial resolution. Compressive multidimensional imaging multiplexes the transverse spatial, spectral, temporal, and polarization information on a two-dimensional (2D) detector. The corresponding spectral, temporal and polarization coding strategies adapt optics, electronic devices, and designed modulation techniques for multiplex measurement. This computational imaging technique provides multispectral, temporal super-resolution, and polarization imaging abilities with minimal loss in spatial resolution and noise level while maintaining or gaining higher temporal resolution. The experimental results prove that the appropriate coding strategies may improve hundreds times more sensing capacity.
Human auditory system has the astonishing ability in localizing, tracking, and filtering the selected sound sources or information from a noisy environment. Using engineering efforts to accomplish the same task usually requires multiple detectors, advanced computational algorithms, or artificial intelligence systems. Compressive acoustic sensing incorporates acoustic metamaterials in compressive sensing theory to emulate the abilities of sound localization and selective attention. This research investigates and optimizes the sensing capacity and the spatial sensitivity of the acoustic sensor. The well-modeled acoustic sensor allows localizing multiple speakers in both stationary and dynamic auditory scene; and distinguishing mixed conversations from independent sources with high audio recognition rate.
Resumo:
Universidade Estadual de Campinas . Faculdade de Educação Física
Resumo:
TEMA: avaliação audiológica de pais de indivíduos com perda auditiva de herança autossômica recessiva. OBJETIVO: estudar o perfil audiológico de pais de indivíduos com perda auditiva, de herança autossômica recessiva, inferida pela história familial ou por testes moleculares que detectaram mutação no gene GJB2, responsável por codificar a Conexina 26. MÉTODO: 36 indivíduos entre 30 e 60 anos foram avaliados e divididos em dois grupos: grupo controle, sem queixas auditivas e sem história familiar de deficiência auditiva, e grupo de estudos composto por pais heterozigotos em relação a genes de surdez de herança autossômica recessiva inespecífica ou portadores heterozigotos de mutação no gene da Conexina 26. Todos foram submetidos à audiometria tonal liminar (0,25kHz a 8), audiometria de altas freqüências (9kHz a 20) e emissões otoacústicas produtos de distorção (EOAPD). RESULTADOS: houve diferenças significativas na amplitude das EOAPD nas freqüências 1001 e 1501Hz entre os grupos, sendo maior a amplitude no grupo controle. Não houve diferença significativa entre os grupos para os limiares tonais de 0,25 a 20KHz. CONCLUSÃO: as EOAPD foram mais eficazes, em comparação com a audiometria tonal liminar, para detectar diferenças auditivas entre os grupos. Mais pesquisas são necessárias para verificar a confiabilidade destes dados.
Resumo:
Non-coding RNAs (ncRNAs) were recently given much higher attention due to technical advances in sequencing which expanded the characterization of transcriptomes in different organisms. ncRNAs have different lengths (22 nt to >1, 000 nt) and mechanisms of action that essentially comprise a sophisticated gene expression regulation network. Recent publication of schistosome genomes and transcriptomes has increased the description and characterization of a large number of parasite genes. Here we review the number of predicted genes and the coverage of genomic bases in face of the public ESTs dataset available, including a critical appraisal of the evidence and characterization of ncRNAs in schistosomes. We show expression data for ncRNAs in Schistosoma mansoni. We analyze three different microarray experiment datasets: (1) adult worms' large-scale expression measurements; (2) differentially expressed S. mansoni genes regulated by a human cytokine (TNF-α) in a parasite culture; and (3) a stage-specific expression of ncRNAs. All these data point to ncRNAs involved in different biological processes and physiological responses that suggest functionality of these new players in the parasite's biology. Exploring this world is a challenge for the scientists under a new molecular perspective of host-parasite interactions and parasite development.
Resumo:
Este artigo relata a influência de fatores sociodemográficos e de saúde na autopercepção da audição entre os idosos do projeto " Saúde, Bem-Estar e Envelhecimento" (Projeto SABE) no município de São Paulo. O estudo incluiu 2.143 indivíduos de 60 anos e mais. Um modelo de regressão logística ordinal, considerando o desenho da amostra, foi usado na análise multivariável. O aumento da idade; o sexo masculino; morar acompanhado; relatar tontura; memória regular/ ruim e saúde regular ou ruim aumentaram a chance de autopercepção ruim da audição. O conhecimento da autopercepção da audição e dos seus fatores relacionados é importante para avaliar a qualidade de vida dos idosos e a necessidade de reabilitação auditiva
Resumo:
Background: Ticks secrete a cement cone composed of many salivary proteins, some of which are rich in the amino acid glycine in order to attach to their hosts' skin. Glycine-rich proteins (GRPs) are a large family of heterogeneous proteins that have different functions and features; noteworthy are their adhesive and tensile characteristics. These properties may be essential for successful attachment of the metastriate ticks to the host and the prolonged feeding necessary for engorgement. In this work, we analyzed Expressed Sequence Tags (ESTs) similar to GRPs from cDNA libraries constructed from salivary glands of adult female ticks representing three hard, metastriate species in order to verify if their expression correlated with biological differences such as the numbers of hosts ticks feed on during their parasitic life cycle, whether one (monoxenous parasite) or two or more (heteroxenous parasite), and the anatomy of their mouthparts, whether short (Brevirostrata) or long (Longirostrata). These ticks were the monoxenous Brevirostrata tick, Rhipicephalus (Boophilus) microplus, a heteroxenous Brevirostrata tick, Rhipicephalus sanguineus, and a heteroxenous Longirostrata tick, Amblyomma cajennense. To further investigate this relationship, we conducted phylogenetic analyses using sequences of GRPs from these ticks as well as from other species of Brevirostrata and Longirostrata ticks. Results: cDNA libraries from salivary glands of the monoxenous tick, R. microplus, contained more contigs of glycine-rich proteins than the two representatives of heteroxenous ticks, R. sanguineus and A. cajennense (33 versus, respectively, 16 and 11). Transcripts of ESTs encoding GRPs were significantly more numerous in the salivary glands of the two Brevirostrata species when compared to the number of transcripts in the Longirostrata tick. The salivary gland libraries from Brevirostrata ticks contained numerous contigs significantly similar to silks of true spiders (17 and 8 in, respectively, R. microplus and R. sanguineus), whereas the Longirostrata tick contained only 4 contigs. The phylogenetic analyses of GRPs from various species of ticks showed that distinct clades encoding proteins with different biochemical properties are represented among species according to their biology. Conclusions: We found that different species of ticks rely on different types and amounts of GRPs in order to attach and feed on their hosts. Metastriate ticks with short mouthparts express more transcripts of GRPs than a tick with long mouthparts and the tick that feeds on a single host during its life cycle contain a greater variety of these proteins than ticks that feed on several hosts.