805 resultados para MP3 (Audio coding standard)


Relevância:

100.00% 100.00%

Publicador:

Resumo:

TFC sobre normalització del volum d'arxius MP3, emmarcat dins d'un projecte més ampli que inclou la lectura d'arxius MP3, la modificació per a implementar-ne el guany i el desenvolupament d'una interfície d'usuari que permeti aplicar la normalització a fitxers MP3. La part que s'ha elaborat és la fase intermèdia, consistent en el càlcul del guany de volum que caldria aplicar a un arxiu de so per a aconseguir normalitzar-ne el volum.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Aquest projecte es pot dividir en tres parts: una primera part d'extracció dels components freqüencials de les trames d'arxius MP3, una segona part d'anàlisi i càlcul d'un factor de normalització a partir de les dades dels components freqüencials de diversos arxius MP3, i una última part amb la modificació correcta dels guanys de les trames dels arxius MP3 a partir del factor de normalització generat en la part anterior. En aquest treball de final de carrera s'implementen la primera i la tercera de les parts descrites anteriorment.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

L'estàndard MPEG-1 Layer III va ser creat fa poc més de 10 anys i en aquest curt espai de temps ha revolucionat el fins aleshores estable món de la música. El fet de poder comprimir tota una cançó en uns pocs 'megues' (3 o 4) sense una pèrdua apreciable de qualitat i la proliferació d'ordinadors connectats a Internet va fer que el tràfic de fitxers en aquest format col·lapsés més d'un servidor. Per això, no és estrany que apareguessin autèntiques col·leccions de fitxers musicals en format MP3 procedents de les fonts més variades. Aquest fet (la diversitat de les fonts) i la variabilitat entre els diferents codificadors fa que el volum del so d'aquests fitxers disti molt de ser semblant. I això és precisament el que procura aconseguir aquest projecte: fer que tota col·lecció de fitxers MP3 soni igual de fort.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Audio coding is used to compress digital audio signals, thereby reducing the amount of bits needed to transmit or to store an audio signal. This is useful when network bandwidth or storage capacity is very limited. Audio compression algorithms are based on an encoding and decoding process. In the encoding step, the uncompressed audio signal is transformed into a coded representation, thereby compressing the audio signal. Thereafter, the coded audio signal eventually needs to be restored (e.g. for playing back) through decoding of the coded audio signal. The decoder receives the bitstream and reconverts it into an uncompressed signal. ISO-MPEG is a standard for high-quality, low bit-rate video and audio coding. The audio part of the standard is composed by algorithms for high-quality low-bit-rate audio coding, i.e. algorithms that reduce the original bit-rate, while guaranteeing high quality of the audio signal. The audio coding algorithms consists of MPEG-1 (with three different layers), MPEG-2, MPEG-2 AAC, and MPEG-4. This work presents a study of the MPEG-4 AAC audio coding algorithm. Besides, it presents the implementation of the AAC algorithm on different platforms, and comparisons among implementations. The implementations are in C language, in Assembly of Intel Pentium, in C-language using DSP processor, and in HDL. Since each implementation has its own application niche, each one is valid as a final solution. Moreover, another purpose of this work is the comparison among these implementations, considering estimated costs, execution time, and advantages and disadvantages of each one.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

This paper describes an audio watermarking scheme based on lossy compression. The main idea is taken from an image watermarking approach where the JPEG compression algorithm is used to determine where and how the mark should be placed. Similarly, in the audio scheme suggested in this paper, an MPEG 1 Layer 3 algorithm is chosen for compression to determine the position of the mark bits and, thus, the psychoacoustic masking of the MPEG 1 Layer 3compression is implicitly used. This methodology provides with a high robustness degree against compression attacks. The suggested scheme is also shown to succeed against most of the StirMark benchmark attacks for audio.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Chaque année, le piratage mondial de la musique coûte plusieurs milliards de dollars en pertes économiques, pertes d’emplois et pertes de gains des travailleurs ainsi que la perte de millions de dollars en recettes fiscales. La plupart du piratage de la musique est dû à la croissance rapide et à la facilité des technologies actuelles pour la copie, le partage, la manipulation et la distribution de données musicales [Domingo, 2015], [Siwek, 2007]. Le tatouage des signaux sonores a été proposé pour protéger les droit des auteurs et pour permettre la localisation des instants où le signal sonore a été falsifié. Dans cette thèse, nous proposons d’utiliser la représentation parcimonieuse bio-inspirée par graphe de décharges (spikegramme), pour concevoir une nouvelle méthode permettant la localisation de la falsification dans les signaux sonores. Aussi, une nouvelle méthode de protection du droit d’auteur. Finalement, une nouvelle attaque perceptuelle, en utilisant le spikegramme, pour attaquer des systèmes de tatouage sonore. Nous proposons tout d’abord une technique de localisation des falsifications (‘tampering’) des signaux sonores. Pour cela nous combinons une méthode à spectre étendu modifié (‘modified spread spectrum’, MSS) avec une représentation parcimonieuse. Nous utilisons une technique de poursuite perceptive adaptée (perceptual marching pursuit, PMP [Hossein Najaf-Zadeh, 2008]) pour générer une représentation parcimonieuse (spikegramme) du signal sonore d’entrée qui est invariante au décalage temporel [E. C. Smith, 2006] et qui prend en compte les phénomènes de masquage tels qu’ils sont observés en audition. Un code d’authentification est inséré à l’intérieur des coefficients de la représentation en spikegramme. Puis ceux-ci sont combinés aux seuils de masquage. Le signal tatoué est resynthétisé à partir des coefficients modifiés, et le signal ainsi obtenu est transmis au décodeur. Au décodeur, pour identifier un segment falsifié du signal sonore, les codes d’authentification de tous les segments intacts sont analysés. Si les codes ne peuvent être détectés correctement, on sait qu’alors le segment aura été falsifié. Nous proposons de tatouer selon le principe à spectre étendu (appelé MSS) afin d’obtenir une grande capacité en nombre de bits de tatouage introduits. Dans les situations où il y a désynchronisation entre le codeur et le décodeur, notre méthode permet quand même de détecter des pièces falsifiées. Par rapport à l’état de l’art, notre approche a le taux d’erreur le plus bas pour ce qui est de détecter les pièces falsifiées. Nous avons utilisé le test de l’opinion moyenne (‘MOS’) pour mesurer la qualité des systèmes tatoués. Nous évaluons la méthode de tatouage semi-fragile par le taux d’erreur (nombre de bits erronés divisé par tous les bits soumis) suite à plusieurs attaques. Les résultats confirment la supériorité de notre approche pour la localisation des pièces falsifiées dans les signaux sonores tout en préservant la qualité des signaux. Ensuite nous proposons une nouvelle technique pour la protection des signaux sonores. Cette technique est basée sur la représentation par spikegrammes des signaux sonores et utilise deux dictionnaires (TDA pour Two-Dictionary Approach). Le spikegramme est utilisé pour coder le signal hôte en utilisant un dictionnaire de filtres gammatones. Pour le tatouage, nous utilisons deux dictionnaires différents qui sont sélectionnés en fonction du bit d’entrée à tatouer et du contenu du signal. Notre approche trouve les gammatones appropriés (appelés noyaux de tatouage) sur la base de la valeur du bit à tatouer, et incorpore les bits de tatouage dans la phase des gammatones du tatouage. De plus, il est montré que la TDA est libre d’erreur dans le cas d’aucune situation d’attaque. Il est démontré que la décorrélation des noyaux de tatouage permet la conception d’une méthode de tatouage sonore très robuste. Les expériences ont montré la meilleure robustesse pour la méthode proposée lorsque le signal tatoué est corrompu par une compression MP3 à 32 kbits par seconde avec une charge utile de 56.5 bps par rapport à plusieurs techniques récentes. De plus nous avons étudié la robustesse du tatouage lorsque les nouveaux codec USAC (Unified Audion and Speech Coding) à 24kbps sont utilisés. La charge utile est alors comprise entre 5 et 15 bps. Finalement, nous utilisons les spikegrammes pour proposer trois nouvelles méthodes d’attaques. Nous les comparons aux méthodes récentes d’attaques telles que 32 kbps MP3 et 24 kbps USAC. Ces attaques comprennent l’attaque par PMP, l’attaque par bruit inaudible et l’attaque de remplacement parcimonieuse. Dans le cas de l’attaque par PMP, le signal de tatouage est représenté et resynthétisé avec un spikegramme. Dans le cas de l’attaque par bruit inaudible, celui-ci est généré et ajouté aux coefficients du spikegramme. Dans le cas de l’attaque de remplacement parcimonieuse, dans chaque segment du signal, les caractéristiques spectro-temporelles du signal (les décharges temporelles ;‘time spikes’) se trouvent en utilisant le spikegramme et les spikes temporelles et similaires sont remplacés par une autre. Pour comparer l’efficacité des attaques proposées, nous les comparons au décodeur du tatouage à spectre étendu. Il est démontré que l’attaque par remplacement parcimonieux réduit la corrélation normalisée du décodeur de spectre étendu avec un plus grand facteur par rapport à la situation où le décodeur de spectre étendu est attaqué par la transformation MP3 (32 kbps) et 24 kbps USAC.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Wyner-Ziv (WZ) video coding is a particular case of distributed video coding, the recent video coding paradigm based on the Slepian-Wolf and Wyner-Ziv theorems that exploits the source correlation at the decoder and not at the encoder as in predictive video coding. Although many improvements have been done over the last years, the performance of the state-of-the-art WZ video codecs still did not reach the performance of state-of-the-art predictive video codecs, especially for high and complex motion video content. This is also true in terms of subjective image quality mainly because of a considerable amount of blocking artefacts present in the decoded WZ video frames. This paper proposes an adaptive deblocking filter to improve both the subjective and objective qualities of the WZ frames in a transform domain WZ video codec. The proposed filter is an adaptation of the advanced deblocking filter defined in the H.264/AVC (advanced video coding) standard to a WZ video codec. The results obtained confirm the subjective quality improvement and objective quality gains that can go up to 0.63 dB in the overall for sequences with high motion content when large group of pictures are used.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

A unified architecture for fast and efficient computation of the set of two-dimensional (2-D) transforms adopted by the most recent state-of-the-art digital video standards is presented in this paper. Contrasting to other designs with similar functionality, the presented architecture is supported on a scalable, modular and completely configurable processing structure. This flexible structure not only allows to easily reconfigure the architecture to support different transform kernels, but it also permits its resizing to efficiently support transforms of different orders (e. g. order-4, order-8, order-16 and order-32). Consequently, not only is it highly suitable to realize high-performance multi-standard transform cores, but it also offers highly efficient implementations of specialized processing structures addressing only a reduced subset of transforms that are used by a specific video standard. The experimental results that were obtained by prototyping several configurations of this processing structure in a Xilinx Virtex-7 FPGA show the superior performance and hardware efficiency levels provided by the proposed unified architecture for the implementation of transform cores for the Advanced Video Coding (AVC), Audio Video coding Standard (AVS), VC-1 and High Efficiency Video Coding (HEVC) standards. In addition, such results also demonstrate the ability of this processing structure to realize multi-standard transform cores supporting all the standards mentioned above and that are capable of processing the 8k Ultra High Definition Television (UHDTV) video format (7,680 x 4,320 at 30 fps) in real time.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

In this paper we propose a method for computing JPEG quantization matrices for a given mean square error or PSNR. Then, we employ our method to compute JPEG standard progressive operation mode definition scripts using a quantization approach. Therefore, it is no longer necessary to use a trial and error procedure to obtain a desired PSNR and/or definition script, reducing cost. Firstly, we establish a relationship between a Laplacian source and its uniform quantization error. We apply this model to the coefficients obtained in the discrete cosine transform stage of the JPEG standard. Then, an image may be compressed using the JPEG standard under a global MSE (or PSNR) constraint and a set of local constraints determined by the JPEG standard and visual criteria. Secondly, we study the JPEG standard progressive operation mode from a quantization based approach. A relationship between the measured image quality at a given stage of the coding process and a quantization matrix is found. Thus, the definition script construction problem can be reduced to a quantization problem. Simulations show that our method generates better quantization matrices than the classical method based on scaling the JPEG default quantization matrix. The estimation of PSNR has usually an error smaller than 1 dB. This figure decreases for high PSNR values. Definition scripts may be generated avoiding an excessive number of stages and removing small stages that do not contribute during the decoding process with a noticeable image quality improvement.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Peer reviewed

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Audio of What is the consumer? What is the reader? lecture delivered by Dr Cui Su and Paul Caplan as part of #WSAmacd and #WSAadm remix course

Relevância:

100.00% 100.00%

Publicador:

Resumo:

This work focuses on the study of video compression standard MPEG. To this end, a study was undertaken starting from the basics of digital video, addressing the components necessary for the understanding of the tools used by the video coding standard MPEG. The Motion Picture Experts Group (MPEG) was formed in the late '80s by a group of experts in order to create international standards for encoding and decoding audio and video. This paper will discuss the techniques present in the video compression standard MPEG, as well as its evolution. Will be described in the MPEG-1, MPEG-2, MPEG-4 and H.264 (MPEG-4 Part 10), however, the last two will be presented with more emphasis, because the standards are present in most modern video technologies, as in HDTV broadcasts

Relevância:

100.00% 100.00%

Publicador:

Resumo:

A disseminação do formato mp3 como padrão para arquivos de música, aliada ao crescimento da Internet, fez surgir uma poderosa rede de distribuição de música online. A extrema disponibilidade, diversidade de escolha e facilidade de acesso para quem possui banda larga em seus computadores fez crescer o download de músicas pela Internet, revolucionando o mundo fonográfico. O objetivo geral deste estudo é identificar quais fatores, na perspectiva do consumidor, têm maior influência no download gratuito de música pela Internet através de uma pesquisa exploratória de duas fases. Na primeira fase, qualitativa, foram realizadas entrevistas não estruturadas com usuários e consumidores de redes peer-to-peer de download de música pela Internet e entrevista semi-estruturada com um ex-executivo da indústria fonográfica. Na fase seguinte, quantitativa, foram aplicados questionários estruturados a pessoas que efetuam download de música pela Internet. Adotou-se a regressão linear múltipla como modelo para interpretar os dados colhidos junto à amostra e testar as hipóteses relacionadas as variáveis: acessibilidade ao produto, percepção de injustiça no preço e faixa etária. Os resultados sugerem a não rejeição das três hipóteses estudadas.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

O Brasil é um dos principais atores do novo ambiente econômico mundial, mas para permanecer atrativo, deve fazer progressos significativos no campo das Tecnologias de Informação e da Comunicação (TIC). Assim, um serviço de internet banda larga é primordial para o desenvolvimento de regiões distantes, geralmente de baixa renda e que não têm acesso a instalações de telecomunicações, nem aos serviços de internet banda larga. De fato, a penetração da banda larga no Brasil apresenta situação inferior à média mundial e boa parte da população ainda está excluída do mundo digital por causa das desigualdades sociais e as dimensões continentais do país. Para preencher esta lacuna, o governo federal lançou, em 2010, o Programa Nacional de Banda Larga (PNBL). No entanto, a penetração de banda larga permanece em níveis baixos, mesmo em grandes centros urbanos e com uma distribuição regional desigual, especialmente quando comparados internacionalmente. As concessionárias não estão desempenhando o seu papel de universalização dos serviços de banda larga e as pequenas e médias operadoras podem desempenhar um papel fundamental na promoção desse objetivo. Esse trabalho tem o propósito de investigar se é possível conciliar o modelo vigente de telecomunicações regido pela Lei Geral das Telecomunicações (LGT) com a universalização dos serviços de banda larga, desde que apoiado num mercado competitivo e menos concentrado, com pequenas e médias operadoras. Como verificação, foi feito um trabalho empírico com base em entrevistas semiestruturadas com profissionais de telecomunicações do setor público e privado, assim como uma análise de padrão de codificação dessas entrevistas. Os resultados mostram, porém, que o ambiente regulatório atual pode gerar incentivos à operação de qualidade nas áreas remotas e de baixa renda, mas não de forma generalizada. A universalização requer uma mudança estrutural do modelo e é a política pública federal que deve dar as diretrizes, com objetivos claros. Tampouco há modelo ideal de regulação, mas um entorno regulatório adequado pode ser motor de desenvolvimento do setor. O estabelecimento de compromissos entre os atores também é fundamental, assim como a decisão política na origem, dando suporte para o planejamento e projetos de longo prazo. E é a partir dessa decisão que se desenvolvem as medidas regulatórias de competição e fiscalização que vão garantir a execução do que foi previsto e desenhado.