Counter

Instituto Superior de Engenharia de Lisboa

CESE - Sistemas e Comunicações

 


"MPEG Áudio"

Projecto de Processamento de Sinal e Imagem


Paulo Ricardo nº 17825

Pedro Ribeiro nº 17831

Rui Jesus nº 17881


Índice

Introdução ao MPEG

1.1 O que é o MPEG ?

1.2 Para que serve ?

1.3 Aspectos gerais do MPEG1, MPEG2, MPEG3, Layer1, Layer2 e Layer3.

2. Conceitos Fundamentais do Método de Compressão do MPEG Áudio

2.1 Modelo psico-acústico

2.1.1 Efeito de Máscara ( Masking )

2.1.2 Bandas Criticas ( Critical Bands )

2.1.3 Efeito de Máscara no Tempo

2.2 Codificação em Sub-Bandas ( Sub-Band Coding )

3. Método de Compressão MPEG Áudio

3.1 Descrição do algoritmo

3.2 "MPEG Layers"

3.2.1 MPEG-1 Áudio Layer I

3.2.2 MPEG-1 Áudio Layer II

3.2.3 MPEG-1 Áudio Layer III

3.2.4 Efectividade do MPEG

4. Aplicações

4.1 Como gerar ficheiros MP3

5. Bibliografia

 


1.0 Introdução ao MPEG

 

Actualmente as técnicas de codificação utilizadas em áudio e vídeo exigem grandes custos na computação de dados. A redução de dados em vídeo e áudio é a chave tecnológica para qualquer aplicação ultrapassar a limitada capacidade de armazenamento e transmissão de dados. Nos últimos anos foram atingidos muitos progressos neste campo. Embora existam muitos formatos desenvolvidos para codificação de áudio e vídeo a organização ISO estandardizou internacionalmente o MPEG como sendo uma ferramenta de codificação poderosa para o áudio e o vídeo.

 

1.1 O que é o MPEG?

MPEG significa Motion Pictures Experts Group. É um grupo de pessoas que se reúnem de acordo com a ISO ( Organização Internacional de Standards ) para gerar standards para o vídeo e áudio digital.

Este grupo de pessoas reúne-se quatro vezes por ano durante uma semana. Entre as reuniões é que é feito todo o trabalho de investigação, e nas reuniões é organizado e planeado este trabalho.

Desde 1991, que o algoritmo de compressão de áudio ISO/MPEG tornou-se um standard internacional.

O MPEG Áudio define uma trama de bits comprimida, que implicitamente define também um compressor e descompressor. No entanto as implementações são específicas a um determinado construtor. A vantagem neste caso é que como a trama é standard, todas as implementações são compatíveis.

 

1.2 Para que serve ?

Bem, primeiro de tudo é preciso saber como é que o som é guardado num computador. Os sons são variações de pressão propagando-se no ar. Quando captadas por um microfone e amplificadas por um amplificador tornam-se em variações de tensão. A tensão é então amostrada pelo computador um certo número de vezes por segundo.

Para obter, por exemplo, a qualidade de CD é preciso adquirir 44100 amostras por segundo e cada amostra tem uma resolução de 16 bits. O que equivale em stereo a cerca de 1.4 Mbits ( 44100 x 16 bits x 2 ) para representar apenas um segundo de música em stereo com qualidade CD, o que desde logo realça a necessidade de um algoritmo de compressão que reduza o débito binário.

Usando o codificador de áudio MPEG é possível reduzir a quantidade de dados de um CD Áudio de um factor de aproximadamente 12 vezes, sem perda apreciável de qualidade.

 

1.3 Aspectos gerais do MPEG1, MPEG2, MPEG3, Layer1, Layer2 e Layer3

Esta redução enorme de dados baseia-se no aproveitar das características do sistema auditivo humano. Os nossos ouvidos não são de certeza aparelhos perfeitos para captar sons, por isso esta imperfeição pode ser muito bem aproveitada.

Imagine-se uma orquestra que está a tocar uma peça onde os violinos, as trompetes, e a percussão estão a tocar simultaneamente. Os nossos ouvidos não são capazes de captar todos estes sons simultaneamente porque alguns dos sons estão escondidos pelos sons mais fortes. Isto também porque os nossos ouvidos são mais sensíveis aos sons mais graves do que aos sons mais agudos.

Uma gravação em CD da peça desta orquestra irá conter todos sons dos instrumentos da orquestra. Mas se as partes que não somos capazes de ouvir forem removidas, conseguiremos ouvir na mesma com qualidade CD e conseguiríamos desfazer-nos de bastantes dados desnecessários. Isto é exactamente a maneira como o MPEG funciona de uma forma geral.

O MPEG vai-se aproximando das necessidades crescentes de standards para a multimédia passo a passo. Hoje em dia estão definidos vários patamares:

— MPEG1, que corresponde à codificação de imagem em movimento e respectivos canais de áudio para armazenamento em suportes digitais com débito binário de cerca de 1.5 Mbit/s. Cerca de 1.2 Mbit/s reservados para vídeo, os restantes 0.3 Mbit/s para áudio.

— MPEG2, que corresponde a codificação genérica para imagens em movimento e informação áudio associada.

— MPEG3, originalmente planeado para aplicações HDTV, mas mais tarde incluído no MPEG2.

— MPEG4, que corresponde à codificação de Objectos audiovisuais.

 

A figura seguinte apresenta a forma como é composto o MPEG1 e MPEG2 e como se subdividem as layer’s.

MPEG1 providencia um esquema de compressão para fontes de áudio stereo e mono com qualidade semelhante a CD Áudio. A parte do algoritmo correspondente ao áudio está dividida em três níveis ( layers ).

Layer I é a mais simples, oferecendo a menor compressão, é usada nos sistemas de áudio de consumo. A sua vantagem principal é um baixo custo de implementação.

Layer II oferece maior compressão e encontramo-la em numerosas aplicações de consumo e profissionais.

Layer III pode ser encontrada sobre RDIS ( Rede Digital Integrada de Serviços) e é aquela que oferece a maior compressão, tendo no entanto um maior custo de uma maior complexidade de codificação e descodificação.

A ideia principal é que uma aplicação usando MPEG1 pode usar a layer que oferece o melhor compromisso entre a necessidade de computação e a performance de compressão. O áudio pode ser codificado em qualquer uma das layer’s.

MPEG1 áudio destina-se a transformar sinais áudio PCM amostrados a uma frequência de amostragem de 32, 44.1 ou 48 KHz, e codificá-los a um debito binário de 32 a 192 Kbps por canal de áudio ( dependendo da layer ).

 

MPEG2 foi desenvolvido baseado nos princípios do MPEG1 e estende esses princípios por forma a permitir maior qualidade e ainda maior eficiência. O objectivo principal do MPEG2 era o de providenciar um standard para satisfazer os requisitos das redes digitais de radiodifusão planeadas.

Alem dos dois canais que o MPEG1 suportava, foi adicionado suporte para múltiplos canais. O MPEG2 tem a possibilidade de suportar até cinco canais áudio (esquerdo, direito, centro e dois canais de surround ou "circundantes") mais um canal de graves, ou em extensão sete canais mais um canal de graves. Significa isto que poderemos em casa ter a mesma experiência que em algumas salas de cinema.

MPEG2 tem ainda extra funções. Tem uma característica "multilíngue", o que significa que um filme pode ser transmitido com a fala em diferentes linguagens, podendo esta ser escolhida posteriormente.

 

2. Conceitos Fundamentais do Método de Compressão do MPEG Áudio

Para se efectuar compressão de áudio basicamente existem duas alternativas. A primeira consiste em reduzir a frequência de amostragem e a segunda em reduzir a resolução da amostra para uma valor inferior. Se pretendermos qualidade não podemos fazer grandes alterações na frequência de amostragem, pois o sistema auditivo humano só houve sons entre 20Hz e os 20KHz. De acordo com o teorema de Nyquist, temos de fazer a amostragem a uma frequência de pelo menos duas vezes a maior frequência que queremos reproduzir. Tendo em conta que os filtros não são ideais, uma frequência de 44.1KHz é o mínimo razoável. Ou tentamos provar que o teorema de Nyquist está errado ou vamos trabalhar em tentar reduzir a resolução da amostra. O comité do MPEG optou pela segunda hipótese.

A razão da utilização dos 16 bits por amostra destina-se à obtenção de uma boa relação sinal ruído. O ruído a que nos estamos a referir é o ruído de quantificação proveniente do processo de digitalização do sinal. Por cada bit que se adiciona à resolução da amostra aumentamos a relação sinal/ruído de 6dB. Para o nosso ouvido 6dB correspondem a aumentar para o dobro o nível do sinal. Com o sistema CD Áudio consegue-se uma relação sinal ruído a rondar os 90 dB, que está dentro da gama dinâmica do sistema auditivo humano. Isto é, não ouvimos nenhum ruído nem do próprio sistema reprodutor, embora existam pessoas que defendem a existência desse ruído mas de momento não nos vamos preocupar com isso.

Se utilizarmos uma resolução de 8 bits por amostra vamos obter um ruído de fundo que se vai fazer notar. Este ruído pode ser facilmente ouvido em momentos de silêncio da música ou entre palavras. Mas quando o nível do som é elevado não ouvimos nenhum ruído. Isto é o chamado efeito de máscara e é a chave para o método de codificação utilizado no MPEG Áudio. O efeito de máscara pertence a uma ciência chamada psico-acústica que estuda a forma como o ouvido humano entende o som.

 

2.1 Modelo Psico-Acústico

Primeiro começamos por apresentar alguns aspectos a ter em conta acerca do ouvido e da voz humana:

A "largura de Banda" do ouvido situa-se entre os 20Hz e os 20000Hz, sendo mais sensível dos 2 a 4KHz.

A gama dinâmica em termos de nível do som (desde os sons mais baixos até aos mais fortes) é de 96 dB.

A "largura de Banda" da voz está entre os 500Hz e os 2KHz.

As baixas frequências são as vogais e os sons graves.

As altas frequências são as consoantes e os sons agudos.

 

O gráfico seguinte mostra a sensibilidade do ouvido humano. Coloca-se uma pessoa num quarto em silêncio e aumenta-se o nível de um Tom a 1KHz até que seja minimamente ouvido. Varia-se a frequência e obtemos o seguinte resultado:

Confirma-se assim que o ouvido humano é mais sensível entre os 2 e os 4KHz.

 

2.1.1 Efeito de Máscara ( Masking )

Se tivermos um sinal muito forte com uma frequência de 1000Hz e outro a 1100Hz com um nível de 18dB abaixo do primeiro, este último sinal não vai ser ouvido pois vai ser completamente mascarado pelo primeiro. De facto nenhum som mais fraco perto do som mais forte (à frequência de 1000Hz) será ouvido pois serão todos mascarados. Se introduzirmos outro sinal a 2000Hz, também 18dB abaixo do primeiro sinal (a 1000Hz) já o conseguiremos ouvir. Para que este possa ficar mascarado é necessário que esteja 45dB abaixo do primeiro. Assim quanto mais longe estivermos de um sinal menor será o efeito de máscara.

O efeito de máscara permite aumentar o ruído de fundo à volta de um som forte porque o ruído será mascarado de qualquer forma. Aumentar o ruído de fundo, é o mesmo que reduzir o número de bits utilizados por amostra. Usar menos bits significa comprimir.

A figura seguinte mostra um gráfico de uma experiência onde se pode verificar o Efeito de Máscara. Foi colocado um tom a uma frequência de 1KHz a um nível fixo de 60dB. E um outro tom a uma potência diferente a uma frequência de 1,1KHz, aumentou-se este segundo tom até que se conseguisse ouvir os dois. O resultado está na figura seguinte:

Pode-se verificar qual o efeito de máscara que o tom a 1 KHz provoca sobre todas as frequências que estejam dentro da sua banda de mascaramento.

Repetindo o processo anterior para diferentes tons de mascaramento temos a figura seguinte:

Verifica-se pela observação deste gráfico que à medida que aumenta a frequência do tom de mascaramento, aumenta a largura da banda de mascaramento, que a seguir explicaremos.

 

2.1.2 Bandas Criticas ( Critical Bands )

A largura de banda das curvas dos sinais que efectuam o efeito de máscara não é proporcional à frequência dos sinais. É cerca de 100Hz para frequências abaixo dos 500Hz e sobe muito acima dos 100Hz para sinais a frequências acima dos 500Hz. Esta largura de banda é a chamada dimensão da Banda Critica.

Para medir a dimensão da Banda Critica apareceu uma nova unidade chamada Bark (de Barkhausen).

1 Bark = dimensão de um banda critica.

Para frequências<500Hz temos:

Para frequências>500Hz temos:

 

Na figura seguinte mostra-se um gráfico com vários limiares de mascaramento em que um dos eixos tem a escala em Bark:

Como se pode observar utilizando a unidade Bark permite-nos definir com maior exactidão os limites das bandas de mascaramento.

 

2.1.3 Efeito de Máscara no Tempo

Produzindo um som a uma frequência de 1KHz (mask tone) com uma potência de 60dB, e um outro som a 1,1KHz (test tone) a 40dB. Não é possível ouvir o segundo som porque está mascarado pelo primeiro. Se terminarmos o primeiro som, e depois de um pequeno atraso terminarmos o segundo, podemos verificar o tempo que é necessário para ouvirmos o segundo som. Na figura seguinte mostra-se um gráfico que ilustra esta experiência onde se pode verificar que o atraso é de 5ms:

Realizando a experiência anterior mas para vários sons (test tone) e com um tom de mascaramento (masking tone) constante. Observamos na figura seguinte o efeito total de máscara:

Neste gráfico verificamos que uma frequência bastante afastada do tom de mascaramento, mas na mesma situação temporal que outra de menor frequência já é audível.

 

2.2 Codificação em Sub-Bandas ( Sub-Band Coding )

A codificação em Sub-Bandas depende do efeito de máscara que falámos anteriormente. A ideia base do SBC (Sub-Band Coding) consiste em eliminar a informação que diz respeito às frequências mascaradas. O resultado não é o mesmo que o sinal original, mas se a computação for bem feita, o ouvido humano não perceberá a diferença.

A figura seguinte mostra a estrutura de um codificador SBC (Sub-Band Coding) figura (a) e um descodificador na figura (b).

O primeiro bloco de mapeamento tempo/frequência (time-frequency mapping) (realizado através de um Banco de Filtros ou de uma FFT) serve para decompor o sinal de entrada em sub-bandas. O modelo psico-acústico analisa estas sub-bandas como se fosse o sinal original e determina os limiares de mascaramento (masking thresholds) usando a informação psico-acústica. Usando estes, cada uma das amostras das sub-bandas é quantificada e codificada de forma a manter o ruído de quantificação abaixo do limiar de mascaramento.

O último bloco destina-se a agrupar todas estas amostras quantificadas em tramas, para que o descodificador possa reconstruir o sinal inicial sem se perder.

O descodificador é mais simples, uma vez que não é preciso o modelo psico-acústico. As tramas são interpretadas, as amostras das sub-bandas são descodificadas, e o bloco do mapeamento tempo/frequência transforma novamente estas amostras em sinal áudio.

 

3. Método de Compressão MPEG Áudio

Depois de termos, no capítulo anterior, definido alguns conceitos teóricos utilizados no método de compressão MPEG áudio, e depois de apresentado o modelo em que este se baseia, vamos de seguida explicar como se desenvolve o algoritmo de compressão MPEG.

O MPEG áudio, no fundo, consiste num grupo de três diferentes esquemas de codificação em sub-bandas (SBC), chamadas layers’s.

Cada layer é um codificador SBC com os seus próprios componentes que o caracterizam como o bloco de mapeamento tempo/frequência, o modelo psico-acústico e quantificador, como foi descrito no capítulo anterior o codificador SBC.

A Layer I é a mais simples, mas aquela que é mais pobre em termos de compressão. A Layer III é a mais complicada e também a de maior exigência em termos de computação, mas permite-nos obter a melhor compressão.

 

3.1 Descrição do algoritmo

Antes de apresentarmos a funcionalidade de cada uma das layer’s vamos apresentar os vários passos do algoritmo MPEG em termos gerais:

Usar filtros de convolução para dividir o sinal áudio em bandas de frequência que se aproximem das 32 bandas críticas (filtragem sub-banda)

Determinar a quantidade de mascaramento de cada banda causada pelas bandas adjacentes, usando os resultados do modelo (modelo psico-acústico)

Se o sinal numa banda é inferior ao limiar de mascaramento não codificar.

Caso contrário, determinar o número de bits necessários para representar o coeficiente, de tal modo que o ruído introduzido na quantificação esteja abaixo do efeito de mascaramento (cada bit de quantificação representa um aumento de 6dB no ruído).

Formatar os bits

A figura seguinte representa estes passos anteriores na forma de blocos.

 

Apresentamos de seguida um exemplo ilustrativo :

Depois da análise, os primeiros níveis de 16 das 32 bandas são hipoteticamente

Banda 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Nível (dB) 0 8 12 10 6 2 10 60 35 20 15 2 3 5 3 1

Como o nível da oitava banda é de 60dB, tal resulta num mascaramento de 12dB na sétima banda, 15dB na nona.

O nível na sétima banda e de 10dB ( <12dB ), ignora-la.

O nível na nona banda e de 35dB ( >15dB ), teremos de a enviar, para tal recorreremos a 2bit ( =12dB ) de erro que quantificação.

3.2 "MPEG Layers"

Neste ponto definimos cada uma das três áudio layers em pormenor:

 

3.2.1 MPEG-1 Áudio Layer I

Mapeamento tempo-frequência é um banco de filtros polifásicos com 32 sub-bandas. Os filtros polifásicos combinam a baixa complexidade computacional com o desenho e opções de implementação flexíveis. No entanto as sub-bandas são igualmente espaçadas em frequência (ao contrário das bandas criticas).

O modelo psico-acústico usa uma FFT de 512 pontos de modo a obter uma informação espectral detalhada do sinal. A saída da FFT é usada para determinar as máscaras tonais (sinusoidais) e mono tonais (ruído) do sinal. Cada máscara produz um limiar de mascaramento dependente da sua frequência, intensidade e tonalidade. Para cada sub-banda, os limiares de mascaramento são combinados de modo a formar um limiar global de mascaramento. Este limiar é comparado com o nível máximo de sinal para cada sub-banda, produzindo uma relação sinal/máscara (SMR) que é a entrada do quantificador.

O quantificador/codificador primeiro examina as amostras de cada sub-banda, procura o valor máximo absoluto destes e quantifica a 6 bit. Tal é chamado de factor de escala para a sub-banda. Então determina a alocação de bits para cada sub-banda de modo a minimizar a relação ruído/mascara, respeitando os bits alocados para cada sub-banda. (É possível que em bandas muito mascaradas se acabe em 0 bit, de modo que nenhumas amostras são codificadas). Finalmente, as amostras da sub-banda são linearmente quantificadas para a alocação da sub-banda.

O empacotador da trama tem um trabalho relativamente simples. Cada trama começa com uma informação de cabeçalho usadas para sincronização e contabilização, e um código cíclico (CRC) usado para detecção e correcção de erros. Cada uma das 32 sub-bandas usa 4 bit para descrever a alocação de bits e 6 bits para o factor de escala. Os bits restantes da trama são usados para amostras da sub-banda, com uma cauda adicional de informação extra.

A figura seguinte ilustra a estrutura da trama.

A Layer I processa o sinal de entrada em tramas de 384 amostras PCM. A 48 KHz, cada trama representa 8 ms de som. A especificação MPEG não especifica o débito binário codificado, permitindo flexibilidade na implementação. A qualidade mais alta é conseguida com um débito binário de 384 Kbps. As aplicações típicas da Layer I incluem a gravação digital de fitas (Ex. Philips DCC) e de discos rígidos ou magneto-opticos (Sony MiniDisk) que podem suportar este débito binário tão alto.

O débito binário pode variar entre 32 Kbps e 448 Kbps.

 

3.2.2 MPEG-1 Áudio Layer II

Mapeamento tempo-frequência é igual ao da Layer I. Usa um banco de filtros polifásicos com 32 sub-bandas.

O modelo psico-acústico é similar ao usado na Layer I mas usa uma FFT de 1024 pontos para uma maior resolução de frequência. Usa o mesmo procedimento que a Layer I para produzir as relações sinal/mascara para cada uma das 32 sub-bandas.

O quantificador/codificador é também similar ao usado na Layer I, gerando os factores de escala de 6 bit para cada sub-banda. No entanto as tramas Layer II são três vezes mais longas que as tramas Layer I, assim, a Layer II permite a cada banda uma sequência de três factores de escala sucessivos, e o codificador usa um dois ou três, dependendo do quanto eles diferem uns dos outros. Isto resulta em média num factor de 2 na redução do débito binário para os factores de escala quando comparados com os da Layer I. As alocações dos bits são calculadas de uma maneira similar a da Layer I.

O empacotador da trama usa uma estrutura de cabeçalho e CRC similar a da Layer I. O número de bits usados para descrever as alocações de bits varia com a sub-banda; 4 bits para as bandas baixas, 3 bits para as bandas intermédias e 2 bits para as bandas altas (seguindo as bandas críticas). Os factores de escala (um, dois ou três dependendo dos dados) são codificados em conjunto com um código de 2 bits que descreve que combinação de factores de escala se trata. As amostras da sub-banda são quantificadas de acordo com a alocação de bits, sendo então combinadas em grupos de três (chamados grânulos). Cada grânulo é codificado com uma palavra de código. Isto permite que a Layer II capture muito mais redundância do sinal que a Layer I.

A figura seguinte descreve a estrutura da trama.

A Layer II processa o sinal de entrada em tramas de 1152 amostras PCM. A 48 KHz, cada trama contém 24 ms de som. A mais alta qualidade é obtida com um débito binário de 256 Kbps, mas a qualidade é usualmente boa até aos 64 Kbps. Aplicações típicas da Layer II incluem radiodifusão (Digital Áudio Broadcasting - DAB), televisão, gravação doméstica e profissional e multimédia.

O débito binário pode variar entre 32 Kbps e 384 Kbps.

 

3.2.3 MPEG-1 Áudio Layer III

Mapeamento tempo-frequência usa bancos de filtros polifásicos para a divisão nas 32 sub-bandas principais, seguida de uma filtragem usando MDCT para subdivisão em 18 sub-bandas (por cada uma das 32 sub-bandas principais), resultando em 576 sub-bandas, originando um cálculo mais preciso dos limiares de mascaramento.

O modelo psico-acústico com predição polinomial.

O quantificador/codificador sofisticado permitindo tramas de formato variável, a redução de redundância e acompanhada por um processo de codificação de Huffman de modo a tirar partido das propriedades estatísticas do sinal de saída do estágio psico-acústico.

O empacotador da trama inclui uma reserva de bits que permite que mais bits sejam usados em porções do sinal que deles necessitem, tornando-se assim num formato (Variable Bit Rate - VBR).

A Layer III tem como alvo aplicações onde uma necessidade critica de baixos débitos binários justifique o sofisticado sistema de codificação, exigente de grande poder computacional. Permite resultados de alta qualidade a débitos binários tão baixos como 64 Kbps por canal. Aplicações típicas desta tecnologia são telecomunicações (dois canais RDIS (cada canal B = 64 Kbps) podem transportar áudio em tempo real com qualidade bastante aproximada a de um CD Áudio) e áudio profissional como música publicada comercialmente.

O débito binário pode variar entre 32 Kbps e 320 Kbps.

O codificador stereo Layer III que fornece a qualidade de referência ISO em tempo real é actualmente implementado fazendo recurso a um par de DSP32C e um par de DSP56002.

 

3.2.4 Efectividade do MPEG Áudio

Layer Débito Binário Final Relação de Compressão Qualidade a 64 Kbit Qualidade a 128 Kbit Atraso mínimo teórico Complexidade do Codificador Complexidade do decodificador
Layer I

128 Kbit

4:1

-

-

19 ms

1.5 a 3

1.0

Layer II

128 Kbit

6:1

2.1 a 2.6

4+

35 ms

2 a 4

1.25

Layer III

64 Kbit

12:1

3.6 a 3.8

4+

59 ms

> 7.5

2.5

5 = perfeito, 4 = mal se nota, 3 = bastante suportável, 2 = pouco suportável, 1 = insuportável

O atraso verificado na prática e cerca de 3 vezes superior ao teórico.

A complexidade do descodificador da Layer I e tomado como referência 1.0

4. Aplicações

Uma solução como o MPEG Layer III é muito útil para um largo número de aplicações. Praticamente qualquer sistema que tenha uma capacidade de canal limitada beneficia no uso desta solução. Esta técnica abrange pelo menos três grandes áreas:

transmissão;

radiodifusão e teledifusão;

Armazenamento de Dados.

No caso da transmissão temos como exemplo as rádios. Um programa de rádio que precise de fazer uma entrevista com uma celebridade ou fazer uma cobertura de um evento desportivo ou concerto de música, necessita de ter uma ligação entre o local onde está a rádio e o evento, para poder transportar o sinal de áudio de um sitio para o outro. Pode utilizar uma ligação em RDIS e usando um codificador MPEG para garantir um transporte de alta qualidade.

No caso da radiodifusão, muitas vezes é utilizada a compressão de áudio para reduzir as tramas de dados e conseguir assim transmitir mais áudio utilizando o mesmo canal.

No caso do armazenamento de dados apresentamos de seguida um exemplo de como a compressão de ficheiros de música pode permitir guardar num único CDROM a musica existente em cerca de 12 CD Áudio sem apreciável perda de qualidade.

 

4.1 Como gerar ficheiros MP3

Neste ponto apresentamos um teste que fizemos para gerar ficheiros MP3.

MP3 é a extensão para os ficheiros comprimidos através do MPEG Áudio Layer III. Se quisermos por exemplo comprimir uma música de um CD com 5 minutos (sabendo que 1.4Mbits corresponde a um segundo sem compressão), primeiro o que fizemos foi usar uma aplicação ( CDDA ) que converteu a música do CD para um ficheiro com extensão WAV. Depois utilizando o codificador MPEG1 Layer3 ( l3enc ) convertemos este ficheiro num ficheiro com extensão MP3.

Finalmente utilizamos um leitor ( WINPLAY3 ) e pudemos verificar que comparando com o original a qualidade aproxima-se bastante à qualidade CD.

 

Como demonstração foram convertidas duas faixas CD Áudio para vários débitos binários no formato Layer III de seguida são apresentados os resultados:

Faixa

Tempo

Dimensão (stereo)

(s)

WAV

MP3 256Kbps

Redução

MP3 128Kbps

Redução

MP3 64Kbps

Redução

Carmina Burana - Orff

167

29.635.244

5.377.462

5,5

2.688.731

11,0

1.344.574

22,0

Return Of Jedi - Williams

206

36.343.148

6.594.560

5,5

3.297.280

11,0

1.648.848

22,0

"Batch File" Usada na geração destes ficheiros:

cdda172c.exe /t 20 /f cburana.WAV /overlap 8 /m /w /o /msc j /dl

cdda172c.exe /t 13 /f jedi.WAV /overlap 8 /m /w /o /msc j /dl

l3enc.exe -br 256000 -hq -crc cburana.WAV cbura256.mp3

l3enc.exe -br 128000 -hq -crc cburana.WAV cbura128.mp3

l3enc.exe -br 64000 -hq -crc cburana.WAV cbura64.mp3

l3enc.exe -br 256000 -hq -crc jedi.WAV jedi256.mp3

l3enc.exe -br 128000 -hq -crc jedi.WAV jedi128.mp3

l3enc.exe -br 64000 -hq -crc jedi.WAV jedi64.mp3

 

Bibliografia

http://fas.sfu.ca/cs/undergrad/CourseMaterials/CMPT479/material/notes/Chap4/Chap4.3/Chap4.3.html - 4.3 Áudio Compression

http://www.otolith.com/pub/u/howitt/sbc.tutorial.html - SubBand Coding

http://www.cs.tut.fi/~ypsilon/80545/CodingOfAS.html - Coding Of Áudio Signals

http://ds.dial.pipex.com/beast/mp3/faq.htm - FAQ

http://www.mpeg-empowered.com/mp_gma01.htm - MPEG empowered

http://www.iis.fhg.de/departs/amm/layer3/l3rt/index.html - Using ISO/MPEG Áudio

 

Referencias Técnicas da AES (Áudio Engineering Society):

K. Brandenburg, G. Stoll, ...: "The ISO/MPEG-Áudio Codec: A Generic Standard for Coding of High Quality Digital Áudio", 92nd AES, Vienna 1992, pp.3336

E. Eberlein, H. Popp, ...: "Layer-3, a Flexible Coding Standard", 94th AES, Berlin 93, pp.3493

K. Brandenburg, G. Zimmer, ...: "Variable Data-Rate Recording on a PC Using MPEG-Áudio Layer-3", 95th AES, New York 93

B. Grill, J. Herre,... : "Improved MPEG-2 Áudio Multi-Channel Encoding", 96th AES, Amsterdam 94