Processamento Digital de Áudio
Da captura analógica à reprodução digital: os fundamentos matemáticos do áudio
Fundamentos do Áudio Digital
O sinal de áudio é uma representação da pressão da onda sonora no tímpano humano. Para que possamos processar e transmitir áudio digitalmente, precisamos converter sinais analógicos contínuos em dados digitais discretos.
A sensibilidade do ouvido humano varia com a frequência, sendo mais sensível às frequências médias (1-4 kHz). A faixa audível considerada é de 20 Hz a 20 kHz.
Frequência
20 Hz - 20 kHz
Determina a altura do som (grave/agudo)
Amplitude
0 - 120 dB SPL
Determina o volume do som
Timbre
Harmônicos
Característica única de cada fonte sonora
Processo de Digitalização
A digitalização de áudio envolve três etapas principais: Amostragem, Quantização e Codificação.
Fluxo de Digitalização
Sinal Analógico
Amostragem
Quantização
Codificação
Teorema de Nyquist-Shannon
“Um sinal limitado em frequência pode ser perfeitamente representado por suas amostras, desde que estas sejam tomadas a uma taxa maior ou igual a duas vezes a frequência máxima do sinal.”
Taxa de Amostragem ≥ 2 × Frequência Máxima
Formatos de Áudio
Sem Compressão
WAV
Formato sem perdas, alta qualidade
• Qualidade: Máxima
• Uso: Estúdios, produção
FLAC
Compressão sem perdas
• Qualidade: Máxima
• Uso: Audiofilia, arquivamento
Com Compressão
MP3
MPEG-1 Layer 3, lossy
• Qualidade: Boa
• Uso: Streaming, portátil
AAC
Advanced Audio Coding
• Qualidade: Muito boa
• Uso: iTunes, YouTube, streaming
Codificação Multibanda
O ouvido humano não é uniformemente sensível a todas as frequências. Os codificadores modernos exploram essa característica, alocando mais bits para frequências mais perceptíveis e menos bits para frequências menos importantes.
Graves
20-250 Hz
Menos sensível
Médios
250-4000 Hz
Mais sensível
Agudos
4k-20k Hz
Sensibilidade variável
Aplicações Modernas
Streaming de Música
Plataformas como Spotify e Apple Music usam codificação adaptativa, ajustando a qualidade baseada na velocidade da conexão.
• Normal: 160 kbps
• Alta: 320 kbps
Jogos
Áudio 3D posicional, múltiplas camadas de som, compressão em tempo real para economizar memória.
• Audio espacial
• Compressão adaptativa
Videoconferência
Cancelamento de ruído, compressão de voz, baixa latência para comunicação em tempo real.
• Latência: <20ms
• Cancelamento de eco
Assistentes de Voz
Reconhecimento de padrões, processamento de linguagem natural, síntese de voz em tempo real.
• Noise reduction
• Speech-to-text
Recursos e Referências
Experimente na Prática
Teste nossa ferramenta interativa de Aliasing.