Logo PUCPR

IMPLEMENTAÇÃO DE TÉCNICAS DE AUTO-APRENDIZADO COMO CONTRAMEDIDAS PARA ATAQUES DE REPRODUÇÃO

SANTOS, Vitor Hugo Nunes dos ¹; HOCHULI, Andre Gustavo ²
Curso do(a) Estudante: Bacharelado em Cibersegurança – Escola Politécnica – Câmpus Curitiba
Curso do(a) Orientador(a): Ciência da Computação – Escola Politécnica – Câmpus Curitiba

INTRODUÇÃO: Com o crescente uso da voz como vetor de autenticação em dispositivos IoT, assistentes virtuais e sistemas de segurança, aumentam os riscos de ataques por reprodução (replay attacks), nos quais gravações legítimas são reutilizadas para burlar sistemas. Frente a isso, soluções com inteligência artificial (IA), como CNNs e redes BLSTM, têm sido aplicadas à detecção de áudios falsificados, com bons resultados, porém dependentes de grandes volumes de dados rotulados. Como alternativa, o presente trabalho propõe o uso de autoaprendizado (self-taught learning – STL) com autoencoders convolucionais, permitindo a extração de características em modo não supervisionado e posterior adaptação a tarefas de classificação supervisionada. A abordagem é explorada como contramedida promissora à detecção de spoofing.O estudo utiliza como principal fonte o dataset ASVSpoof2019, que simula condições realistas de ataques de reprodução, e também adota estratégias de transferência de aprendizado com domínios visuais distintos (como o dataset Kyoto) e similares (ASVSpoof2017). O foco está em avaliar a efetividade dos autoencoders como extratores de características robustas e transferíveis, capazes de aumentar a acurácia na identificação de áudios falsificados, mesmo sob restrições de dados anotados e desequilíbrio entre classes. OBJETIVOS: O objetivo geral é desenvolver e testar uma arquitetura baseada em STL capaz de classificar mensagens de áudio como legítimas ou falsificadas no ASVSpoof2019. Especificamente, o trabalho visa: (i) analisar criticamente abordagens de STL; (ii) construir diferentes pipelines baseados em autoencoders; (iii) treinar classificadores com e sem transferência de aprendizado; (iv) comparar os resultados com o estado da arte. MATERIAIS E MÉTODO: Utilizando hardware GPU, o experimento foi conduzido em ambiente Linux com Python, TensorFlow e librosa. Os áudios foram convertidos em espectrogramas para alimentar redes convolucionais. Foram implementadas dez arquiteturas distintas de autoencoders, com codificação e reconstrução das entradas (modo não supervisionado). Após treinamento, os decoders foram substituídos por camadas densas, transformando os autoencoders em classificadores supervisionados. Os dados foram divididos em três estratégias: sem pesos pré-treinados, com pesos do dataset Kyoto (visual não correlato), e com pesos do ASVSpoof2017 (domínio similar). RESULTADOS: Os modelos atingiram acurácias superiores a 0.90 em diversos cenários. Classificadores treinados com pesos do Kyoto e do ASVSpoof2017, seguidos de fine-tuning, demonstraram melhor desempenho que aqueles treinados do zero, indicando que a transferência de aprendizado potencializa a generalização. A arquitetura com menor número de parâmetros apresentou acurácia de 0.93 com pesos do Kyoto, destacando a eficiência do modelo. Entretanto, observou-se viés nos dados (predominância de áudios falsificados) e possível perda de informação devido à baixa resolução dos espectrogramas (64×64), que podem ter afetado a sensibilidade na detecção de áudios legítimos. CONSIDERAÇÕES FINAIS: O trabalho demonstra que o uso de STL com autoencoders é uma abordagem viável e eficaz para detecção de replay attacks. O pré-treinamento seguido de ajuste fino proporciona ganhos em acurácia, mesmo com domínios distintos. A pesquisa cumpre seus objetivos ao propor uma arquitetura funcional, identificar limitações do pipeline e sugerir direções para avanços futuros. Recomenda-se testar resoluções mais altas, balanceamento das classes e estratégias adicionais de regularização e explicabilidade para aumentar a robustez do sistema.

PALAVRAS-CHAVE: Self-Taught Learning; Audio Speaker Verification; Replay Attack.

APRESENTAÇÃO EM VÍDEO

Legendas:
  1. Estudante
  2. Orientador
  3. Colaborador
Esta pesquisa foi desenvolvida com bolsa da Fundação Araucária e da Superintendência Geral de Ciência, Tecnologia e Ensino Superior, no programa PIBIC.

QUERO VOTAR NESTE TRABALHO

Para validarmos seu voto, por favor, preencha os campos abaixo. Alertamos que votos duplicados ou com CPF inválido não serão considerados.