O Tech Day Inovabra apresentou uma discussão que vem ganhando espaço no universo da tecnologia: a aplicação da inteligência artificial generativa na voz e na fala. O pesquisador Mário Uliani Neto, líder técnico das soluções de Interação Inteligente do CPQD em soluções de Interação Inteligente, mostrou como a ciência de fala evoluiu de forma surpreendente e já permite criar experiências hiperpersonalizadas.
Segundo Uliani, a IA aplicada à fala sempre esteve presente, mas o boom dos LLMs (Large Language Models) ampliou possibilidades. Hoje, a inteligência generativa não se limita ao texto: modelos podem lidar com tokens acústicos, texto e até combinações bimodais, permitindo aplicações em fala, imagem e multimídia.
Na prática, a tecnologia permite criar vozes sintéticas naturais e expressivas, próximas da fala humana, ajustando sotaques, gênero, idade e emoção. A síntese de fala neural do CPQD gera áudio a partir de texto, enquanto a conversão de voz transforma uma gravação existente em outra voz, mantendo todas as características expressivas.
Combinadas, essas técnicas permitem hiperpersonalização em escala, com vozes adaptadas a diferentes públicos e canais de comunicação, como WhatsApp, Instagram ou centrais telefônicas. Uliani falou sobre as demandas do mercado que “em muitos casos, em muitas aplicações, não querem que o cliente identifique se ele tá falando com um sistema totalmente automatizado ou com humano”.
Aprendizado rápido e personalização multilíngue
Um exemplo prático apresentado foi a reconstrução da voz do pai (falecido em 1986) do jogador Zico a partir de apenas 34 segundos de áudio, usada em uma campanha publicitária. A tecnologia atual permite que 5 ou 10 minutos de fala de uma pessoa sejam suficientes para reprodução das características dessa fala no modelo.
O zero-shot learning não exige treinamento extensivo, basta fornecer uma amostra curta de voz para que o sistema aprenda as características desejadas e gere fala em múltiplos idiomas ou estilos expressivos. Adicionado a isso, é possível variar sotaques regionais, garantindo identidade e conexão com o público local.
A tecnologia também prioriza segurança e ética. Os áudios gerados incluem marca d’água invisível, permitindo rastrear e autenticar cada gravação. Isso protege direitos autorais e evita o uso indevido em deep fakes. Segundo Uliani, a base de dados em português utilizada pelo CPQD reduz riscos de alucinação de modelo: “trabalhar hoje com guardrails e pensar nos seus problemas e como evitá-los é muito importante, pois todo modelo de IA pode alucinar”.






Sem comentários registrados