Robô da Universidade de Columbia move lábios em sincronia com fala e canto

Investigadores da Universidade de Columbia desenvolveram um robô humanoide capaz de sincronizar o movimento dos lábios com palavras e músicas, aproximando a expressão facial mecânica do comportamento humano. O protótipo, apresentado pelo engenheiro Yuhang Hu e equipa, utiliza 26 micromotores sob uma pele flexível de silicone e recorre a aprendizagem observacional para relacionar áudio com gestos faciais.

Aprendizagem pelo espelho e vídeos online

O processo de treino foi dividido em duas fases. Na primeira, o robô passou várias horas diante de um espelho, executando milhares de contrações aleatórias dos motores faciais. Esse exercício permitiu que o sistema de inteligência artificial interno criasse um mapa entre cada movimento executado e a deformação resultante na superfície facial, estratégia descrita pelos autores como modelo “visão-ação”.

Concluída essa etapa, a máquina foi exposta a horas de gravações do YouTube que mostravam pessoas falando e cantando em diferentes idiomas. Ao comparar os padrões labiais humanos com o áudio correspondente, o algoritmo aprendeu a prever a posição exata dos lábios para cada fonema. Com os dois conjuntos de dados combinados, o robô tornou-se capaz de converter uma sequência sonora em movimentos faciais praticamente em tempo real.

Estrutura mecânica e desafios técnicos

O rosto sintético incorpora 26 atuadores posicionados sob uma camada de elastômero, solução que confere graus de liberdade incomuns em plataformas robóticas tradicionais. Robôs convencionais costumam exibir expressões rígidas porque dependem de poucos motores e de programação pré-definida. No modelo de Columbia, cada motor trabalha de forma coordenada, permitindo ajustes finos na abertura da boca, formato dos lábios e tensão da pele.

Apesar do avanço, a sincronização ainda apresenta limitações em sons que exigem compressão labial, como as consoantes “B” e “P”, ou em vogais que pedem arredondamento dos lábios, caso do “U” e do “W”. Segundo a professora Hod Lipson, que supervisiona o projeto, a precisão tende a aumentar à medida que o sistema continua a treinar com novos exemplos.

Importância da expressão facial na interação homem-máquina

Estudos citados pelo grupo indicam que até metade da atenção numa conversa presencial concentra-se no movimento dos lábios do interlocutor. A falta de expressividade costuma quebrar a sensação de conexão emocional com robôs e assistentes virtuais. Ao alinhar a fala sintetizada com gestos faciais realistas, o modelo de Columbia pode fortalecer a empatia do utilizador e ampliar aplicações em atendimento, educação ou entretenimento.

Robô da Universidade de Columbia move lábios em sincronia com fala e canto - Tecnologia Inovação Notícias

Imagem: Tecnologia Inovação Notícias

Os autores destacam ainda que a compatibilidade com sistemas de linguagem natural, como ChatGPT ou Gemini, pode criar experiências mais imersivas. Quando um robô é capaz de responder verbalmente e, simultaneamente, articular a boca de modo coerente, a percepção de fluência e naturalidade aumenta.

Próximos passos e considerações éticas

O projeto terá continuidade em duas frentes. A primeira busca reduzir o ruído dos motores para que o som mecânico não interfira na voz emitida pelos alto-falantes. A segunda pretende ampliar o repertório de expressões, incluindo movimentos de bochechas e sobrancelhas, aproximando-se do conjunto de 70 a 100 músculos presentes na face humana.

Os investigadores reconhecem a necessidade de avaliação ética cuidadosa. Tecnologias capazes de imitar o rosto humano podem ser usadas para criar representações convincentes, o que levanta questões sobre consentimento, privacidade e potenciais usos indevidos. A equipa defende progresso gradual e transparente, com regulamentação que garanta benefícios sociais e minimize riscos.

Embora ainda existam obstáculos a superar, o estudo demonstra que robôs podem aprender a articular fonemas sem depender de animações fixas. A combinação de pele flexível, atuadores múltiplos e inteligência artificial baseada em observação abre caminho para interfaces mais naturais entre humanos e máquinas.