Pesquisa chinesa define roteiro em três etapas para robôs inteligentes de propósito geral

Uma equipa do Instituto de Tecnologia de Harbin, na China, apresentou uma revisão abrangente sobre Inteligência Artificial Incorporada (Embodied AI), publicada em 8 de maio de 2026. O trabalho descreve um modelo em três módulos — percepção, decisão e execução — destinado a orientar o desenvolvimento de robôs físicos capazes de executar tarefas complexas no mundo real.

Dois mundos, uma lacuna a preencher

Os investigadores destacam que sistemas de IA atuais, voltados para texto, fala ou visão computacional, operam num ambiente virtual. Embora processem linguagem natural, imagens e áudio com elevado nível de precisão, permanecem incapazes de interagir fisicamente com o ambiente. Esse caráter incorpóreo limita a adoção de agentes inteligentes em tarefas quotidianas, como “limpar um quarto” ou “organizar um escritório”, tarefas que exigem mobilidade, manipulação de objetos e tomada de decisões ancoradas em cenários dinâmicos.

Para ultrapassar a barreira, o estudo sistematiza o campo da IA Incorporada, propondo um enquadramento que integra sensores, planeamento e aprendizagem de habilidades motoras. O objetivo é oferecer aos cientistas um roteiro claro para migrar da análise passiva — típica de modelos linguísticos ou de visão — para uma inteligência comportamental capaz de atuar no mundo físico.

Módulo 1: Percepção Incorporada

A primeira etapa foca a percepção incorporada. Segundo o artigo, esta fase organiza-se em duas vertentes:

• Percepção para comportamento: envolve interpretar formas, texturas e propriedades físicas de objetos, bem como mapear o ambiente em representações métricas ou topológicas. Essas informações guiam ações como agarrar, empurrar ou desviar-se de obstáculos.

• Comportamento para percepção: o robô utiliza o próprio movimento para obter mais dados. Ao deslocar-se, pode descobrir itens ocultos atrás de caixas, avaliar a rigidez de um material ou confirmar a presença de degraus. A interação ativa amplia o conjunto de perceções disponíveis e melhora a precisão do modelo ambiental.

Módulo 2: Tomada de decisão incorporada

Ultrapassada a perceção, o robô precisa transformar observações em ações coerentes. A equipa define dois domínios principais para essa fase:

• Navegação: cálculo de sequências de movimentos, como “virar à esquerda” ou “seguir em frente”, garantindo trajetórias seguras entre pontos de interesse.

• Planeamento de tarefas: geração de cadeias de habilidades de manipulação, por exemplo, “abrir o micro-ondas”, “pegar a garrafa” e “fechar a porta”, incorporando etapas de deslocamento quando necessário.

Um desafio central neste módulo é a ancragem no mundo real. Ao contrário de decisões puramente digitais, escolhas físicas devem considerar a viabilidade mecânica, a relação entre objeto e agente (as chamadas “potencialidades”) e condições prévias, como a necessidade de liberar espaço antes de mover um móvel.

Módulo 3: Execução incorporada

A fase final converte o plano em ação concreta. O estudo define aprendizagem de habilidades de manipulação como o processo de treinar uma política que mapeia descrições de tarefas e perceções ambientais para trajetórias de movimento de múltiplos graus de liberdade. Nos testes, os cientistas utilizaram braços robóticos de sete eixos para validar métodos de controlo.

Duas abordagens dominam o cenário atual:

• Aprendizagem por imitação: o sistema observa demonstrações humanas e replica os movimentos. A qualidade depende da diversidade e do volume das amostras.

Pesquisa chinesa define roteiro em três etapas para robôs inteligentes de propósito geral - Tecnologia & Inovação

Imagem: Tecnologia & Inovação

• Aprendizagem por reforço: o agente interage por tentativa e erro, recebendo recompensas pelo desempenho. Esse método pode descobrir estratégias não intuitivas, porém exige muitos ciclos de treino ou simulações extensas.

Segundo a análise, a generalização permanece o obstáculo principal: modelos treinados para erguer uma garrafa nem sempre sabem girar uma maçaneta. Para contornar o problema, surge uma tendência a desenvolver Modelos de Execução de Propósito Geral, inspirados em modelos linguísticos multimodais, capazes de lidar com múltiplas habilidades num único conjunto de parâmetros.

Roteiro para robôs de uso geral

Ao sistematizar esses três módulos, os autores pretendem estabelecer um quadro de referência que facilite a comparação de resultados, a partilha de bases de dados e a definição de métricas unificadas de desempenho. Dessa forma, esperam acelerar a passagem de protótipos especializados para robôs de propósito geral, aptos a executar listas de comandos diversificados em residências, armazéns ou instituições de saúde.

O trabalho também sublinha a interdependência dos módulos. Melhorias na perceção, por exemplo, reforçam a tomada de decisão, que por sua vez fornece contextos mais ricos para treinar políticas de execução. A equipa defende abordagens integradas, em vez de soluções isoladas para cada componente.

Impacto e próximos passos

Embora a pesquisa não apresente protótipos comerciais, fornece uma visão estruturada que poderá orientar universidades, centros de inovação e empresas de robótica. Entre as recomendações, destacam-se:

• Dados multimodais: criar conjuntos que incluam informação visual, tátil e cinemática, permitindo treinar modelos que entendam cena, objeto e força aplicada.

• Simulação realista: desenvolver ambientes virtuais que representem fricção, flexibilidade de materiais e colisões complexas para reduzir custos de treino físico.

• Avaliação padronizada: estabelecer testes reproduzíveis que meçam desempenho em navegação, manipulação e robustez a perturbações externas.

Os autores concluem que avanços em sensores, algoritmos de planeamento e métodos de aprendizagem convergirão gradualmente para robôs capazes de completar instruções humanas de forma fiável. O enquadramento proposto pretende servir como mapa para essa transição, reduzindo redundâncias de pesquisa e direcionando recursos para desafios centrais.

Com a consolidação desse roteiro, a comunidade científica ganha um ponto de partida organizado para perseguir a meta de robôs inteligentes de propósito geral, capazes de operar lado a lado com pessoas em ambientes não controlados.