Grandes modelos de linguagem podem ajudar robôs domésticos a se recuperarem de erros sem ajuda humana

Existem inúmeras razões pelas quais os robôs domésticos têm encontrado pouco sucesso pós-Roomba. Preço, praticidade, forma e mapeamento têm contribuído para falhas após falhas. Mesmo quando alguns ou todos esses problemas são abordados, permanece a questão do que acontece quando um sistema comete um erro inevitável.

Este tem sido um ponto de atrito também no nível industrial, mas as grandes empresas têm os recursos para resolver problemas conforme surgem. No entanto, não podemos esperar que os consumidores aprendam a programar ou contratem alguém que possa ajudar toda vez que surge um problema. Felizmente, este é um ótimo caso de uso para grandes modelos de linguagem (LLMs) no espaço da robótica, como exemplificado por uma nova pesquisa do MIT.

Um estudo que será apresentado na Conferência Internacional sobre Representações de Aprendizado (ICLR) em maio pretende trazer um pouco de “bom senso” ao processo de corrigir erros.

“Acontece que os robôs são excelentes imitadores,” explica a escola. “Mas a menos que os engenheiros também os programem para se ajustar a cada possível solavanco e empurrão, os robôs não necessariamente sabem como lidar com essas situações, a não ser começar sua tarefa do zero.”

Tradicionalmente, quando um robô encontra problemas, ele esgotará suas opções pré-programadas antes de requerer intervenção humana. Isso é um desafio particular em um ambiente não estruturado como uma casa, onde qualquer número de mudanças no status quo pode impactar negativamente a capacidade de um robô de funcionar.

Os pesquisadores por trás do estudo observam que, embora a aprendizagem por imitação (aprender a fazer uma tarefa por observação) seja popular no mundo da robótica doméstica, muitas vezes não consegue considerar as inúmeras pequenas variações ambientais que podem interferir na operação regular, exigindo assim que um sistema reinicie do zero. A nova pesquisa aborda isso, em parte, dividindo as demonstrações em subconjuntos menores, em vez de tratá-las como parte de uma ação contínua.

Aqui é onde os LLMs entram em cena, eliminando a necessidade do programador rotular e atribuir manualmente as numerosas subações.

“Os LLMs têm uma maneira de dizer como fazer cada etapa de uma tarefa, em linguagem natural. A demonstração contínua de um humano é a incorporação dessas etapas, no espaço físico,” diz o estudante de pós-graduação Tsun-Hsuan Wang. “E queríamos conectar os dois, para que um robô automaticamente saiba em que estágio está em uma tarefa, e seja capaz de replanejar e se recuperar por conta própria.”

A demonstração em particular apresentada no estudo envolve treinar um robô para pegar mármore e despejá-los em uma tigela vazia. É uma tarefa simples e repetível para humanos, mas para os robôs, é uma combinação de várias pequenas tarefas. Os LLMs são capazes de listar e rotular essas subtarefas. Nas demonstrações, os pesquisadores sabotaram a atividade de pequenas maneiras, como desviar o robô do caminho e derrubar mármore de sua colher. O sistema respondeu corrigindo automaticamente as pequenas tarefas, em vez de começar do zero.

“Com nosso método, quando o robô está cometendo erros, não precisamos pedir aos humanos que programem ou deem demonstrações extras de como se recuperar de falhas,” acrescenta Wang.

É um método convincente para ajudar alguém a não perder completamente a cabeça.