Uma maneira mais eficaz de treinar máquinas para incertezas reais

As imagens para download no site do escritório de notícias do MIT são disponibilizadas para entidades não comerciais, imprensa e público em geral sob uma licença Creative Commons Attribution Non-Commercial No Derivatives. Você não pode alterar as imagens fornecidas, exceto cortá-las no tamanho. Uma linha de crédito deve ser utilizada na reprodução das imagens; se não houver um abaixo, credite as imagens ao "MIT".

imagem anterior imagem seguinte

Alguém aprendendo a jogar tênis pode contratar um professor para ajudá-lo a aprender mais rápido. Como esse professor é (espero) um grande jogador de tênis, há momentos em que tentar imitar exatamente o professor não ajudará o aluno a aprender. Talvez o professor salte alto no ar para devolver habilmente uma saraivada. O aluno, incapaz de copiar isso, pode tentar alguns outros movimentos por conta própria até dominar as habilidades necessárias para devolver voleios.

Os cientistas da computação também podem usar sistemas de "professor" para treinar outra máquina para concluir uma tarefa. Mas, assim como no aprendizado humano, a máquina do aluno enfrenta o dilema de saber quando seguir o professor e quando explorar por conta própria. Para tanto, pesquisadores do MIT e do Technion, o Instituto de Tecnologia de Israel, desenvolveram um algoritmo que determina automática e independentemente quando o aluno deve imitar o professor (conhecido como aprendizagem por imitação) e quando deve aprender por tentativa e erro (conhecido como aprendizagem por reforço).

Sua abordagem dinâmica permite que o aluno diverja de copiar o professor quando o professor é bom demais ou não é bom o suficiente, mas depois volte a seguir o professor em um ponto posterior do processo de treinamento, se isso alcançar melhores resultados e aprendizado mais rápido.

Quando os pesquisadores testaram essa abordagem em simulações, descobriram que a combinação de aprendizado por tentativa e erro e aprendizado por imitação permitia que os alunos aprendessem tarefas com mais eficiência do que os métodos que usavam apenas um tipo de aprendizado.

Esse método pode ajudar os pesquisadores a melhorar o processo de treinamento de máquinas que serão implantadas em situações incertas do mundo real, como um robô sendo treinado para navegar dentro de um prédio que nunca viu antes.

"Essa combinação de aprendizado por tentativa e erro e acompanhamento de um professor é muito poderosa. Dá ao nosso algoritmo a capacidade de resolver tarefas muito difíceis que não podem ser resolvidas usando nenhuma das técnicas individualmente", diz Idan Shenfeld, engenheiro elétrico e ciência da computação (EECS) estudante de pós-graduação e principal autor de um artigo sobre esta técnica.

Shenfeld escreveu o artigo com os coautores Zhang-Wei Hong, um estudante de pós-graduação da EECS; Aviv Tamar; professor assistente de engenharia elétrica e ciência da computação no Technion; e o autor sênior Pulkit Agrawal, diretor do Improbable AI Lab e professor assistente no Laboratório de Ciência da Computação e Inteligência Artificial. A pesquisa será apresentada na Conferência Internacional sobre Machine Learning.

Encontrar um equilíbrio

Muitos métodos existentes que buscam encontrar um equilíbrio entre o aprendizado por imitação e o aprendizado por reforço o fazem por tentativa e erro de força bruta. Os pesquisadores escolhem uma combinação ponderada dos dois métodos de aprendizado, executam todo o procedimento de treinamento e repetem o processo até encontrar o equilíbrio ideal. Isso é ineficiente e geralmente tão caro computacionalmente que nem é viável.

"Queremos algoritmos que sejam baseados em princípios, que envolvam o ajuste do menor número possível de botões e alcancem alto desempenho - esses princípios orientaram nossa pesquisa", diz Agrawal.

Para conseguir isso, a equipe abordou o problema de maneira diferente do trabalho anterior. A solução deles envolve treinar dois alunos: um com uma combinação ponderada de aprendizado por reforço e aprendizado por imitação, e um segundo que só pode usar o aprendizado por reforço para aprender a mesma tarefa.