O Google desenvolve uma IA que pode aprender xadrez e Pac-Man

A primeira grande conquista da inteligência artificial foi o xadrez. O jogo tem um número estonteante de combinações possíveis, mas era relativamente administrável porque era estruturado por um conjunto claro de regras. Um algoritmo sempre pode ter um conhecimento perfeito do estado do jogo e saber todos os movimentos possíveis que ele e seu oponente podem fazer. O estado do jogo pode ser avaliado apenas olhando para o tabuleiro.

Mas muitos outros jogos não são tão simples. Se você pegar algo como Pac-man, então descobrir o movimento ideal envolveria considerar a forma do labirinto, a localização dos fantasmas, a localização de áreas adicionais para limpar, a disponibilidade de power-ups, etc., e o melhor plano pode terminar em desastre se Blinky ou Clyde fizerem um movimento inesperado. Também desenvolvemos IA que pode lidar com esses jogos, mas eles tiveram que adotar uma abordagem muito diferente do xadrez e Go conquistado.

Pelo menos até agora Hoje, no entanto, a divisão DeepMind do Google publicou um artigo descrevendo a estrutura de uma IA que pode lidar com xadrez e clássicos do Atari.

Reforço de árvore

Os algoritmos que funcionaram em jogos como xadrez e Go fazem seu planejamento usando uma abordagem baseada em árvore, na qual eles simplesmente olham para frente para todos os ramos que são derivados de diferentes ações no presente. Esta abordagem é computacionalmente cara e os algoritmos baseiam-se no conhecimento das regras do jogo, o que lhes permite projetar o estado atual do jogo em possíveis estados futuros do jogo.

Outros jogos requerem algoritmos que realmente não se importam com o estado do jogo. Em vez disso, os algoritmos simplesmente avaliam o que “veem” – normalmente, algo como a posição dos pixels em uma tela de um jogo de arcade – e escolhem uma ação com base nisso. Não existe um modelo interno do estado do jogo, e o processo de treinamento envolve em grande parte descobrir qual resposta é apropriada dada essa informação. Houve algumas tentativas de modelar o estado de um jogo com base em entradas como informações de pixel, mas não funcionou tão bem quanto algoritmos de sucesso que respondem apenas ao que está na tela.

O novo sistema, que DeepMind chama de MuZero, é baseado em parte no trabalho da DeepMind com o AlphaZero AI, que aprendeu a dominar jogos baseados em regras, como xadrez e Go. Mas o MuZero também adiciona um novo toque que o torna substancialmente mais flexível.

Essa reviravolta é chamada de “aprendizado por reforço baseado em modelo”. Em um sistema que usa essa abordagem, o software usa o que pode ver de um jogo para construir um modelo interno do estado do jogo. Fundamentalmente, esse estado não é pré-estruturado com base no entendimento do jogo: a IA pode ter muita flexibilidade em relação a quais informações estão ou não incluídas nela. A parte do aprendizado por reforço refere-se ao processo de treinamento, que permite que a IA aprenda a reconhecer quando o modelo que está usando é preciso e contém as informações de que precisa para tomar decisões.

Previsões

O modelo que você cria é usado para fazer uma série de previsões. Isso inclui o melhor movimento possível de acordo com o estado atual e o estado do jogo como resultado do movimento. Fundamentalmente, a previsão que você faz é baseada em seu modelo interno de estados do jogo, não na representação visual real do jogo, como a localização das peças de xadrez. A própria previsão é baseada na experiência passada, que também está sujeita a treinamento.

Finalmente, o valor da jogada é avaliado usando os algoritmos de previsão de quaisquer recompensas imediatas obtidas nessa jogada (o valor em pontos de uma peça tirada no xadrez, por exemplo) e o estado final do jogo, como o resultado da vitória. ou perder. De xadrez. Isso pode envolver as mesmas pesquisas em árvores de estado de jogo em potencial realizadas por algoritmos de xadrez anteriores, mas, neste caso, as árvores consistem nos próprios modelos de jogo internos da IA.

Se isso é confuso, você também pode pensar da seguinte maneira: o MuZero executa três avaliações em paralelo. Um (o processo de política) escolhe a próxima jogada, dado o modelo atual do estado do jogo. Um segundo prevê o novo estado resultante e quaisquer compensações imediatas da diferença. E um terceiro considera a experiência passada para informar a decisão política. Cada um deles é o produto de um treinamento, que foca em minimizar os erros entre essas previsões e o que realmente acontece no jogo.

Supere isso!

Obviamente, o pessoal da DeepMind não teria um artigo na Nature se isso não funcionasse. MuZero levou pouco menos de um milhão de jogos contra seu antecessor AlphaZero para atingir um nível semelhante de desempenho no xadrez ou shogi. Para Go, ele ultrapassou AlphaZero depois de apenas meio milhão de jogos. Em todos os três casos, MuZero pode ser considerado muito superior a qualquer jogador humano.

Mas MuZero também se destacou em um painel de jogos Atari, algo que anteriormente exigia uma abordagem de IA completamente diferente. Comparado com o melhor algoritmo acima, que não usa nenhum modelo interno, o MuZero teve uma média e pontuação média mais altas em 42 dos 57 jogos testados. Portanto, embora ainda haja algumas circunstâncias em que ele fique para trás, agora a IA baseada em modelo é competitiva nesses jogos, enquanto mantém sua capacidade de lidar com jogos baseados em regras, como xadrez e Go.

No geral, esta é uma conquista impressionante e uma indicação de como a IA está crescendo em sofisticação. Há alguns anos, treinar IAs em uma única tarefa, como reconhecer um gato em fotos, era uma conquista. Mas agora, podemos treinar vários aspectos de uma IA ao mesmo tempo; Aqui, o algoritmo que criou o modelo, aquele que escolheu a jogada e aquele que previu recompensas futuras foram todos treinados simultaneamente.

Em parte, isso é produto da disponibilidade de maior poder de processamento, o que torna possível jogar milhões de partidas de xadrez. Mas, em parte, é um reconhecimento de que isso é o que temos que fazer se uma IA algum dia for flexível o suficiente para dominar várias tarefas relacionadas remotamente.

Nature, 2020. DOI: 10.1038 / s41586-020-03051-4 (Sobre DOIs)

Listagem de imagens por Richard Heaven / Flickr

You May Also Like

About the Author: Gabriela Cerqueira

"Solucionador de problemas do mal. Amante da música. Especialista certificado em cultura pop. Organizador. Guru do álcool. Fanático por café."

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *