Após o ano passado, o AlphaGo do Google DeepMind tomou o mundo da Inteligência Artificial (IA) de assalto, mostrando que um programa de computador podia vencer os melhores jogadores de Go humanos do mundo.
Mas numa demonstração do ritmo febril do progresso da IA moderna, detalhes de um novo marco alcançado por uma versão melhorada chamada AlphaGo Zero foram publicados esta semana na Nature.
Usando menos poder computacional e apenas três dias de treino, AlphaGo Zero venceu o AlphaGo original numa partida de 100 jogos por 100 a 0. Nem valeu a pena os humanos aparecerem.
Aprender a jogar Go
Go é um jogo de estratégia entre dois jogadores que o fazem por turnos para colocar “pedras” num tabuleiro de 19×19. O objectivo é rodear uma área maior do tabuleiro do que o seu adversário.
Go provou ser muito mais desafiante do que o xadrez para computadores a dominar. Há muito mais jogadas possíveis em cada posição no Go do que no xadrez, e muito mais jogos possíveis.
p> O AlphaGo original aprendeu pela primeira vez com o estudo de 30 milhões de jogadas de jogo humano especializado. Depois melhorou para além da perícia humana, jogando muitos jogos contra si próprio, levando vários meses de tempo de computador.
Pelo contrário, AlphaGo Zero nunca viu os humanos jogar. Em vez disso, começou por conhecer apenas as regras do jogo. De um relativamente modesto cinco milhões de jogos de auto-jogo, levando apenas três dias num computador mais pequeno do que o AlphaGo original, aprendeu então um desempenho super-AlphaGo.
Fascinantemente, a sua aprendizagem imitou aproximadamente algumas das fases através das quais os humanos progridem à medida que dominam Go. AlphaGo Zero aprendeu rapidamente a rejeitar objectivos ingenuamente a curto prazo e desenvolveu um pensamento mais estratégico, gerando muitos dos padrões de movimentos frequentemente utilizados por especialistas humanos de alto nível.
Mas notavelmente começou então a rejeitar alguns destes padrões em favor de novas estratégias nunca antes vistas no jogo humano.
Além do jogo humano
AlphaGo Zero alcançou esta proeza ao abordar o problema de forma diferente do AlphaGo original. Ambas as versões utilizam uma combinação de dois dos algoritmos mais poderosos que actualmente alimentam a IA: aprendizagem profunda e aprendizagem de reforço.
Para jogar um jogo como Go, há duas coisas básicas que o programa precisa de aprender. A primeira é uma política: a probabilidade de fazer cada um dos movimentos possíveis numa dada posição. A segunda é um valor: a probabilidade de ganhar de qualquer posição.
Na abordagem de aprendizagem de reforço puro do AlphaGo Zero, a única informação disponível para aprender políticas e valores era para que pudesse prever quem poderia, em última análise, ganhar. Para fazer esta previsão, utilizou a sua política e valores actuais, mas no início estes eram aleatórios.
Esta é claramente uma abordagem mais desafiante do que a original do AlphaGo, que utilizou movimentos humanos especializados para obter um avanço na aprendizagem. Mas a versão anterior aprendeu políticas e valores com redes neuronais separadas.
A descoberta algorítmica no AlphaGo Zero consistiu em descobrir como estes poderiam ser combinados em apenas uma rede. Isto permitiu que o processo de treino por auto-jogo fosse grandemente simplificado, e tornou viável começar a partir de uma tabela limpa em vez de primeiro aprender o que os humanos peritos fariam.
Uma classificação Elo é uma medida amplamente utilizada do desempenho dos jogadores em jogos como Go e xadrez. O melhor jogador humano até agora, Ke Jie, tem actualmente uma classificação Elo de cerca de 3.700,
AlphaGo Zero treinado durante três dias e atingiu uma classificação Elo de mais de 4.000, enquanto que uma versão expandida do mesmo algoritmo treinou durante 40 dias e atingiu quase 5.200.
Este é um passo surpreendentemente grande em relação ao melhor humano – muito maior do que a distância actual entre o melhor jogador humano de xadrez Magnus Carlsen (cerca de 2.800) e o programa de xadrez (cerca de 3.400).
O próximo desafio
AlphaGo Zero é um importante passo em frente para a IA porque demonstra a viabilidade de uma aprendizagem pura de reforço, não corrompida por qualquer orientação humana. Isto elimina a necessidade de muitos conhecimentos humanos especializados para começar, o que em alguns domínios pode ser difícil de obter.
Significa também que o algoritmo é livre de desenvolver abordagens completamente novas que poderiam ter sido muito mais difíceis de encontrar se tivesse sido inicialmente constrangido a “pensar dentro da caixa humana”. Notavelmente, esta estratégia também se revela mais eficiente em termos computacionais.
Mas Go é um jogo de informação perfeita e apertada, sem a confusão da maioria dos problemas do mundo real. O treino AlphaGo Zero exigiu a simulação precisa de milhões de jogos, seguindo as regras de Go.
Para muitos problemas práticos tais simulações são computacionalmente inviáveis, ou as próprias regras são menos claras.
Ainda há muitos outros problemas a resolver para criar uma IA de uso geral, uma que possa resolver uma vasta gama de problemas práticos sem intervenção humana específica do domínio.
Mas embora os humanos tenham agora perdido de forma abrangente a batalha com algoritmos Go, felizmente a IA (ao contrário de Go) não é um jogo de soma zero. Muitos dos jogos do AlphaGo Zero foram agora publicados, proporcionando uma vida inteira de estudo inspirador para os jogadores humanos Go.
Mais importante ainda, AlphaGo Zero representa um passo em direcção a um mundo onde os humanos podem aproveitar as IAs poderosas para ajudar a encontrar inimaginavelmente (para os humanos) soluções criativas para problemas difíceis. No mundo da IA, nunca houve melhor altura para ir em busca dela.