Nowa Go-playing AI Google'a uczy się szybko, a nawet pokonała swoją poprzednią wersję

Już w zeszłym roku AlphaGo firmy Google DeepMind wzięła świat sztucznej inteligencji (AI) szturmem, pokazując, że program komputerowy może pokonać najlepszych na świecie ludzkich graczy Go.

Ale w tym tygodniu w Nature opublikowano szczegóły nowego kamienia milowego osiągniętego przez ulepszoną wersję AlphaGo Zero, co świadczy o gorączkowym tempie postępu w nowoczesnej AI.

Korzystając z mniejszej mocy obliczeniowej i tylko trzech dni treningu, AlphaGo Zero pokonało oryginalnego AlphaGo w meczu 100 gier 100 do 0. Nie było nawet warto, aby pojawili się ludzie.

Nauka gry w Go

Go jest grą strategiczną pomiędzy dwoma graczami, którzy na zmianę umieszczają „kamienie” na planszy o wymiarach 19×19. Celem jest otoczenie większego obszaru planszy niż przeciwnik.

Gra w Go, prosta do nauczenia, ale całe życie do opanowania… dla człowieka. Paragorn Dangsombroon/

Gra Go okazała się dla komputerów dużo trudniejsza do opanowania niż szachy. W Go jest o wiele więcej możliwych ruchów w każdej pozycji niż w szachach i o wiele więcej możliwych gier.

Oryginalne AlphaGo najpierw uczyło się, studiując 30 milionów ruchów ludzkich ekspertów. Następnie udoskonalił się ponad ludzką wiedzę, rozgrywając wiele gier przeciwko sobie, co zajęło kilka miesięcy czasu komputera.

Dla kontrastu, AlphaGo Zero nigdy nie widziało, jak grają ludzie. Zamiast tego zaczęło od poznania tylko zasad gry. Po stosunkowo skromnych pięciu milionach samodzielnych gier, które zajęły mu tylko trzy dni na komputerze mniejszym niż oryginalny AlphaGo, nauczył się super-AlphaGo.

Fascynujące jest to, że jego nauka z grubsza naśladowała niektóre z etapów, przez które ludzie przechodzą, gdy opanowują Go. AlphaGo Zero szybko nauczyło się odrzucać naiwnie krótkoterminowe cele i rozwinęło bardziej strategiczne myślenie, generując wiele wzorców ruchów często używanych przez najlepszych ludzkich ekspertów.

Ale co niezwykłe, zaczął odrzucać niektóre z tych wzorców na rzecz nowych strategii, nigdy wcześniej nie widzianych w ludzkiej grze.

Poza ludzką grą

AlphaGo Zero osiągnął ten wyczyn, podchodząc do problemu inaczej niż oryginalny AlphaGo. Obie wersje używają kombinacji dwóch najpotężniejszych algorytmów napędzających obecnie sztuczną inteligencję: głębokiego uczenia i uczenia wzmacniającego.

Aby zagrać w grę taką jak Go, program musi nauczyć się dwóch podstawowych rzeczy. Pierwszą z nich jest polityka: prawdopodobieństwo wykonania każdego z możliwych ruchów w danej pozycji. Drugą jest wartość: prawdopodobieństwo wygranej w danej pozycji.

W czystym podejściu do uczenia się przez wzmocnienie AlphaGo Zero, jedyną dostępną informacją do nauki polityki i wartości było przewidywanie, kto ostatecznie wygra. Aby to zrobić, używał swojej aktualnej polityki i wartości, ale na początku były one losowe.

Jest to wyraźnie bardziej wymagające podejście niż w przypadku oryginalnego AlphaGo, które używało ludzkich ruchów ekspertów, aby uzyskać przewagę w nauce. Ale wcześniejsza wersja uczyła się polityki i wartości za pomocą oddzielnych sieci neuronowych.

Przełomem algorytmicznym w AlphaGo Zero było odkrycie, jak można je połączyć w jedną sieć. Pozwoliło to na znaczne uproszczenie procesu szkolenia poprzez samodzielną grę i umożliwiło rozpoczęcie od czystego konta, zamiast uczenia się najpierw tego, co zrobiliby eksperci.

Ocena Elo jest powszechnie stosowaną miarą wydajności graczy w grach takich jak Go i szachy. Najlepszy jak dotąd ludzki gracz, Ke Jie, ma obecnie ocenę Elo wynoszącą około 3700.

AlphaGo Zero trenował przez trzy dni i osiągnął ocenę Elo przekraczającą 4000, podczas gdy rozszerzona wersja tego samego algorytmu trenowała przez 40 dni i osiągnęła prawie 5200.

Jest to zdumiewająco duży krok naprzód w stosunku do najlepszego człowieka – znacznie większy niż obecna przepaść między najlepszym ludzkim szachistą Magnusem Carlsenem (około 2800) a programem szachowym (około 3400).

Następne wyzwanie

AlphaGo Zero jest ważnym krokiem naprzód dla AI, ponieważ demonstruje możliwość czystego uczenia się przez wzmocnienie, niezakłóconego przez żadne ludzkie wskazówki. Eliminuje to potrzebę posiadania dużej ilości specjalistycznej wiedzy ludzkiej, która w niektórych dziedzinach może być trudna do zdobycia.

To również oznacza, że algorytm może swobodnie rozwijać zupełnie nowe podejścia, które mogłyby być znacznie trudniejsze do znalezienia, gdyby był początkowo ograniczony do „myślenia wewnątrz ludzkiego pudełka”. Co ciekawe, ta strategia okazuje się również bardziej wydajna obliczeniowo.

Ale Go jest ściśle ograniczoną grą o doskonałej informacji, bez bałaganu, jaki panuje w większości problemów świata rzeczywistego. Wyszkolenie AlphaGo Zero wymagało dokładnej symulacji milionów gier, zgodnie z zasadami Go.

W przypadku wielu praktycznych problemów takie symulacje są obliczeniowo niewykonalne, albo same zasady są mniej jasne.

Jest jeszcze wiele problemów do rozwiązania, aby stworzyć SI ogólnego przeznaczenia, taką, która będzie w stanie poradzić sobie z szerokim zakresem praktycznych problemów bez specyficznej dla danej dziedziny interwencji człowieka.

Ale nawet jeśli ludzie przegrali bitwę z algorytmami Go, na szczęście AI (w przeciwieństwie do Go) nie jest grą o sumie zerowej. Wiele gier AlphaGo Zero zostało już opublikowanych, zapewniając dożywotnią inspirację dla ludzkich graczy Go.

Co ważniejsze, AlphaGo Zero reprezentuje krok w kierunku świata, w którym ludzie mogą wykorzystać potężne SI, aby pomóc w znalezieniu niewyobrażalnie (dla ludzi) kreatywnych rozwiązań trudnych problemów. W świecie AI nigdy nie było lepszego czasu, aby się za nią zabrać.