Helem Creative Commons License 2016.05.16 0 0 3088

Jutalom az amikor a neuronhálózat csinál valamit és súlytényezőket úgy módosítjuk, hogy a következő hasonló esetben nagyobb valószínűséggel tegye ugyanezt. Az ellenkező esetben a cselekvés valószínűségét csökkentjük. Az én programjaimban egy kimeneti neuron értéke 0-1 között változik. Ha a kimenet értéke a hálózat kiszámítása után 0.5, akkor 50% valószínűséggel teszi ezt vagy azt, azaz ami ahhoz a kimenethez van "motorikusan" kapcsolva. A "0" vagy "1" ebből magától értetődik.

Mondjuk ha egy hálózatnak 8 kimeneti neuronja van és ezek egy síkban való elmozdulást vezérelnek, akkor ezeknek a neuronoknak a kimeneti értékei változnak tanulás vagy büntetés esetén. 8 irányba lehet mozdulni egy síkban egy rácson. 

Előzmény: Bétaverzson (3087)