Clicker tréning pre potkany: Teória učenia II. - Kruh motivácie v operantnom podmieňovaní

Ak chceme operantné podmieňovanie využiť k cielenému učeniu konkrétneho správania, máme celkom 4 možnosti, ako zviera motivovať:

Pozitívne posilnenie = R+: akonáhle zviera vykoná požadované správanie, dáme mu niečo, čo chce, teda odmeníme ho (positive reinforcement; napr. chceme, aby sa potkan naučil panáčkovať, takže akonáhle to náhodou urobí, ihneď dostane pamlsok; viac o posilovačoch sa dočítate ďalej).
Negatívne posilnenie = R-: najprv zvieraťu urobíme niečo, čo nechce (a v podstate ho tým potrestáme za to, čo práve robí) a akonáhle vykoná požadované správanie, prestaneme mu to robiť (negative reinforcement; napr. ak potkan stále vykladá packy na stôl, môžeme mu ich jemne pritlačiť prstami a akonáhle naznačí, že ich chce dať dolu, pustíme).
Pozitívny trest = P+: v momente, keď zviera vykonáva neželané správanie, urobíme mu niečo, čo nechce (positive punishment; napr. ak potkana prichytíme v kvetináči, ihneď ho postriekame vodou).
Negatívny trest = P-: v momente, keď zviera vykonáva neželané správanie, zoberieme mu niečo, čo chce (negative punishment; napr. ak si potkan vynucuje pamlsky hryzením, nič mu nedáme).

Poznámka - "pozitívny" a "negatívny" tu majú iný význam než bežne; plus znamená, že niečo pridávame (v prípade R+ niečo príjemné a v prípade P+ niečo nepríjemné) a mínus znamená, že niečo odoberáme (v prípade R- niečo nepríjemné a v prípade P- niečo príjemné). Pozitívna motivácia v pravom zmysle slova je iba R+, zvyšné tri spôsoby využívajú negatívnu motiváciu.

Dôležité sú tiež poznatky, že posilnené správanie má tendenciu vyskytovať sa v budúcnosti častejšie, kdežto trest iba zastavuje aktuálne správanie, no nevypovedá nič o jeho výskyte v budúcnosti.

S trestaním je celkovo veľký problém, pretože aj keď je málo efektívne pre učenie zvieraťa, je veľmi efektívne pre vykonávateľa trestu (ten má vďaka tomu uspokojujúci pocit kontroly). Často sa tiež trest nepodarí presne načasovať, pretože sa musí udeliť súčasne s neželaným správaním - takže ak napr. potkana ostriekate vodou v momente, keď už uteká od kvetináča, potrestali ste niečo úplne iné, než ste chceli. A hlavný problém je ten, že trest sa vôbec nemusí zvieraťu spojiť s jeho správaním, ale oveľa častejšie s človekom, čo trestá (alebo s úplne nesúvisejúcou okolnosťou, napr. s miestom, kde došlo k potrestaniu) - takže možno trestaním docielite, že potkan prestane vyhrabávať kvetináče vo vašej prítomnosti, ale akonáhle sa otočíte chrbtom, začne znova (a že sú potkany experti v nenápadnom vykonávaní neželaných činností! :)). Trestaniu sa teda pri tréningu snažíme čo najviac vyhýbať a použijeme ho iba v krajnom prípade, keď ide o nebezpečnú situáciu - a trest musí byť dokonale načasovaný, rýchly a účinný, no nesmie spôsobiť zbytočný strach, stres, ani bolesť. Vyhnite sa akýmkoľvek emočným reakciám! Hnev nikdy nič nevyrieši. Nejdôležitejšie je snažiť sa predchádzať situáciám, v ktorých by sa už potrestaniu nedalo vyhnúť. Tým predítete zbytočným konfliktom, ktoré iba narúšajú váš vzťah so zvieratkom.

Negatívne posilňovanie tiež nie je až také efektívne, pretože obsahuje moment trestu - musíme najprv niečím nepríjemným "potrestať" aktuálne správanie, aby zviera malo motiváciu niečo na svojom správaní zmeniť, aby táto nepríjemná záležitosť skončila. Našťastie vo výchove potkanov negatívne posilňovanie nie je príliš silno zakorenené, keďže majú povesť "nevycvičiteľných" zvierat, podobne ako mačky - čo je samozrejme mýtus, ale klasický výcvik založený na R- na nich naozaj veľmi neplatí. Resp. ním u potkanov vyvoláte odpor, ba až strach - budú sa vám vyhýbať a nebudú s vami chcieť spolupracovať

Poznámka - bohužiaľ "lepšie cvičiteľné" zvieratá ako psy alebo kone sú stále cvičené hlavne negatívnou motiváciou. :(

Experimenty behavioristov teda dokázali, že pozitívna motivácia je najefektívnejšia. No prosté "pamlskovanie" k efektívnemu učeniu nestačí. Skinner na to prišiel, keď pozoroval pri experimentoch s holubmi zvláštny paradox - keď dostávali odmenu za každé jedno vykonanie cviku (napr. stlačenie páčky prinieslo zrnko obilia), časom ich výkon klesol - akonáhle sa ako-tak nasýtili, prestalo ich to baviť. A tak začal experimentovať s rozličnými plánmi posilňovania (reinforcement schedules). Rozlišujeme 4 druhy plánov posilňovania:

Fixný interval: zviera dostane odmenu vždy po uplynutí určitého časového intervalu, ale musí v jeho priebehu podať aspoň 1 správnu odpoveď (fixed interval reinforcement schedule).
Premenlivý interval: zviera dostane odmenu vždy po uplynutí inak dlhého intervalu, plus musí počas neho podať aspoň 1 správnu odpoveď (variable interval reinforcement schedule).
Fixný pomer: zviera dostane odmenu pravidelne, vždy po určitom počte správnych odpovedí (fixed ratio reinforcement schedule).
Premenlivý pomer: zviera dostane odmenu nepravidelne, vždy po inom počte správnych odpovedí (variable ratio reinforcement schedule).

Premenlivé plány posilňovania sa ukázali byť najefektívnejšie - pretože zviera nikdy nevedelo, kedy odmena príde, o to viac sa snažilo. A presne tento princíp využíva clicker tréning, keď systémom malých krokov učíme zviera stále zložitejšiemu správaniu (viz článok o shapingu).

Toto je základ teórie učenia, ktorú prakticky využíva clicker tréning (CT; clicker training).

Stránky

Teória učenia II. - Kruh motivácie v operantnom podmieňovaní