Clicker tréning pre potkany: Teória učenia III. - Primárne a sekundárne posilnenie, vnútorná motivácia

Clicker tréning je však niečo viac než len operantné podmieňovanie. Spomínaní Skinnerovi žiaci totiž veľmi rýchlo zistili, že potrebujú efektívnejší systém, aby bolo učenie rýchlejšie a kvalitnejšie - pretože podať pamlsok presne v momente, keď zviera vykonáva želanú činnosť, je niekedy nesmierne ťažké. Preto ich napadlo, že potrebujú rýchly signál, ktorý zvieraťu povie: "Áno, to je ono!" a odmena potom pokojne môže prísť aj neskôr. A tu prichádza na scénu clicker - obyčajný pliešok v plastovej krabičke, no presný na zlomok sekundy a s ničím nezameniteľný. Samozrejme, možno použiť aj píštalku alebo u hluchého zvieraťa svetelný signál, prípadne kliknutie jazykom. Slovo je však už horšia voľba, lebo kým náš mozog spracuje verbálnu požiadavku, dlho to trvá, navyše ak sa so zvieraťom často len tak "vykecávame", nevenuje našim slovám veľmi pozornosť; aj náš tón hlasu je veľmi premenlivý, čo prináša ďalšie zbytočné nejasnosti.

Poznámka - dokonca aj experimentálne sa preukázalo, že slepecké psy trénované clickerom postupovali vo výcviku rýchlejšie než tie, čo boli trénované len slovnou pochvalou.

A ako zviera zistí, akú správu naše "kliknutie" nesie? Jednoducho, klasickým podmieňovaním. To je vlastne úplne prvá vec, ktorú musíme pri zahájení CT zvieratko naučiť - spojiť si clicker s primárnym posilnením. Tu sa musíme zastaviť a vysvetliť si, čo je to primárne posilnenie (primary reinforcement) - je to podnet, ktorý napĺňa primárne potreby jedinca a vyvoláva tým uňho uspokojenie (bezpečie, potrava, sociálny kontakt, dotyk, pohyb, hra, sex, odpočinok...). To, aké primárne posilnenie použijeme vo výcviku, závisí od situácie a od zvieraťa (napr. je blbosť koni nútiť pamlsky, ak sa práve viac teší na prvú jarnú trávu alebo chce ísť za kamarátmi). Tým, že clicker opakovane použijeme tesne predtým, než zvieraťu poskytneme primárne posilnenie (max. latencia sú 3 sekundy), vytvoríme v jeho mozgu pevné spojenie medzi týmito dvoma podnetmi (viz spomínaný Pavlovov pes). Väčšinou stačí 5-10 opakovaní - pamäťová stopa je ustálená, ak zviera po zaznení clickeru okamžite vyhľadáva posilnenie.

Poznámka - posilnenie nie je podplácanie - medzi tým je veľký rozdiel! Keď podplácate, najprv niečo dáte a dúfate, že tým zviera presvedčíte, aby urobilo, čo chcete. No to je veľmi krátkozraký plán, pretože každé zviera má dostatok inteligencie na to, aby si uvedomilo, že takto vás môže prinútiť, aby ste mu dali všetko a ono nemusí nakoniec urobiť vôbec nič (a presne tak isto často funguje úplatkárstvo aj v našej spoločnosti). No je tu ešte jeden špeciálny prípad, a to je darček - nie je to ani posilnenie, ani úplatok. Keď ho zvieratku dávame, nič od neho nechceme. Darčeky len tak pre radosť upevňujú vzťah, nie je na nich nič zlé. :)

Z clickeru sa teda klasickým podmieňovaním stane sekundárne posilnenie (secondary reinforcement) alebo tiež most (bridge) - už samotné kliknutie začne časom u zvieratka vyvolávať rovnako príjemné pocity ako aj primárne posilnenie. A prečo? Odpoveď tkvie v neuropsychológii - keď totiž podnety prichádzajú do mozgu, prechádzajú najprv po dráhach vedúcich do fylogeneticky starých častí mozgu, zvaných limbický systém (ten je u cicavcov veľmi podobný). A podnety, ktoré sú primárnymi posilovačmi, v týchto častiach mozgu vyvolávajú pozitívne emócie. No to nie je všetko - najlepšia časť je tá, že v tejto časti mozgu leží aj akýsi "spracovávač spomienok", hipokampus - a keďže sa nachádza v tesnej blízkosti štruktúr zodpovedných za emócie, tieto sa navzájom silne ovplyvňujú - t.z. s udalosťami si zapamätávame aj emócie a naopak, spomienka na udalosť vyvolá opäť aj príslušné emócie (určite ste to už mnohokrát zažili na vlastnej koži). Takže keď napodmieňujeme zviera k tomu, aby si spojilo kliknutie s posilnením, kliknutie sa spojí aj s pozitívnymi emóciami, ktoré posilnenie vyvolalo. A tak časom zvieratko bude radosťou bez seba, už len keď začuje kliknutie. :)

Poznámka - takto samozrejme môžeme aj z určitého slova vytvoriť sekundárne posilnenie, teda pochvalu, ktorú zviera bude vnímať ako odmenu, no používame ju v iných situáciách než clicker - viz ďalšie články.

Takže keď už náš potkaník bude bezpečne chápať význam clickeru, môžeme sa pustiť do samotného výcviku.

Ešte je tu však jeden problém - povedzme, že náš potkaník už pochopil, že clicker nosí dobré správy a už sa nám aj niekoľko ráz podarilo kliknúť mu včas za to, že napr. zapanáčkoval (a potom sme ho odmenili). Lenže teraz panáčkuje stále, sám od seba alebo naopak iba vtedy, keď vidí, že máme odmenu. Čo s tým?! Odpoveď je jednoduchá - správanie treba dostať pod kontrolu signálom (cue). Tomu sa bude podrobne venovať jeden z ďalších článkov, tu iba poviem, že signál je niečo úplne iné než povel (command) - je to povolenie vykonať cvik, nie rozkaz! Je to niečo ako zelené svetlo na semafore, ktoré zvieratku povie: "Teraz môžeš!" Signál priraďujeme k správaniu, až keď je už "hotové", a to opäť nepravidelným plánom posilňovania - odmeňujeme už len správanie, ktoré bolo vykonané za prítomnosti signálu. Napokon sa signál stane tiež sekundárnym posilnením - už len prítomnosť signálu totiž značí, že ak zvieratko vykoná daný cvik, príde C/R (viz tvorenie spomienok spojených s emóciami pri podmieňovaní). A týmto istým mechanizmom sa stanete sekundárnym posilnením pre zvieratko časom aj vy. :) U experimentálnych zvierat bol dokonca pozorovaný fenomén nazvaný contrafreeloading effect - zvieratá mali k dispozícii tú istú potravu "zadarmo" v miske a v zásobníku aktivovanom stlačením páčky - a čo myslíte, čo si vybrali? Presne tak, bavili sa s páčkou. :)

A aj keď signálom dostaneme správanie pod svoju kontrolu, zároveň aj zviera má stále pocit kontroly nad situáciou - pretože si stále môže vybrať, či na signál zareaguje alebo nie. Ak nechce, nebudú preň nasledovať nijaké negatívne dôsledky.

Clicker tréning však nie je vždy len o pozitívnych emóciách - napokon, ani v bežnom živote sa nám nedarí celkom stále a musíme sa naučiť vyrovnávať aj s istou dávkou frustrácie. Keby sme to nedokázali, aj najmenší neúspech by nás potom celkom zložil. No každý jedinec má inú vrodenú úroveň frustračnej tolerancie, takže pri zavádzaní nepravidelného režimu posilňovania musíme byť citliví a frustračnú toleranciu u zvieratka budovať veľmi postupne - výzva musí byť dostatočne veľká na to, aby sa viac snažilo (aby sa nezačalo nudiť), ale nie až taká veľká, aby sa vzdalo. Vždy musí mať reálnu šancu na úspech (tzn. asi 8 pokusov z 10 správne). To je to najväčšie "tajomstvo" dobrého clicker trénera - má cit pre jedinca, s ktorým pracuje a presne vie, koľko od neho v danom okamihu môže chcieť.

Ak teraz premýšľate nad tým, či budete pri tejto forme výcviku už musieť navždy klikať a dávať posilnenia (či už pamlsky, škrabkanie alebo hru), tu je odpoveď: Nie, nebudete. Resp., nebudete, ak si dobre osvojíte princípy CT. Pretože keď tvarovaním dovediete správanie do dokonalej formy, stále môžete využívať nepravidelný plán posilňovania - a interval medzi odmenami budete stále viac a viac predlžovať, až kým neskončíte na jedinom posilnení za celú lekciu. Zvieratku to v tejto fáze už vôbec nebude vadiť, pretože si už bude dávno "fičať" na sekundárnych posilovačoch - t.z., že prejde k vnútornej motivácii - bude s vami cvičiť preto, že ho to baví, že samotné cvičenie mu prináša príjemné pocity. Tak je to správne a žiaduce, pretože experimenty z oblasti pracovnej psychológie dokázali, že pri vysoko náročných úlohách vonkajšia motivácia pôsobí skôr rušivo a paradoxne znižuje výkon. Je to prirodzené a logické - aj keď sa pozrieme napr. na morálny vývin detí, vidíme, že postupne prechádzajú od vonkajšej motivácie (získať odmenu a vyhnúť sa trestu, "byť dobré dievča/chlapec", vyhnúť sa väzeniu) k vnútornej motivácii (orientácia na vyššie dobro, spirituálne hodnoty). Samozrejme nepredpokladáme, že potkaník s nami bude cvičiť pre dobrý pocit z toho, že si rozvíja svoje kognitívne schopnosti, ale u aj to, že to robí preto, že ho to "proste baví", je vnútorná motivácia. :)

Nezabúdajme však, že sekundárne posilnenie predsa len z času na čas vyžaduje, aby sme obnovili jeho hodnotu - tým, že ho opäť spárujeme s primárnym posilnením. A úprimne, každý rád odmeňuje (a u clicker trénerov je to priam závislosť! :D). A keď budete chcieť potkaníka naučiť opäť nový cvik, tak C/R budete rozhodne zasa potrebovať - to je predsa váš spoločný "jazyk", ktorým mu vysvetľujete, čo vlastne od neho chcete (asi ako v detskej hre "teplo-zima"). ;-)

Na záver ešte jedna poznámka - aj keď to tak možno teraz vyznieva (a v počiatkoch CT to tak možno aj bolo a u niektorých trénerov to dokonca bohužiaľ stále pretrváva), táto metodika nie je čiste mechanistická. Rozhodne neredukuje zviera na nejakého "robota", ktorého možno šikovne naprogramovať. To naozaj nie. Dnes, so stále pribúdajúcimi ohromujúcimi poznatkami o zvieracej inteligencii a citlivosti, by to už bol asi rovnako aktuálny názor, ako tvrdiť, že Zem je plochá. Uznávame, že každé zviera má svoju jedinečnú individualitu, svoje základné slobody a práva, je subjektom samo o sebe (nie je iba objekt našich sebeckých prianí). Clicker tréning nie je všemocný a ani by nemal byť. Stále by mal byť prvoradý prostý priateľský kontakt, zdieľanie života - a aj pri CT musíme mať stále na pamäti, že učenie je obojstranný proces, že sme v tom obaja spolu. ;-)

Stránky

Teória učenia III. - Primárne a sekundárne posilnenie, vnútorná motivácia