Clicker tréning pre potkany: operantné podmieňovanie

Zobrazujú sa príspevky s označením operantné podmieňovanie. Zobraziť všetky príspevky

Prvé lekcie - "naklikanie", targeting, default behavior

Je ideálne, aby mal potkaník pred začiatkom tréningu zvládnutú základnú socializáciu (viac v tomto článku), aby sa vás nebál a cítil sa bezpečne vo svojom prostredí.

Keď už máme všetko potrebné vybavenie a potkaník sa neuteká ukryť vždy, keď nás zbadá (ale naopak zvedavo prichádza k mrežiam, resp. vykukuje z otvorených dvierok), môžeme sa pustiť do prvej lekcie. A tou je napodmieňovanie na clicker. Pripravíme si desať rovnako veľkých (vlastne malých :D) pamlskov, ktoré má potkan obzvlášť rád, clicker a target. Na začiatku bude najjednoduchšie trénovať cez mreže klietky. Ak je už potkaník zvyknutý na púšťanie, necháme ho najprv vybehať sa a lekciu si dáme po zatvorení do klietky (to sa nám neskôr hodí - nebudeme ho musieť nasilu lapať, bude sa do klietky tešiť). Ostatné potkany zatiaľ necháme pustené (resp. ak nemôžeme, umiestnime ich zatiaľ do inej klietky / do prepravky).

Potkana privoláme a keď nám už venuje pozornosť, priložíme koniec targetu k mrežiam - potkany sú prirodzene zvedavé tvory, takže určite neodolá a skôr či neskôr sa ho dotkne nosom. A na to musíme čakať a okamžite kliknúť - najprv radšej naozaj potichu, aby sme ho zbytočne nepoplašili - a ihneď podať pamlsok (mal by nám už dôverovať natoľko, že si ho vezme z ruky; ihneď znamená v rozsahu 1-3 sekúnd). Tento postup opakujeme, až kým neminieme všetky pamlsky. A odoláme snahe posúvať target k nosu potkana - dáme mu ho síce blízko na dosah, ale dotknúť sa ho musí sám.

Väčšina potkanov sa chytí veľmi rýchlo, no niekedy sa po pár správnych pokusoch "zarazia" a prestanú sa targetu dotýkať - testujú pravidlá novej hry (skúšajú, či pamlsok predsa len nedostanú aj zadarmo). Ak sa to stane, vždy najprv vyčkáme zo desať sekúnd, dáme mu šancu. Ak ju však nevyužije, target na 5 sekúnd skryjeme. Tým mu dáme jasne najavo, že ak si bude dávať načas, odmenu nedostane. Až keď nám opäť venuje pozornosť, znova mu target ukážeme. Väčšinou netrvá dlho, kým potkana toto prechodné "ignorantsvo" prejde a opäť sa začne snažiť.

Po poslednom kliknutí by potkan mal už viditeľne očakávať príchod odmeny. 10 pokusov je zväčša viac než dosť, ale niekedy sa stane, že je potkan roztekaný, nesústredený, a tak bude potrebovať ešte jednu či dve lekcie podmieňovania na clicker - to je úplne v poriadku. Hlavne naňho netlačíme a nechceme priveľa naraz - prvá lekcia by nemala trvať dlhšie než pár minútiek. Potkan sa totiž nedokáže sústrediť po dlhšiu dobu, obzvlášť, ak ide o mláďa a/alebo začiatočníka v CT.

Poznámka - niektorí tréneri podmieňujú zvieratá na clicker pasívne - nazývajú to "nabíjanie clickeru" (charging the clicker) - v rýchlom slede za sebou iba klikajú a odmeňujú. Aj to je možnosť, no má to jednu nevýhodu. Zvieratko si totiž vytvorí iba väzbu "klik -> pamlsok" a keď potom od neho začneme chcieť aj nejakú akciu, bude zmätené. Ak od začiatku budeme požadovať najprv jeho aktivitu, aby si zaslúžilo C/R, bude to brať v ďalších lekciách ako úplnú samozrejmosť.

Ďalšiu lekciu môžeme absolvovať už po niekoľkých minútach, no opäť by mala byť veľmi krátka. Tento raz už môžeme skúsiť targeting spojiť s tvarovaním (shapingom) - target umiestnime trochu na stranu, resp. vyššie / nižšie, aby sa za ním potkan musel pohnúť. Spočiatku by to malo byť len pár centimetrov, no keďže potkany veľmi rady naháňajú veci, čo pred nimi utekajú, za chvíľu nám bude behať za targetom okolo celej klietky. Ako vidíte, tu už začíname využívať nepravidelný režim posilňovania - odmeňujeme postupne stále náročnejší a náročnejší výkon, t.z. zvyšujeme kritérium (kritérium je napr. vzdialenosť, ktorú musí potkan prejsť za targetom, aby dostal odmenu - najprv je to 1 cm, potom 3, 10, atď.). Tu už treba využiť vlastný cit a zistiť, ako rýchlo môžeme postupovať práve s naším potkanom.

Po pár lekciách, keď už potkan spoľahlivo nasleduje target v bezpečnom prostredí, treba zmeniť kritérium - už nepotrebujeme zvyšovať vzdialenosť, ktorú za targetom prejde (naším cieľom nie je, aby si dával 100 koliečok okolo klietky), ale chceme, aby ho nasledoval aj v inom prostredí. Takže otvoríme dvierka a začneme ho postupne žiadať, aby nasledoval target von. Ak sa bojí, postupujeme po naozaj malých krokoch - akoby sme sa ho pýtali:

"Môžem ťa požiadať, aby si sa dotkol targetu vo dvierkach klietky? Áno?" C/R
"Môžem ťa požiadať, aby si položil na dvierka jednu labku? Áno?" C/R
"Môžem ťa požiadať, aby si položil na dvierka obe predné labky? Áno?" C/R

Atď., až kým nakoniec nebude celkom vonku - vtedy sa hodí dať mu jackpot a ukončiť lekciu (hlavne ho vtedy neulapíme, ani mu nebránime vrátiť sa do klietky! chceme, aby si tento krátky výlet zapamätal pozitívne). Ak nám na niektorú otázku odpovie potkan "nie", znamená to, že sme nejakú otázku preskočili - postupujeme prirýchlo. Nesnažíme sa hneď "vyhrať" a dôjsť k cieľu - keď postupujeme po maličkých krokoch, stále máme čo odmeniť, a teda vždy môžeme lekciu okamžite a pozitívne ukončiť. Čím trpezlivejší sme, tým rýchlejšie sa potkaník učí. A tiež nezabúdame na to, že keď pridáme nové kritérium, zo starého musíme dočasne zľaviť (čiže ak aj predtým v klietke potkan už prešiel za targetom meter, teraz sa musíme uspokojiť aj s jediným centimetrom, kým sa aj mimo klietky nezačne cítiť bezpečne).

Targeting samozrejme nie je samoúčelný - využijeme ho pri učení mnohých trikov (panáčkovanie, chodenie na zadných, váľanie sudov, otočky, skoky...) a hlavne pri agility. S jeho pomocou dostaneme potkana aj na váhu alebo do prepravky, a to úplne dobrovoľne. Je to jednoduchá, ale veľmi praktická technika clicker tréningu.

Neskôr, keď nám už potkaník dôveruje, môžeme umelý target zameniť aj za hand target, teda budeme mu ukazovať už len prstom. Pozor však, musí už byť naučený, že sa má targetu iba dotknúť nosom, nie doň zahryznúť (selektívne posilujeme iba tie pokusy, pri ktorých do targetu nehryzie). Je to praktickejšie, lebo pritom máme voľné ruky; navyše pri oficiálnej súťaži agility nie je target povolený.

A ešte jedno upozornenie - nemusí nastať len situácia, že potkaník bude postupovať pomalšie, než čakáme, ale aj situácia opačná - že bude postupovať extrémne rýchlo! S tým musíme počítať a mať vždy v zálohe pripravené ďalšie kroky, aby sme ho nenudili tým, čo už dávno pochopil (to by nám za chvíľu prestal venovať pozornosť). Toto je veľmi časté najmä u dobre socializovaných mláďat od chovateľov - u neochočených zvierat totiž strach výrazne brzdí učebný proces.

Targetingom sme sa teda zoznámili my aj naše potkany s clickerom a položili sme základy pre všetko ďalšie učenie. V nasledujúcom článku sa pozrieme bližšie na ďalšiu nesmierne užitočnú techniku - tvarovanie (shaping).

Teória učenia II. - Kruh motivácie v operantnom podmieňovaní

Ak chceme operantné podmieňovanie využiť k cielenému učeniu konkrétneho správania, máme celkom 4 možnosti, ako zviera motivovať:

Pozitívne posilnenie = R+: akonáhle zviera vykoná požadované správanie, dáme mu niečo, čo chce, teda odmeníme ho (positive reinforcement; napr. chceme, aby sa potkan naučil panáčkovať, takže akonáhle to náhodou urobí, ihneď dostane pamlsok; viac o posilovačoch sa dočítate ďalej).
Negatívne posilnenie = R-: najprv zvieraťu urobíme niečo, čo nechce (a v podstate ho tým potrestáme za to, čo práve robí) a akonáhle vykoná požadované správanie, prestaneme mu to robiť (negative reinforcement; napr. ak potkan stále vykladá packy na stôl, môžeme mu ich jemne pritlačiť prstami a akonáhle naznačí, že ich chce dať dolu, pustíme).
Pozitívny trest = P+: v momente, keď zviera vykonáva neželané správanie, urobíme mu niečo, čo nechce (positive punishment; napr. ak potkana prichytíme v kvetináči, ihneď ho postriekame vodou).
Negatívny trest = P-: v momente, keď zviera vykonáva neželané správanie, zoberieme mu niečo, čo chce (negative punishment; napr. ak si potkan vynucuje pamlsky hryzením, nič mu nedáme).

Poznámka - "pozitívny" a "negatívny" tu majú iný význam než bežne; plus znamená, že niečo pridávame (v prípade R+ niečo príjemné a v prípade P+ niečo nepríjemné) a mínus znamená, že niečo odoberáme (v prípade R- niečo nepríjemné a v prípade P- niečo príjemné). Pozitívna motivácia v pravom zmysle slova je iba R+, zvyšné tri spôsoby využívajú negatívnu motiváciu.

Dôležité sú tiež poznatky, že posilnené správanie má tendenciu vyskytovať sa v budúcnosti častejšie, kdežto trest iba zastavuje aktuálne správanie, no nevypovedá nič o jeho výskyte v budúcnosti.

S trestaním je celkovo veľký problém, pretože aj keď je málo efektívne pre učenie zvieraťa, je veľmi efektívne pre vykonávateľa trestu (ten má vďaka tomu uspokojujúci pocit kontroly). Často sa tiež trest nepodarí presne načasovať, pretože sa musí udeliť súčasne s neželaným správaním - takže ak napr. potkana ostriekate vodou v momente, keď už uteká od kvetináča, potrestali ste niečo úplne iné, než ste chceli. A hlavný problém je ten, že trest sa vôbec nemusí zvieraťu spojiť s jeho správaním, ale oveľa častejšie s človekom, čo trestá (alebo s úplne nesúvisejúcou okolnosťou, napr. s miestom, kde došlo k potrestaniu) - takže možno trestaním docielite, že potkan prestane vyhrabávať kvetináče vo vašej prítomnosti, ale akonáhle sa otočíte chrbtom, začne znova (a že sú potkany experti v nenápadnom vykonávaní neželaných činností! :)). Trestaniu sa teda pri tréningu snažíme čo najviac vyhýbať a použijeme ho iba v krajnom prípade, keď ide o nebezpečnú situáciu - a trest musí byť dokonale načasovaný, rýchly a účinný, no nesmie spôsobiť zbytočný strach, stres, ani bolesť. Vyhnite sa akýmkoľvek emočným reakciám! Hnev nikdy nič nevyrieši. Nejdôležitejšie je snažiť sa predchádzať situáciám, v ktorých by sa už potrestaniu nedalo vyhnúť. Tým predítete zbytočným konfliktom, ktoré iba narúšajú váš vzťah so zvieratkom.

Negatívne posilňovanie tiež nie je až také efektívne, pretože obsahuje moment trestu - musíme najprv niečím nepríjemným "potrestať" aktuálne správanie, aby zviera malo motiváciu niečo na svojom správaní zmeniť, aby táto nepríjemná záležitosť skončila. Našťastie vo výchove potkanov negatívne posilňovanie nie je príliš silno zakorenené, keďže majú povesť "nevycvičiteľných" zvierat, podobne ako mačky - čo je samozrejme mýtus, ale klasický výcvik založený na R- na nich naozaj veľmi neplatí. Resp. ním u potkanov vyvoláte odpor, ba až strach - budú sa vám vyhýbať a nebudú s vami chcieť spolupracovať

Poznámka - bohužiaľ "lepšie cvičiteľné" zvieratá ako psy alebo kone sú stále cvičené hlavne negatívnou motiváciou. :(

Experimenty behavioristov teda dokázali, že pozitívna motivácia je najefektívnejšia. No prosté "pamlskovanie" k efektívnemu učeniu nestačí. Skinner na to prišiel, keď pozoroval pri experimentoch s holubmi zvláštny paradox - keď dostávali odmenu za každé jedno vykonanie cviku (napr. stlačenie páčky prinieslo zrnko obilia), časom ich výkon klesol - akonáhle sa ako-tak nasýtili, prestalo ich to baviť. A tak začal experimentovať s rozličnými plánmi posilňovania (reinforcement schedules). Rozlišujeme 4 druhy plánov posilňovania:

Fixný interval: zviera dostane odmenu vždy po uplynutí určitého časového intervalu, ale musí v jeho priebehu podať aspoň 1 správnu odpoveď (fixed interval reinforcement schedule).
Premenlivý interval: zviera dostane odmenu vždy po uplynutí inak dlhého intervalu, plus musí počas neho podať aspoň 1 správnu odpoveď (variable interval reinforcement schedule).
Fixný pomer: zviera dostane odmenu pravidelne, vždy po určitom počte správnych odpovedí (fixed ratio reinforcement schedule).
Premenlivý pomer: zviera dostane odmenu nepravidelne, vždy po inom počte správnych odpovedí (variable ratio reinforcement schedule).

Premenlivé plány posilňovania sa ukázali byť najefektívnejšie - pretože zviera nikdy nevedelo, kedy odmena príde, o to viac sa snažilo. A presne tento princíp využíva clicker tréning, keď systémom malých krokov učíme zviera stále zložitejšiemu správaniu (viz článok o shapingu).

Toto je základ teórie učenia, ktorú prakticky využíva clicker tréning (CT; clicker training).

Teória učenia I. - Typy učenia

Linhart popísal r. 1967 deväť druhov učenia na subhumánnej rovine:

Habituácia: alebo navykanie, je pasívna forma učenia. Podnet, ktorý nemá pre zviera žiadne dôsledky, si zviera časom prestane všímať (napr. kôň sa prestane báť áut, ak mu celé dni jazdia okolo výbehu). Istou formou habituácie je aj systematická desenzitivizácia, kedy zviera postupne privykáme stále väčšej a väčšej intenzite podnetu, ktorý pôvodne netolerovalo, až kým si naň úplne neprivykne a nevymizne úzkostná reakcia (napr. zvykanie potkana na vodu).
Klasické podmieňovanie: nepodmienený podnet sa spáruje s už podmieneným podnetom, ktorý vyvoláva nepodmienenú reakciu; tým sa pôvodne nepodmienený podnet časom stane podnetom podmieneným (v praxi: pes uvidí misku s granulami a začne automaticky sliniť; keď viac ráz zároveň s podaním misky zazvoníme na zvonček, pes časom začne slintať, už len keď začuje zvonček a ani pritom nemusí vidieť misku). Tento typ učenia nevyžaduje od zvieraťa žiadnu zámernú pozornosť či aktivitu, deje sa samovoľne.
Operantné podmieňovanie: aktívne učenie, pri ktorom sa zviera učí chápať dôsledky svojho správania. Vďaka posilňovaniu nepodmienenej reakcie na podmienený podnet sa táto časom stáva podmienenou reakciou (napr. poviem potkanovo meno, on náhodou pribehne a dostane pamlsok; keď sa to niekoľkokrát zopakuje, začne cielene pribiehať vždy, keď začuje svoje meno). Clicker tréning využíva v prvom rade tento typ učenia (viz ďalej).
Vyhasínanie: ak dostatočne dlhú dobu neprichádza posilnenie za podmienenú reakciu, táto reakcia postupne vymizne - vyhasne. Je to pasívny proces.
Imprinting: je skôr vývojová fáza, než typ učenia. Vo veľmi ranom veku sú vtáky a cicavce extrémne citlivé na určité podnety a veľmi rýchlo sa učia. Imprinting je mocný nástroj a ak do tohto procesu človek necitlivo zasahuje, môže vážne narušiť identitu zvieraťa a tým celé jeho duševné zdravie (napr. z rozmaznaných žriebät odchovaných na fľaši sa niekedy stanú zabijaci).
Latentné učenie: niekedy proces učenia nie je úplne zjavný. Súvisí to s funkciami mozgových štruktúr, ktoré konsolidujú spomienky. Latentné učenie nastáva medzi lekciami a je zdrojom "náhleho" pokroku, aj keď predtým mohlo byť zviera úplne "zaseknuté".
Učenie nápodobou: alebo sociálne učenie, typické pre mláďatá vtákov a cicavcov (súvisí s imprintingovým obdobím), no u dospelých cicavcov bolo zatiaľ preukázané len u primátov.
Diferenciačné učenie: prebieha v podstate na báze operantného podmieňovania, no hlavným cieľom je v tomto prípade rozlišovanie relevantných podnetov (tých, ktoré prinesú posilnenie). Je to aktívne učenie a vyžaduje maximálnu koncentráciu pozornosti.
Exploračné učenie: dalo by sa povedať, že takto sa označuje kreativita u zvierat. Súvisí s orientáciou v prostredí, spočíva v experimentovaní s objektami a vo vyhľadávaní nových situácií.

Poznámka - ľudia sú schopní všetkých týchto typov učenia a ešte ďalších 4 (verbálne učenie, učenie naspamäť, myšlienkové učenie - sem patrí aj učenie vhľadom - a ľudské sociálne učenie).

Pozrime sa teraz bližšie na operantné podmieňovanie. "Operantné" sa nazýva preto, že zviera je "operant" - subjekt, ktorý aktívne ovplyvňuje vlastné učenie tým, že operuje s dostupnými podnetmi. A podľa toho, akú spätnú väzbu dostane, rozhoduje sa, či svoje správanie nabudúce zopakuje alebo ho zmení. Čo je to spätná väzba? Je to informácia, ktorá do mozgu prichádza cez zmyslové orgány po tom, čo vykonáme nejakú akciu. Napr. sa dotknem horúcej platne - a moje receptory tepla a bolesti okamžite odošlú do mozgu negatívnu spätnú väzbu, ktorá ma informuje o tom, že to nebol až taký dobrý nápad a že sa neoplatí skúšať to znova. Naopak, ak vykonám správanie, ktoré mi prinesie pozitívnu spätnú väzbu (napr. sa usmejem na neznámeho človeka a on úsmev opätuje, čo vo mne vyvolá príjemný pocit), budem mať tendenciu v budúcnosti ho zopakovať. Takto sa v mozgu vytvárajú nové, "podmienené" spojenia medzi nervovými bunkami - organizmus sa učí.

Clicker tréning pre potkany

Stránky

Prvé lekcie - "naklikanie", targeting, default behavior

Teória učenia II. - Kruh motivácie v operantnom podmieňovaní

Teória učenia I. - Typy učenia

Poverčivé správanie

Demoličná čata v akcii

Keep-going signal alebo "Super, pokračuj!"

Shaping alebo "Teplejšie, teplejšie... Horí!"

Čo je to clicker tréning?