Clicker tréning pre potkany: Shaping alebo "Teplejšie, teplejšie... Horí!"

V tomto článku si predstavíme ďalšiu techniku clicker tréningu - tvarovanie (shaping).

V predošlom článku sme sa zoznámili s prvou technikou CT - targetingom. Dnes si povieme niečo o tvarovaní. Čo to vlastne je? Určite ste ako deti hrávali hru "Teplo-zima" - no a to je princíp tvarovania. Áno, také jednoduché to je. :) Selektívnym posilňovaním krokov, ktoré vedú k cieľovému správaniu, postupne zviera navádzame správnym smerom - až kým nepochopí, čo je konečným cieľom cvičenia.

Najlepšie to pochopíme na príklade. Povedzme, že chceme potkaníka naučiť váľať sudy. To je pomerne náročné cvičenie - nielen na svalovú silu a koordináciu, ale aj na dôveru. Takže musíme začať od nuly a postupne sa prepracovať k cieľu - rozdeliť správanie na toľko malých krokov, koľko sa len dá. Ako pomôcku môžeme využiť target (ale nemusíme). V prvom kroku dáme target potkanovi napravo od hlavy a akonáhle sa za ním otočí, klikneme a posilníme (C/R). Keď sa spoľahlivo otáča za targetom na obe strany, začneme žiadať viac - aby nielen za targetom otočil hlavu, ale aby ju aj zdvihol a mierne zaklonil. Začneme využívať nepravidelný plán posilňovania - už odmeňujeme iba tie pokusy, ktoré spĺňajú toto nové kritérium. Keď už potkaník dobre spĺňa aj toto kritérium, opäť chceme viac - aby otočil, zaklonil hlavu a aj zdvihol prednú labku na tejto strane tela. Potom aby pretočil hornú časť tela. Potom aby sa položil na bok... Aby sa položil úplne na chrbát... Aby sa celkom prevrátil. Znie to zložito, ale potkany sa učia veľmi rýchlo a väčšinou sa podarí celé toto správanie - váľanie sudov - natvarovať v priebehu jednej-dvoch párminútových lekcií. ;-)

Tu by sme sa mali zastaviť a dovysvetliť, čo je to kritérium (criterion) - je to akýkoľvek aspekt správania, ktorý sa práve rozhodneme trénovať. Napr. pri nácviku chodenia na zadných bude jedným kritériom to, ako vysoko na zadné sa potkan zdvihne a druhým kritériom bude to, koľko krokov takto zvládne urobiť. Kritériá sú základom tvarovania, preto s nimi treba vedieť citlivo zaobchádzať.

Preto sa teraz pozrieme na 10 zákonov tvarovania, ako ich popísala Karen Pryor vo svojej knihe Don't Shoot the Dog:

Kritériá zvyšujeme po tak malých krokoch, aby malo zviera neustále realistickú šancu na úspech (úroveň správania, ktorú chceme, by sa mala občas náhodne prejaviť už predtým, než začneme výhradne posilňovať iba ju; ak po pridaní nového kritéria potkan prestane ponúkať správne odpovede, znamená to, že sme preskočili nejaký dôležitý krok - správanie treba rozdeliť na ešte viac malých častí; neponáhľame sa, práve naopak, čím budeme trpezlivejší, tým rýchlejší bude pokrok).
Trénujeme iba jeden aspekt správania naraz (jedno kritérium; napr. nežiadame od potkana, aby zároveň išiel po zadných vyššie aj ďalej, najprv natrénujeme jedno, potom druhé - inak by sme ho miatli).
Z jednej úrovne správania prechádzame na vyššiu tým, že na danej úrovni už správanie posilňujeme nepravidelne (tým dáme zvieraťu najavo, že sa musí začať viac snažiť, aby získalo C/R - a je dosť možné, že vtedy aj samo ponúkne nové kritérium / vyššiu úroveň starého kritéria).
Keď pridávame nové kritérium, dočasne musíme znížiť štandardy starého (viz príklad s chodením na zadných - aj keď sme už natrénovali panáčkovanie v takmer kolmej pozícii, tak keď začneme žiadať chôdzu vpred, musíme rátať s tým, že potkan dočasne pôjde menej vzpriamene).
Musíme byť pripravení aj na to, že potkan rýchlo pochopí, čo je cieľom hry a viacero krokov preskočí - vtedy musíme "držať tempo" a zbytočne ho nenudiť (to by viedlo k tomu, že by prestal ponúkať dané správanie a šiel by robiť niečo zaujímavejšie).
Jedno správanie by mal tvarovať iba jeden človek (už i tak je to pre zviera náročný proces, kde môže dôjsť k mnohým nedorozumeniam, netreba pridávať ešte ďalšie neznáme v podobe rozdielnych štýlov trénerov).
Ak jeden tvarovací plán (shaping plan) nefunguje, treba si vytvoriť iný (každému individuu vyhovuje niečo iné - niektoré potkany sa budú rady orientovať na target, iné sa možno budú lepšie cítiť bez neho, keď budú na správne odpovede prichádzať samy... treba skúsiť viacero ciest).
Neprerušujeme lekciu, keď nám zviera ponúka postup (to by bolo vlastne trestom a znížilo by to jeho celkovú motiváciu k spolupráci; týka sa to aj kolísania našej pozornosti - ak očakávame absolútne sústredenie od potkana, musíme ho aj my poskytnúť jemu).
Ak už naučené správanie opäť vymizne, treba zopakovať tvarovanie od začiatku (každý zabúda, je to prirodzené; tiež sa mohlo stať, že sme predtým nejaké dôležité kroky vynechali, takže sme nevybudovali pevné základy; potrebné je to aj v prípade, že správanie chceme v novom prostredí, čo je vlastne nové kritérium).
Treba skončiť včas (ak sa nám aj v jednej lekcii nepodarí natvarovať celé správanie, to vôbec nevadí; keďže postupujeme po malých krokoch, vždy máme čo odmeniť a môžeme tým pádom skončiť kedykoľvek, bez toho, že by sme "nedokončili, čo sme začali").

Ešte je tu aj pár ďalších zásad, ktoré by sme pri tvarovaní mali dodržiavať. Predovšetkým potkana nenudíme a neponižujeme pre vlastné potešenie tým, že ho stále dookola žiadame o to, čo už dávno vie - zviera nie je hračka. Buď pridáme ďalšie kritérium, alebo zvýšime úroveň stávajúceho kritéria (napr. pri skokoch zvyšujeme vzdialenosť), aby sme udržali jeho záujem o hru, ale rozhodne od potkana nechceme, aby napr. 20x za sebou urobil otočku - verte, po chvíli mu už ani tá najlepšia mlska na svete nebude stáť za to, aby zo seba robil blbca. ;-) Nehovoriac o tom, že vieme, že pravidelný režim posilňovania vedie časom k poklesu výkonu.

Vráťme sa ešte k hre "Teplo-zima". Určite si spomínate na to, aký to bol pocit, hrať túto hru a byť v roli toho, kto háda - ostatní sa nenápadne uchechtávajú, keď robíte nezmyselné pohyby, opakujete stále dookola tie isté chyby... A ten pocit vzrušenia i frustrácie zároveň, keď sa chvíľu cieľu približujete a potom zas vzďaľujete - tak nejak sa cíti aj zviera, keď uňho tvarujeme nejaké správanie. Nezabúdame na to, ako sa zviera cíti - ono dopredu nevie, čo je naším cieľom, takže sa snažíme dávať mu čo najjasnejšie inštrukcie, aby malo pocit bezpečia a kontroly nad situáciou. To znamená, že target používame s maximálnou presnosťou a rovnako presne musíme tiež načasovať kliknutie - možno sa zdá, že to je triviálna záležitosť, no opak je pravdou. Skúste si nejakú tú počítačovú hru na postreh a uvidíte, aké je to ťažké - resp. stačí aj obyčajná hra s rukami (sadnite si s kamarátom oproti sebe k stolu, položte ruky dlaňami dolu na stôl a jeden má za úlohu plesknúť po rukách druhému, pričom sa ani jeden nesmie dívať dolu). Akonáhle sa totiž oneskoríme / predbehneme, posilňujeme niečo úplne iné, než sme chceli a zviera tým mätieme - a potom sa môže stať, že bude niekoľko ráz za sebou neúspešne opakovať správanie, ktoré sme síce raz omylom posilnili, ale v skutočnosti ho vôbec nechceme - a keď C/R neprichádza, zviera bude stále viac a viac frustrované a možno dokonca úplne stratí motiváciu spolupracovať (a v ďalšej lekcii budeme musieť začať úplne od začiatku).

Lekciu sa snažíme skončiť C/R - nie tým, že frustrovaný potkan od nás ujde. To je už skôr otázka citu, než teórie - svojho potkana si poznáme, takže vieme predvídať, kedy ho hra s nami prestane baviť (pozornosť poľavuje - obzerá sa, pobieha, čistí sa...). Vtedy treba rýchlo požiadať o posledné správanie - niečo ľahké, triviálne, čo na 100% zvláda - posilniť jackpotom a ukončiť lekciu. V ďalšej lekcii potom naviažeme tam, kde sme minule skončili a ak sa ukáže, že to ešte nie je dostatočne naučené (potkan má malú úspešnosť), vrátime sa o niekoľko krokov dozadu.

Dobré je tiež použiť jackpot vždy, keď nastane väčší posun - napr. keď potkan konečne zvládne krok, ktorý mu dlho robil problém. K jackpotu patrí aj radostná pochvala a láskyplný dotyk (najlepšie poškrabkanie tam, kde to má potkaník obzvlášť rád). Ak však ešte chceme v lekcii pokračovať, dávame pozor, aby sme ho zbytočne nerozrušili - vtedy je lepší jackpot pozostávajúci z viacerých "nudných" pamlskov a pokojné pohladenie.

Pre pokročilejšie dvojice je vhodným spestrením aj tzv. freeshaping, čo je tvarovanie založené na zachytení (capturing), správania, ktoré sa objaví spontánne. Potkan potom sám musí ďalšími pokusmi prichádzať na to, aké je nasledujúce kritérium - tento princíp sa využíva napr. v cvičení na tvorivosť ("ukáž niečo nové"), no naozaj sa hodí len pre skúsených trénerov i potkany (už musia mať vybudovanú frustračnú toleranciu a mať dobre osvojené pravidlá hry).

Tak fajn, povedzme teda, že už tvarovaniu ako-tak rozumieme a rozhodli sme sa ho vyskúšať. Po niekoľkých krátkych lekciách sa nám podarilo želané správanie úspešne natvarovať do konečnej podoby. Potkaník nám napríklad robí ukážkové otočky. No vtedy sa väčšinou vyskytne jeden z týchto dvoch problémov:

Potkan vykonáva cvik sám od seba a očakáva za to C/R.
Potkan cvik nevykoná, ak bezprostredne nevidí odmenu.

A tu prichádzame k potrebe signálu, ktorý jednak dostane správanie pod kontrolu (takže ho potkan nebude na nás len tak náhodne "hádzať", aby si tým vynútil odmenu) a zároveň sa stane terciárnym posilnením, čím nám umožní časom eliminovať odmeny. Bližšie o signáloch pojednáva nasledujúci článok.

Stránky

Shaping alebo "Teplejšie, teplejšie... Horí!"