Ukazuje se, že robot, který po zpackané ranní kávě pronese „upřímně se omlouvám“ s přesně odměřenou dávkou digitální kajícnosti, je pořád jenom robot, který vám právě prohnal horkou černou břečku klávesnicí. Vstupujeme do éry, kdy naše plechové kolegy programujeme k sociální obratnosti, ale fascinující nová studie naznačuje, že ani veškerá zdvořilost světa nedokáže vykompenzovat prostou neschopnost.
Vědci se stále více zaměřují na „měkkou“ vědu o interakci člověka s robotem (HRI) a uvědomují si, že jakmile roboti opustí tovární haly a vstoupí do našich domovů a kanceláří, pouhá fyzická síla a přesnost nestačí. Musí nám rozumět. Studie nedávno publikovaná v časopise IEEE Robotics and Automation Letters se do této výzvy pouští po hlavě: trénuje kolaborativního robota, aby četl lidské emoce nejen z tváře, ale z celkového kontextu situace. Výsledkem je vystřízlivění a – upřímně řečeno – docela vtipný střet s realitou pro každého, kdo si myslí, že empatický robot je konečnou hranicí vývoje.
Jak naučit bota „číst místnost“
Výzkumný tým pod vedením Seung Chan Honga, který na projektu pracoval během svého bakalářského studia na University of Melbourne, se rozhodl ignorovat přežité metody detekce emocí. Namísto pouhé analýzy statického výrazu tváře – kde si systém snadno poplete svraštělé obočí soustředěného člověka se vztekem – nasadili vědci Vision Language Model (VLM). Představte si ho jako bratrance ChatGPT, který má ale oči.
VLM trénovali tak, že mu pouštěli videa, na nichž si lidé a roboti předávají předměty, a dobrovolníci u toho štítkovali projevované emoce. Klíčové bylo, že tito lidé viděli celý obraz: upuštěný předmět, lehké cuknutí v obličeji nebo netrpělivé poklepávání prsty. Tento trénink bohatý na kontext se vyplatil. Když byl model postaven proti konvenčnímu systému AI, který sledoval pouze obličej, vedl si VLM výrazně lépe – dosáhl shody 0,86 s lidskými pozorovateli, zatímco starší model jen 0,77.
„Myslím, že [VLM] se dokázal mnohem lépe naladit na to, co viděli lidé, protože nesledoval jen tvář osoby po krátký okamžik, ale vnímal celou scénu,“ poznamenal Hong v rozhovoru pro IEEE Spectrum.
Dokonalá omluva za mizerný výkon
Tady to ale začíná být zajímavé. Tým navrhl experiment se 40 dobrovolníky. Každý z nich musel spolupracovat s robotem poháněným VLM, který byl naprogramován tak, aby schválně udělal chybu. Po nevyhnutelném selhání robot nabídl jednu ze dvou omluv: buď generickou, předem napsanou frázi, nebo „emocionálně adaptivní“ omluvu ušitou na míru aktuální frustraci daného člověka.
Výsledky byly jednoznačné: lidé výrazně preferovali robota, který dokázal přečíst jejich otrávenost a přizpůsobit jí své „to mě mrzí“. Celých 31 ze 40 účastníků dalo přednost emocionálně vyladěné odpovědi. Zdá se, že personalizovaná omluva funguje jako účinné „sociální mazivo“.
Jenže v tom je ten háček. Když došlo na hodnocení důvěry v robota, body letěly strmě dolů u všech skupin bez ohledu na to, jak mile se robot omlouval. Krutou pravdou zůstává, že robot může být citlivý jako renesanční básník, ale pokud nezvládne svou jedinou práci, věřit mu nebudeme. Jak Hong stroze konstatuje, omluva prostě „nedokáže opravit důvěru ztracenou tím, že robot selhal ve svém fyzickém úkolu“.
Žádný čtenář myšlenek, jen dobrý tipař
Studie odhalila ještě jedno zásadní omezení. Zatímco VLM dokázal slušně napodobit pozorovatele z třetí osoby, jeho schopnost odhadovat emoce totálně propadla ve srovnání s tím, co dobrovolníci skutečně cítili (podle jejich vlastních hlášení).
To ukazuje na propastnou mezeru mezi vnímáním vnějších sociálních signálů a pochopením vnitřního prožívání. VLM sice dokázal rozpoznat zamračení a skleslý postoj a správně vyvodit „nespokojenost“, ale nedokázal uchopit nuance zklamání, frustrace nebo pocitu zrady, které uživatel prožíval uvnitř. „VLM je sice dobrým pozorovatelem vnějších projevů, ale neumí číst myšlenky,“ vysvětlil Hong.
Tato práce slouží jako důležité připomenutí pro celý robotický průmysl. Snaha o vytvoření emočně inteligentních strojů, které hladce vplují do našich životů, je sice chvályhodná, ale nesmí jít na úkor základní spolehlivosti. Než si pořídíme robota, který nám nabídne rameno k vyplakání, pojďme se nejdřív ujistit, že nám to kafe vůbec nepovyleje. Celý článek „Can Robots Read Your Mind? A User Study on Inferring Human Emotions in HRI“ si můžete přečíst v IEEE Xplore.
