Robot wie, że jesteś zły, ale może go to nie …

Okazuje się, że robot, który z niemal ludzkim wyczuciem i nutką cyfrowej skruchy mówi „najmocniej przepraszam” tuż po tym, jak zaserwował twojej klawiaturze gorącą kąpiel w kawie, to wciąż tylko robot, który właśnie zniszczył ci sprzęt. Wkraczamy w erę, w której nasi metalowi współpracownicy są programowani do bycia uprzejmymi, ale fascynujące nowe badania sugerują, że nawet najbardziej wyrafinowane maniery nie zrekompensują nam zwyczajnej niekompetencji.

Naukowcy coraz bardziej skupiają się na „miękkiej” nauce o interakcji człowiek-robot (HRI), zdając sobie sprawę, że gdy maszyny opuszczają hale fabryczne i wchodzą do naszych domów oraz biur, surowa sprawność fizyczna to za mało. Muszą nas po prostu rozumieć. Badanie opublikowane niedawno w IEEE Robotics and Automation Letters rzuca wyzwanie temu zagadnieniu, szkoląc robota współpracującego do odczytywania ludzkich emocji nie tylko z twarzy, ale z całego kontekstu sytuacji. Wyniki to otrzeźwiający – i, szczerze mówiąc, dość zabawny – sprawdzian rzeczywistości dla każdego, kto sądził, że empatyczny robot to ostateczna granica rozwoju.

Jak nauczyć bota „czytania pokoju”

Zespół badawczy, którym kierował Seung Chan Hong podczas studiów licencjackich na University of Melbourne, postanowił porzucić oklepane metody wykrywania emocji. Zamiast analizować statyczną mimikę – która łatwo może pomylić zmarszczone z wysiłku brwi ze złością – zespół wykorzystał model Vision Language Model (VLM). Myślcie o nim jak o kuzynie ChatGPT, tyle że wyposażonym w oczy.

VLM trenowano, pokazując mu nagrania wideo, na których roboty przekazywały przedmioty ludziom, a wolontariusze etykietowali towarzyszące temu emocje. Co kluczowe, obserwatorzy widzieli pełny obraz: upuszczony przedmiot, lekkie skrzywienie, niecierpliwe stukanie palcami. To szkolenie oparte na kontekście przyniosło efekty. W starciu z konwencjonalnym systemem AI, który bazował wyłącznie na analizie twarzy, VLM poradził sobie znacznie lepiej, osiągając wynik podobieństwa do ludzkich ocen na poziomie 0,86 (starszy model wykręcił zaledwie 0,77).

„Sądzę, że [VLM] był w stanie znacznie lepiej zgrać się z tym, co widzieli ludzcy obserwatorzy, ponieważ nie gapił się tylko na twarz osoby przez krótką chwilę, ale widział całą scenę” – zauważył Hong w wywiadzie dla IEEE Spectrum.

Perfekcyjne przeprosiny za fatalny występ

I tu dochodzimy do najciekawszego momentu. Zespół zaprojektował eksperyment z udziałem 40 ochotników. Każdy z nich musiał współpracować z robotem napędzanym przez VLM, który został zaprogramowany tak, by celowo popełnić błąd. Po nieuniknionej wpadce maszyna serwowała jedne z dwóch przeprosin: generyczną, wyuczoną formułkę lub „emocjonalnie adaptacyjne” przeprosiny, skrojone pod aktualną frustrację człowieka.

Wyniki były jednoznaczne: ludzie zdecydowanie woleli robota, który potrafił odczytać ich irytację i odpowiednio dopasować swoje „przepraszam”. Aż 31 z 40 uczestników opowiedziało się za odpowiedzią dostrojoną emocjonalnie. Wygląda na to, że spersonalizowane przeprosiny działają jak skuteczny „smar społeczny”.

Ale oto puenta: kiedy zapytano uczestników o zaufanie do robota, oceny poleciały na łeb na szyję w obu grupach, niezależnie od tego, jak uroczo robot przepraszał. Brutalna prawda jest taka, że robot może być wrażliwy niczym romantyczny poeta, ale jeśli nie potrafi wykonać swojej podstawowej pracy, nie będziemy mu ufać. Jak bez ogródek stwierdził Hong: przeprosiny „nie są w stanie naprawić zaufania utraconego przez to, że robot zawalił zadanie fizyczne”.

Nie jasnowidz, a jedynie dobry analityk

Badanie ujawniło jeszcze jedno krytyczne ograniczenie. Choć VLM całkiem nieźle naśladował zewnętrznego ludzkiego obserwatora, jego zdolność do zgadywania emocji drastycznie spadała w porównaniu z tym, co wolontariusze faktycznie czuli (według ich własnych raportów).

Uwidacznia to fundamentalną lukę między postrzeganiem zewnętrznych sygnałów społecznych a rozumieniem wewnętrznych stanów. VLM potrafił dostrzec grymas i zrezygnowaną postawę, poprawnie wnioskując o „niezadowoleniu”, ale nie był w stanie pojąć niuansów rozczarowania, frustracji czy poczucia zawodu, które użytkownik przeżywał w środku. „Choć VLM jest dobrym obserwatorem zewnętrznych wskazówek, nie czyta w myślach” – wyjaśnił Hong.

Ta praca to ważne przypomnienie dla całej branży robotycznej. Choć dążenie do stworzenia inteligentnych emocjonalnie maszyn, które płynnie wtopią się w naszą codzienność, jest szczytnym celem, nie może się to odbywać kosztem niezawodności. Zanim sprawimy sobie robota, któremu będzie można wypłakać się w ramię, upewnijmy się najpierw, że nie wyleje nam herbaty na spodnie. Pełną treść artykułu „Can Robots Read Your Mind? A User Study on Inferring Human Emotions in HRI” znajdziecie w IEEE Xplore.

Robot wie, że jesteś zły, ale może go to nie obchodzić

Jak nauczyć bota „czytania pokoju”

Perfekcyjne przeprosiny za fatalny występ

Nie jasnowidz, a jedynie dobry analityk

Wyślij nam poprawkę lub sugestię

NVIDIA's ENPIRE Lets AI Agents Run a Robot Research Lab, No Humans Required