Czy roboty wreszcie zrobią porządki? Wyzwanie BEHAVIOR mówi 'Trzymaj moje piwo'

Przez dziesięciolecia obietnica robota domowego była… cóż, tylko obietnicą. Mieliśmy już mieć Rosie Robot, a zamiast tego mamy dyskoidalne odkurzacze, które klinują się na dywanikach łazienkowych. Przepaść między science fiction a naszą domową rzeczywistością jest ogromna, usłana trupami upadłych startupów i szumnymi, ale pustymi demonstracjami. Ale nowy konkurs, BEHAVIOR Challenge, który zadebiutuje na NeurIPS 2025, ma zamiar wciągnąć tę dziedzinę, kopiącą i wrzeszczącą, w prawdziwy świat. A przynajmniej w jego bardzo, bardzo przekonującą symulację.

Wyzwanie jest proste w założeniach, ale brutalne w wykonaniu: zmusić robota do wykonywania prawdziwych obowiązków domowych. Nie tylko podnoszenie klocka, ale wykonywanie złożonych, wieloetapowych czynności, które ludzie uważają za nudne. BEHAVIOR, czyli Benchmark for Everyday Household Activities in Virtual, Interactive, and Realistic environments, to nie jest kolejny benchmark dla robotyki; to pełnoprawny domowy tor przeszkód, zaprojektowany, by złamać dzisiejszą sztuczną inteligencję na najwyższym poziomie. I szczerze mówiąc, najwyższy czas, żeby ktoś się za to zabrał.

Witajcie w domu z Doliny Niesamowitości

Sercem BEHAVIOR Challenge jest niezwykle wyrafinowane środowisko symulacyjne, które sprawia, że większość piaskownic robotycznych wygląda jak dziecięcy kojec. To nie jest sterylne laboratorium; to świat o wysokiej wierności, oparty na fizyce, gdzie sprawy potrafią się skomplikować. Benchmark opiera się na trzech filarach:

  • 1000 codziennych zadań: Zapomnijcie o układaniu kostek. Mówimy o zadaniach takich jak „Składanie koszy prezentowych”, „Sprzątanie talerzy i jedzenia” oraz egzystencjalnie przerażające „Chowanie dekoracji halloweenowych”. Każde zadanie jest formalnie zdefiniowane w języku BEHAVIOR Domain Definition Language (BDDL), który określa stan początkowy i precyzyjne warunki sukcesu.
  • 50 interaktywnych środowisk: To nie są tylko statyczne pomieszczenia, ale w pełni interaktywne układy w skali domu, wypełnione około 10 000 manipulowalnych obiektów. Lodówkę można otworzyć, pomidora pokroić, a tkaninę można, cóż, zdeformować.
  • Symulator OmniGibson: Zbudowany na platformie Omniverse firmy NVIDIA, to właśnie tutaj dzieje się magia (i fizyka). OmniGibson obsługuje nie tylko fizykę ciał sztywnych, ale także zaawansowane zjawiska, takie jak obiekty odkształcalne, interakcje płynów i złożone zmiany stanu, takie jak ogrzewanie, chłodzenie i cięcie. To właśnie odróżnia go od poprzedników, umożliwiając poziom realizmu kluczowy dla szkolenia robotów, które pewnego dnia mogą trafić do prawdziwej kuchni.

To nie jest tylko test manipulacji czy nawigacji w izolacji. BEHAVIOR to pierwszy tego rodzaju benchmark, który wymaga od robota jednoczesnego wykonywania rozumowania wysokiego poziomu, nawigacji na duże odległości i zręcznej manipulacji oburęcznej. Aby odnieść sukces, sztuczna inteligencja nie może być dobra tylko w jednej rzeczy; musi być dobra w myśleniu jak (bardzo cierpliwy) człowiek.

Tor przeszkód NeurIPS 2025

Na swój inauguracyjny start na NeurIPS 2025, wyzwanie wypuszcza 50 takich pełnowymiarowych zadań na globalną społeczność badawczą. Uczestnicy będą musieli zaprogramować wirtualnego robota, aby zmierzył się ze scenariuszami, których ukończenie może zająć kilka minut, rozciągając się na wiele pomieszczeń i obejmując dziesiątki podcelów. Pomyślcie o „Robieniu pizzy” czy „Myciu zabawek dla psa” – zadaniach, które wymagają planowania, pamięci i mnóstwa cyfrowej krzepy.

Domyślnym robotem do tego symulacyjnego testu bojowego jest Galaxea R1 Pro, humanoidalny robot na kołach z dwoma 7-stopniowymi ramionami swobody, 4-stopniowym tułowiem i zestawem czujników. To nie jest jakaś niezdarna puszka; jego konstrukcja została wyraźnie wybrana ze względu na zasięg, stabilność i koordynację oburęczną, które są niezbędne w czynnościach domowych.

Aby uczestnicy nie musieli bootstrapować swojej sztucznej inteligencji od stanu pierwotnej ignorancji, organizatorzy dostarczają ogromny zbiór danych: 10 000 demonstracji eksperckich, co łącznie daje ponad 1200 godzin skrupulatnie nagranych danych. To nie są trzęsące się, amatorskie nagrania. To czyste, niemal optymalne dane, zebrane przez dostawcę Simovation za pomocą systemu teleoperacji JoyLo. JoyLo, sprytne rozwiązanie wykorzystujące kontrolery ręczne na kinematycznych ramionach bliźniaczych, pozwala ludzkim operatorom płynnie prowadzić robota przez zadania, stanowiąc doskonały szablon do uczenia się przez imitację.

Dlaczego to jest takie cholernie trudne

Termin „długi horyzont” jest często rzucany na wiatr w świecie AI, ale BEHAVIOR nadaje mu kły. Zadanie takie jak „Pakowanie książek do przechowywania” może wymagać od robota nawigacji do salonu, zidentyfikowania odpowiednich książek, znalezienia pudełka w garażu, przyniesienia go z powrotem, a następnie sekwencyjnego umieszczenia każdej książki w środku. To testuje planowanie i pamięć przez dłuższe okresy w sposób, w jaki niewiele benchmarków kiedykolwiek to robiło.

Co więcej, sama różnorodność interakcji z obiektami jest oszałamiająca. Roboty muszą rozumieć i wykonywać umiejętności znacznie wykraczające poza chwytanie. Będą musiały nalewać płyny, wycierać powierzchnie, kroić warzywa i przełączać włączniki. Obiekty można otwierać, zamykać, podgrzewać, zamrażać, czyścić, a nawet podpalać. Ten bogaty zestaw wymaganych umiejętności – co najmniej 30 odrębnych prymitywów – zmusza badaczy do wyjścia poza modele jednofunkcyjne i dążenia do bardziej uogólnionej, adaptacyjnej inteligencji.

Aby wyzwanie było dostępne, organizatorzy udostępniają kilka modeli bazowych, w tym standardy takie jak ACT i Diffusion Policy, a także wstępnie wytrenowane modele, takie jak OpenVLA. Cała struktura jest otwartoźródłowa, wraz z zestawami startowymi i samouczkami, aby obniżyć próg wejścia.

Jak ocenić robotycznego lokaja?

Sukces w BEHAVIOR Challenge mierzy się przede wszystkim wskaźnikiem sukcesu zadania. System wykorzystuje definicje BDDL, aby sprawdzić, czy robot spełnił wszystkie warunki celu. Przyznawane są punkty częściowe, co zachęca do rozwiązań, które robią znaczący postęp, nawet jeśli nie osiągają perfekcji.

Śledzone będą również dodatkowe wskaźniki, aby oddzielić sprytnych od niezdarnych:

  • Efektywność: Mierzony będzie czas, przebyta odległość i całkowity ruch stawów. Eleganckie rozwiązanie to szybkie rozwiązanie.
  • Wykorzystanie danych: Organizatorzy odnotują, ile z 1200 godzin danych demonstracyjnych zostało wykorzystanych do szkolenia każdego zgłoszenia, dostarczając wglądu w efektywność danych.

Konkurs oficjalnie rozpoczął się 2 września 2025 roku, a ostateczny termin składania zgłoszeń upływa 16 listopada. Zwycięzcy, którzy zostaną ogłoszeni na konferencji NeurIPS w San Diego w grudniu, otrzymają nagrody pieniężne – skromne 1000 dolarów za pierwsze miejsce – ale prawdziwą nagrodą są prawa do przechwalania się i szansa na znaczące rozwinięcie dziedziny ucieleśnionej sztucznej inteligencji.

Ostatecznie BEHAVIOR Challenge to coś więcej niż tylko konkurs; to test rzeczywistości dla całej branży robotyki. To skrupulatnie zaprojektowany tygiel, który ma sprawdzić, czy nasze algorytmy są gotowe opuścić laboratorium i wkroczyć w chaotyczne, nieprzewidywalne i często lepkie środowisko ludzkiego domu. Wyniki z NeurIPS 2025 nie tylko pokażą nam, kto ma najlepszy model; pokażą nam, jak długa droga przed nami, zanim nasi robotyczni pomocnicy będą gotowi do zmywania naczyń.