Nowy symulator AI: 10 minut zadań robota na RTX 4090

Modele świata w robotyce mają zazwyczaj jedną wspólną cechę: przy dłuższych symulacjach ich fizyka wykazuje stabilność mokrego kartonu. Nowy projekt, Interactive World Simulator, wchodzi na scenę, by to zmienić, oferując ponad 10 minut stabilnych, interaktywnych predykcji wideo przy 15 klatkach na sekundę. A to wszystko na pojedynczym układzie NVIDIA, Inc. RTX 4090. Tak, wzrok was nie myli. Dziesięć minut złożonej fizyki działającej płynnie na konsumenckim procesorze graficznym.

Opracowany przez badacza Yixuan Wang model świata sterowany akcjami to nie tylko wygenerowany wcześniej film – to w pełni interaktywna symulacja, którą można „prowadzić” w czasie rzeczywistym. Największe wrażenie robi fakt, że możecie przetestować ją sami w przeglądarkowym demo już teraz, bez użerania się z bibliotekami Pythona czy męki z pip install. Model radzi sobie z szeregiem zadań wymagających precyzyjnego kontaktu, od skomplikowanego układania kabli po sprzątanie stert przedmiotów – a wszystko to dzieje się wyłącznie w przestrzeni pikseli. To nie są nagrania z prawdziwej kamery, lecz predykcje w pętli otwartej generowane bezpośrednio przez model.

Dlaczego to ma znaczenie?

To nie tylko efektowne tech-demo; to potencjalne rozwiązanie dwóch największych problemów, z jakimi boryka się współczesna robotyka. Po pierwsze, pozwala na skalowalne generowanie danych. Zamiast polegać na powolnych i kosztownych robotach w świecie rzeczywistym, deweloperzy mogą tworzyć całe góry fizycznie wiarygodnych danych wewnątrz symulatora. Po drugie, umożliwia rzetelną ewaluację strategii (policy evaluation), pozwalając badaczom testować i dopracowywać „mózg” robota w bezpiecznym, spójnym i nieskończenie powtarzalnym świecie wirtualnym, zanim w ogóle dotkną jakiegokolwiek hardware’u. Krótko mówiąc: trening robotów staje się tańszy, szybszy i znacznie mniej ryzykowny dla ramienia za kilkanaście tysięcy euro, które mogłoby inaczej postanowić przebić ścianę na wylot.