Roboty usługowe uczą się rozpoznawać obiekty 3D

Na podstawie modeli 3D przedstawiających obiekty użytku codziennego algorytm opracowany w Duke University może zgadywać, czym są te obiekty i wizualizować ich wygląd jako obiekt 3D. Wynik zgadywania algorytmu przedstawiono na środku, a rzeczywisty model po stronie prawej. Źródło: Duke Robotics and Brown Robotic

Autonomiczne roboty potrafią przeszukiwać teren elektrowni atomowych, usuwać wycieki ropy naftowej na oceanie, wspierać myśliwce w walce oraz eksplorować powierzchnię Marsa, jednak wciąż nie potrafią zaparzyć nam herbaty. Włączenie kuchenki, wyszukanie czajnika, znalezienie mleka i cukru wymaga poziomu percepcji, który dla większości maszyn jest niedostępny. Do tych umiejętności należy również zdolność do rozpoznawania obiektów 3D. Większość robotów potrafi dostrzec przedmioty za pomocą kamer i innych czujników, ale szybka interpretacja obrazu jest znacznie trudniejsza.

Nawet najlepsze roboty na świecie nie potrafią tego, co większość dzieci robi automatycznie. Jednakże Ben Burchfiel z Duke University oraz jego koledzy mogą być blisko rozwiązania tego problemu. Burchfiel wraz ze swoim promotorem Georgem Konidarisem, obecnie profesorem nauk informatycznych na uniwersytecie Brown, stworzyli technologię, która pozwala maszynom na interpretacje przedmiotów 3D w bardziej ludzkim pojęciu.

Na przykład robot, który sprząta naczynia ze stołu, musi być w stanie odróżnić miski, patery i talerze w różnych kształtach i rozmiarach na nieuporządkowanej powierzchni. Ludzie potrafią spojrzeć na jakiś obiekt i intuicyjnie wiedzą, czym on jest, niezależnie od tego, czy leży na boku, czy do góry nogami, jest dobrze widoczny lub też częściowo zasłonięty innymi obiektami. Nawet gdy obiekt jest częściowo zakryty, potrafimy wypełnić to, czego nie widzimy.

Opracowany przez badaczy z Duke University algorytm percepcji robota może jednocześnie zgadywać, czym jest obiekt i w jakiej pozycji się znajduje, bez potrzeby uprzedniego oglądania go pod wieloma kątami. Potrafi również „wyobrazić sobie” część obiektu będącą poza zasięgiem wizji.

Algorytm

Robot wyposażony w tę technologię nie musi mieć obrazu czajnika z każdej strony, by na przykład wiedzieć, że czajnik jest wyposażony w uchwyt, pokrywkę i dzióbek, oraz czy jest on ustawiony pionowo, czy też jest przekrzywiony. Badacze twierdzą, że wynikiem ich pracy są roboty rozpoznające domowe przedmioty trzy razy szybciej i robiące przy tym mniej pomyłek. Zdaniem Burchfiela jest to ważny krok w kierunku robotów współpracujących w naszych domach i przy innych środowiskach, które są w mniejszym stopniu zorganizowane i mniej uporządkowane niż środowisko laboratoryjne lub wnętrze fabryki.

Robot ma wbudowaną daną liczbę przykładów i porównuje je z nowymi obiektami. – Założenie, że robot ma dokładny model 3D każdego przedmiotu, który może zobaczyć, jest niepraktyczne – twierdzi Burchfiel. Badacze uczyli algorytm rozpoznawać obiekty, wykorzystując zbiór 4 tys. skanów 3D obiektów domowych. Każdy z modeli został podzielony na tysiące niewielkich prostopadłościanów, dla łatwiejszego przetwarzania danych ułożonych w sposób zachodzący na siebie. Algorytm uczy się kategorii tych obiektów poprzez wertowanie przykładów każdego z nich i rozpoznawanie różnic między nimi, stosując przy tym technikę zwaną probabilistyczną zasadą analizy obiektu.

Gdy robot zobaczy coś nowego, nie musi przeszukiwać całego swojego katalogu w poszukiwaniu tego obiektu. Bazując na swoich doświadczeniach, robot uczy się cech charakterystycznych obiektu.

Podobnie jak robi to człowiek, robot, bazując na zdobytej wiedzy, dokonuje pewnych założeń – zakłada, że dwie rzeczy mogą się różnić, wciąż posiadając cechy wspólne, które sprawiają, że oba obiekty należą do tej samej grupy obiektów (np. tego samego rodzaju mebli).

Testowanie

Aby przetestować powyżej opisaną metodę, badacze nauczyli algorytm rozpoznawać 908 nowych modeli 3D przedstawiających przedmioty domowe z dziesięciu kategorii, widziane od góry. Obserwując obiekty pod tym samym kątem, algorytm poprawnie zidentyfikował około 75% obiektów oraz przewidywał, jaki ogólny wygląd 3D ma obiekt, włącznie z jego zakrytymi częściami. Najlepsza dostępna dziś alternatywa tego systemu ma zdolność interpretacji na poziomie 50%.

Algorytm mógł również rozpoznawać obiekty obrócone na różne sposoby, czego inne konkurencyjne algorytmy nie potrafią.

– System jest względnie szybki – cały proces zajmuje około jednej sekundy – to jednak wciąż daleko od osiągnięcia szybkości ludzkiej percepcji – mówi Burchfiel. Obiekty widziane pod pewnymi kątami wyglądają podobnie i z łatwością oszukują algorytm oraz wcześniejsze metody. Na przykład odpowiednio przestawiony stół może zostać uznany za szafę.

– Algorytm myli się zazwyczaj w około 25% przypadków, a najlepszy jego rywal myli się w połowie prób, więc jest to znaczące ulepszenie – twierdzi Burchfiel. – System wciąż jednak nie jest gotowy na pracę w twoim domu – nie chcesz przecież, aby robot wkładał poduszkę do zmywarki – dodaje.

Zespół pracuje nad rozwiązaniem skalowalnym, by roboty mogły rozpoznawać rzeczy spośród tysięcy obiektów.

– Badacze już od jakiegoś czasu uczą roboty rozpoznawania obiektów 3D – twierdzi Burchfiel. Nowością jest możliwość rozpoznawania obiektu wraz z uzupełnieniem niewidocznych części obiektu i ich rekonstrukcji, co w wielu zastosowaniach robotów może być nieocenione.

Robin A. Smith, Duke University