NVIDIA ogłosiła przejęcie Run:ai, izraelskiego startupu, który opracował orkiestrator GPU oparty na Kubernetes. Chociaż dokładna cena transakcji nie została ujawniona, szacuje się, że wartość tej umowy oscyluje między 700 milionami a 1 miliardem dolarów.
Przejęcie Run:ai podkreśla rosnące znaczenie Kubernetes w erze generatywnej sztucznej inteligencji. Kubernetes staje się de facto standardem w zarządzaniu infrastrukturą do przyspieszania obliczeń opartych na GPU.
Run:ai, założony w 2018 roku w Tel Awiwie przez Omri Gellera (CEO) i dra Ronena Dara (CTO), jest startupem specjalizującym się w infrastrukturze AI. Firma stworzyła platformę orkiestracji i wirtualizacji, dostosowaną do specyficznych wymagań obciążeń AI działających na GPU, która efektywnie zarządza i dzieli zasoby. W marcu 2022 roku, w rundzie finansowania serii C, którą prowadzili Tiger Global Management oraz Insight Partners, Run:ai pozyskał 75 milionów dolarów, co zwiększyło łączne finansowanie firmy do 118 milionów dolarów.
Problem rozwiązany przez Run:ai
Inaczej niż CPU, GPU nie mogą być łatwo wirtualizowane, aby umożliwić jednoczesne wykorzystanie przez wiele obciążeń. Hypervisory, takie jak VMware’s vSphere czy KVM, umożliwiają emulację wielu wirtualnych CPU z pojedynczego fizycznego procesora, co daje obciążeniom iluzję działania na dedykowanym CPU. W przypadku GPU nie można ich skutecznie dzielić na różne zadania uczenia maszynowego, takie jak trening czy wnioskowanie. Na przykład, badacze nie mogą użyć połowy GPU do treningu i eksperymentów, podczas gdy druga połowa służyłaby do innego zadania uczenia maszynowego. Podobnie nie mogą grupować wielu GPU, aby lepiej wykorzystać dostępne zasoby. Stanowi to ogromne wyzwanie dla przedsiębiorstw korzystających z obciążeń opartych na GPU w chmurze czy lokalnie.
Opisany problem dotyczy również kontenerów i Kubernetes. Jeśli kontener wymaga GPU, w efekcie zużywa on 100% mocy GPU, jeśli nie jest wykorzystywany w pełni. Niedobór chipów AI i GPU tylko pogłębia ten problem.