本周早些時(shí)候,人工智能開(kāi)發(fā)平臺(tái) Hugging Face 發(fā)布了一款名為 SmolVLA 的開(kāi)源機(jī)器人 AI 模型。據(jù) Hugging Face 稱,SmolVLA 在虛擬和現(xiàn)實(shí)環(huán)境中均優(yōu)于許多規(guī)模更大的機(jī)器人模型。
IT之家注意到,Hugging Face 在其博客文章中表示:“SmolVLA 致力于普及視覺(jué) - 語(yǔ)言 - 行動(dòng)(VLA)模型的使用,并加速通用機(jī)器人智能體的研究進(jìn)程!盨molVLA 不僅是一個(gè)輕量級(jí)但功能強(qiáng)大的模型,更是一種用于訓(xùn)練和評(píng)估通用機(jī)器人技術(shù)的方法。
SmolVLA 是 Hugging Face 迅速拓展的低成本機(jī)器人軟硬件生態(tài)系統(tǒng)的一部分。去年,該公司推出了 LeRobot,這是一套專注于機(jī)器人的模型、數(shù)據(jù)集和工具。近期,Hugging Face 收購(gòu)了總部位于法國(guó)的機(jī)器人初創(chuàng)公司 Pollen Robotics,并推出了一系列可供購(gòu)買(mǎi)的廉價(jià)機(jī)器人系統(tǒng),包括人形機(jī)器人。
SmolVLA 擁有 4.5 億個(gè)參數(shù),這些參數(shù)有時(shí)也被稱為“權(quán)重”,是模型內(nèi)部決定其行為的組件。該模型是基于 Hugging Face AI 開(kāi)發(fā)平臺(tái)上共享的 LeRobot 社區(qū)數(shù)據(jù)集(專門(mén)標(biāo)記的機(jī)器人數(shù)據(jù)集)進(jìn)行訓(xùn)練的。Hugging Face 表示,SmolVLA 的規(guī)模小到可以在單個(gè)消費(fèi)級(jí) GPU 上運(yùn)行,甚至可以在 MacBook 上運(yùn)行,并且可以在包括該公司自身機(jī)器人系統(tǒng)在內(nèi)的“經(jīng)濟(jì)實(shí)惠”的硬件上進(jìn)行測(cè)試和部署。
有趣的是,SmolVLA 還支持“異步推理堆!,Hugging Face 稱這一功能可以使模型將機(jī)器人行動(dòng)的處理與視覺(jué)和聽(tīng)覺(jué)的處理分離。正如該公司在博客中解釋的那樣:“由于這種分離,機(jī)器人能夠在快速變化的環(huán)境中更快地做出響應(yīng)。”
SmolVLA 已可在 Hugging Face 官方網(wǎng)站上下載。已經(jīng)有用戶在社交平臺(tái) X 上聲稱,他們利用該模型控制了第三方機(jī)械臂。

值得注意的是,Hugging Face 并非開(kāi)放機(jī)器人領(lǐng)域唯一的參與者。英偉達(dá)擁有一套用于開(kāi)放機(jī)器人的工具集,而初創(chuàng)公司 K-Scale Labs 正在開(kāi)發(fā)其所謂的“開(kāi)源人形機(jī)器人”組件。此外,該領(lǐng)域的其他實(shí)力強(qiáng)勁的公司包括 Dyna Robotics、杰夫 貝索斯支持的 Physical Intelligence,以及 RLWRLD。