具身智能大冒险:空间理解模型让小车变聪明
AI STEM+ROBOT
2025 年 4 月 1 日(蛇年三月初四日)
大家好!今天我们要一起去探险,主角是一个会看、会听、会走的小车!我们用了一个叫“空间理解模型”的魔法,让小车变得超级聪明,能找到房间里的东西,还能听我们的话,走过去找它。这个魔法听起来很厉害,对吧?别担心,我会用简单的话讲清楚,就像讲一个有趣的故事!
空间理解模型就像给小车装了一双“聪明眼睛”和一双“会听话的耳朵”。它能让小车看懂周围的世界,知道哪里有杯子、哪里有桌子,还能听懂我们说“去杯子那里”,然后真的走过去!有些空间理解模型很大很厉害,比如 SpatialLM 和 3D-LLM,它们能看懂很复杂的房间,还能回答问题,比如“房间里有多少把椅子?”。但这些大模型需要很厉害的电脑,我们的小车用的是树莓派,跑不动它们。所以我们选了一个小模型,叫 YOLOv5 Nano。它虽然没有大模型那么厉害,但很轻巧,能在树莓派上跑,还能找到杯子、桌子这些东西。
我们为什么选 YOLOv5 Nano 呢?因为它比另一个小模型 MobileNet SSD 更聪明!科学家测试发现,YOLOv5 Nano 找东西的准确率有 30%,而 MobileNet SSD 只有 22-25%。而且 YOLOv5 Nano 一直在“长大”,它的创造者经常给它升级,让它更聪明。它的“身体”也很小,只有 3.5 MB,比 MobileNet SSD 小很多,树莓派背着它跑起来很轻松。还有,YOLOv5 Nano 有很多朋友在网上帮它,我们有问题也可以问他们!
我们的小车探险目标很简单:让它用摄像头找到东西,比如杯子;听我们说“去杯子那里”;然后自己走过去。我们用树莓派当小车的大脑,接上一个普通摄像头当眼睛,一个麦克风当耳朵,还用 Arduino 控制小车的轮子,让它能走路。为了让小车更安全,我们还加了一个超声波传感器,像小车的“触角”,可以发现前面的障碍物。
怎么让小车动起来呢?首先,我们用 YOLOv5 Nano 教小车看东西。它就像一个会画画的小画家,能在摄像头画面上画出框框,告诉我们“这是杯子”。为了让它跑得更快,我们把 YOLOv5 Nano 变成了一种叫 ONNX 的格式,这样小车看东西的速度可以从 3-5 次/秒变成 5-10 次/秒!我们还把画面变小,让小车看东西更轻松。接着,我们用一个叫 SpeechRecognition 的工具让小车听懂我们的话,用 gTTS 让小车跟我们说话。比如我们说“去杯子那里”,小车就知道要找杯子,还会说“正在找杯子”。最后,我们用 Arduino 控制小车走路:如果杯子在左边,小车就左转;如果在前面,就往前走。如果前面有障碍物,小车会停下来,说“前面有东西,我停下来了!”
经过努力,我们的小车变得可聪明了!它能找到杯子,听懂我们的话,自己走过去。虽然我们没用很厉害的大模型,但 YOLOv5 Nano 已经帮我们完成了任务。这个探险让我们学会了:空间理解模型可以让机器看懂世界,小模型虽然简单,但很适合我们的小车。如果你也想试试,可以找一个树莓派和一个小车,一起加入这场具身智能大冒险吧!