具身智能大冒险：空间理解模型让小车变聪明

AI STEM+ROBOT

2025 年 4 月 1 日（蛇年三月初四日）

大家好！今天我们要一起去探险，主角是一个会看、会听、会走的小车！我们用了一个叫“空间理解模型”的魔法，让小车变得超级聪明，能找到房间里的东西，还能听我们的话，走过去找它。这个魔法听起来很厉害，对吧？别担心，我会用简单的话讲清楚，就像讲一个有趣的故事！

空间理解模型就像给小车装了一双“聪明眼睛”和一双“会听话的耳朵”。它能让小车看懂周围的世界，知道哪里有杯子、哪里有桌子，还能听懂我们说“去杯子那里”，然后真的走过去！有些空间理解模型很大很厉害，比如 SpatialLM 和 3D-LLM，它们能看懂很复杂的房间，还能回答问题，比如“房间里有多少把椅子？”。但这些大模型需要很厉害的电脑，我们的小车用的是树莓派，跑不动它们。所以我们选了一个小模型，叫 YOLOv5 Nano。它虽然没有大模型那么厉害，但很轻巧，能在树莓派上跑，还能找到杯子、桌子这些东西。

我们为什么选 YOLOv5 Nano 呢？因为它比另一个小模型 MobileNet SSD 更聪明！科学家测试发现，YOLOv5 Nano 找东西的准确率有 30%，而 MobileNet SSD 只有 22-25%。而且 YOLOv5 Nano 一直在“长大”，它的创造者经常给它升级，让它更聪明。它的“身体”也很小，只有 3.5 MB，比 MobileNet SSD 小很多，树莓派背着它跑起来很轻松。还有，YOLOv5 Nano 有很多朋友在网上帮它，我们有问题也可以问他们！

我们的小车探险目标很简单：让它用摄像头找到东西，比如杯子；听我们说“去杯子那里”；然后自己走过去。我们用树莓派当小车的大脑，接上一个普通摄像头当眼睛，一个麦克风当耳朵，还用 Arduino 控制小车的轮子，让它能走路。为了让小车更安全，我们还加了一个超声波传感器，像小车的“触角”，可以发现前面的障碍物。

怎么让小车动起来呢？首先，我们用 YOLOv5 Nano 教小车看东西。它就像一个会画画的小画家，能在摄像头画面上画出框框，告诉我们“这是杯子”。为了让它跑得更快，我们把 YOLOv5 Nano 变成了一种叫 ONNX 的格式，这样小车看东西的速度可以从 3-5 次/秒变成 5-10 次/秒！我们还把画面变小，让小车看东西更轻松。接着，我们用一个叫 SpeechRecognition 的工具让小车听懂我们的话，用 gTTS 让小车跟我们说话。比如我们说“去杯子那里”，小车就知道要找杯子，还会说“正在找杯子”。最后，我们用 Arduino 控制小车走路：如果杯子在左边，小车就左转；如果在前面，就往前走。如果前面有障碍物，小车会停下来，说“前面有东西，我停下来了！”

经过努力，我们的小车变得可聪明了！它能找到杯子，听懂我们的话，自己走过去。虽然我们没用很厉害的大模型，但 YOLOv5 Nano 已经帮我们完成了任务。这个探险让我们学会了：空间理解模型可以让机器看懂世界，小模型虽然简单，但很适合我们的小车。如果你也想试试，可以找一个树莓派和一个小车，一起加入这场具身智能大冒险吧！

There are no discussion topics yet in this forum