如果给耳机加一双"眼睛"?
具体来说:做一个带摄像头的耳机,摄像头类似于 Insta360 的那种小巧广角摄像头,安装在耳机两侧,理论上可以拍到 360 度全景信息。
这样,用户就拥有了一个有视觉、有耳朵的智能助理。
大语言模型让 AI 有了"大脑",但 AI 理解世界的方式仍然是文字。GPT-4V、Gemini 的多模态能力告诉我们:视觉理解是 AI 的下一个重大能力。
问题是,人类怎么把视觉信息给 AI?
耳机已经是一个稳定的市场,人们愿意为它花几百到几千块。AirPods Pro、索尼 WF 系列、Bose QC 系列……用户习惯戴着耳机做事。
如果这副耳机"恰好"有摄像头,用户的额外成本几乎为零。
单一摄像头有盲区,360 度全景意味着 AI 能感知你周围的整个环境,而不只是前方。这对于 AI 理解上下文、给出相关性更高的建议至关重要。
| 产品 | 形态 | 摄像头 | AI 能力 |
|---|---|---|---|
| Meta Ray-Ban 智能眼镜 | 眼镜 | ✅ 前置 | ✅ Meta AI |
| Snap Spectacles 5 | 眼镜 | ✅ 前后 | ✅ AR |
| Insta360 Go 3 | 可穿戴相机 | ✅ 广角 | ❌ |
| 苹果 Vision Pro | 头显 | ✅ 眼动追踪 | ✅ visionOS AI |
耳机+摄像头的组合,目前基本是空白。
360 度视频流 + 实时 AI 分析 = 功耗大户。现有的耳机续航普遍在 4-8 小时,加上摄像头可能直接砍半。
可能的解法:本地处理部分任务 + 云端复杂推理结合
摄像头一直开着?这在法律和社会接受度上都有挑战。必须有一个非常明确的视觉指示器,让周围的人知道正在录制。
耳机两侧各加一个摄像头模组,重量和配重都是问题。AirPods 那种轻便感不能丢。
有了视觉信息,AI 怎么"说"给用户听?耳机输出音频,但信息密度受限。是否需要 AR 显示?还是纯语音?
如果这个产品成了,用户可以:
耳机 + 360 度摄像头 = AI 助理的下一个形态。
这不是在耳机上加一个摄像头那么简单,而是重新思考"AI 怎么感知世界"。
设备在等一个杀手级应用,AI 在等一个合适的载体。这个产品可能刚好是两者汇合的地方。