登录

快速注册

雷军至今发布的最重磅AI产品, 不是手机和音箱, 而是小米AI研发团队与技术伙伴们 |独家

作者:机器之能 时间:2018/04/03 阅读:5886
尽管小米AI音箱的长相曾被人无数吐槽过,但很多人最后竟然被它的内在征服了。 撰文 | 宇多田 上周,推销小米 […]

尽管小米AI音箱的长相曾被人无数吐槽过,但很多人最后竟然被它的内在征服了。

撰文 | 宇多田

上周,推销小米 MIX2S 的新亮点,曾让雷军大费口舌。

不过,他更多是把笔墨放在了这款手机的外观设计与摄影性能上。而大家鼓吹的 AI,仅仅是介绍完 MIX2S 逆光、暗光拍照能力后的一个「点缀」:

背景虚化、场景识别以及「把语音助手小爱同学搬到手机上」…说是「微创新」都有些牵强(标配还差不多)。

(此处可参考机器之能此前发过的一篇文章:AI 手机的秘密)

简单来说,这是一部具备 AI 能力的手机,但卖点绝不是 AI。因此,当看到媒体铺天盖地将这款产品的关键词定义为 AI 时,我们真的…百思不得其解。

当然,如果你想对小米的 AI 硬件研发与制造能力有进一步了解,关注点不应该在手机上,而是雷军在发布会上最后宣布的一款产品——小米 AI 音箱 Mini。

展开剩余91%

从名字就能看出来,这款产品是标准版小米 AI 音箱的 Mini 版,长得很像无印良品的车载移动香薰机。据官方表示,其具备的功能几乎「复制」了标准版。

上图为小米音箱Mini,下图为Muji移动香薰机

但显然,产品小了一圈,价格砍去了一大半,性能方面一定会有相应削弱。在使用它之前,我们并不清楚它是否能延续标准版的好口碑。

从配置来看,其麦阵方案是从标准版的环 6 麦降至环 4 麦,不再支持 5GWifi。但这个新麦阵的供应商仍然为声智科技。

声智科技 CEO 陈孝良告诉我们,从 6 麦到 4 麦,体积自然更小,成本也更低。

按照理论效果,比起 6 麦阵列,4 麦在 5 米外的远场识别性能方面还是有差距的。

我在卧室里测试了 Mini 版的中远场拾音效果。

如果在房间保持安静,房门打开的情况下,距离 10 米左右,从另一个房间唤醒小米 Mini 没有任何问题,其具备稳定的远场拾音效果。

但如果门关上,距离 5 米在门外也不能轻易唤醒 Mini。(这是不是说明门的隔音效果好?)

打开门,距离10米左右仍然能唤醒

从理论上来说,麦克风的数量越多,越有利于远场识别。

但陈孝良给出的一个看法是,AI 算法在音箱中的应用削弱了麦克风的「统治权」。

也就是说,在与唤醒以及识别等功能产生联动后,不断更迭的算法与阵型可以弥补麦克风的一部分不足之处。

因此,4 麦阵列也不代表 Mini 版的制作难度有所降低。

「Mini 版的难度在于,体积太小造成麦克风阵列与大音量喇叭相距很近所引起的声学问题,以及低成本喇叭失真较大的问题。」据他透露,在这些方面,公司跟小米团队投入了很大的研发力气。

而硬件评测媒体爱否科技对小米 Mini 的音质测评结果,能够在一定程度上说明小米 mini 结构上引发的这个声学问题:与标准版相比,小米 Mini 的音质明显逊色于前者。

但雷军在发布会上说了,基于这个价格(米粉节降至 99 元),是让你在买一台标准版小米音箱后,再多买几个小米 mini 放在每个卧室里……这算盘打的,也是「志在销量」了。

而他唯一推荐的音箱新功能,也是基于每个家庭必须采购多个小米音箱的前提下才能实现:

多个设备放在一起时,每个音箱的语音助手会根据距离唤醒者的远近作出自动响应。

也就是说,哪个离你近,哪个就响应你。

但是,「距离远近」这个问题对于机器来说,非常难判断。因为它靠的不是视觉,而是听觉:

在实验中通常出现的情况是,即便你距离一个音箱稍微近一些,但你对着较远的另一台说话,声源朝向后者,那么机器也很难判定你所在的位置。

陈孝良解释,这里面需要用到声智的两项技术——SSP(空间知觉)与 SSA(空间意识)。

「SSP 是让小米音箱知道自己在哪,比如音箱是距离电视更近还是沙发更近?这个功能可以帮设备调整自己,」他提到苹果就是利用这个特性进行音效大小的自适应,

「而 SSA 则是让音箱知道自己是谁,当我们进门唤醒的时候,是应该客厅的音箱响应,还是厨房的响应?目前亚马逊的 Echo 与小米 Mini 都是距离最近的才自动响应。但未来,应该是最理解你命令的那台音箱响应。」

但在目前,他承认这项技术还没有完全成熟,而且应用在小米 Mini 上的这个功能,公司也只是做了底层支持:

「雷总提到的这项技术是小米团队实现的,他们的研发能力是很不错的。」

不过遗憾的是,我们在办公室同时连接了标准版与 Mini,效果其实并不稳定。

在两个音箱距离过近时(2 米以内),这项功能并不会发生作用,两只都是同时应答并播放歌曲。

而在两只音箱位于同一空间且距离大于 3 米时,音箱的确可以根据声源来辨别距离远近。但这仅限于你离其中一只非常近(小于 1 米)的情况下,近处的设备才会被唤醒。而且也屡有失败。

接下来,我又在与上面相同的条件(大于3米)下进行另外一种测试:

所站的位置距离两只音箱都很远,结果会怎样?

答案是,无论你离哪个更近,他们都会被同时唤醒并回复你。

但毫无疑问,标准版由于麦克风数量更多,因此拾音效果更好,几乎「有应必答」,且网络连接更稳定。

其实从小米发布标准版 AI 音箱那一天起,音箱各主要技术部分的供应商就写在了他们的公开 PPT 上。

与阿里等公司一样,音箱的很多技术都是「分包」出去的。

但这次除了继续使用声智科技的麦克风方案以外,思必驰告诉我们,Mini 版并没有使用的他们的 ASR,或许小米已经在逐步替换为自己研发的语音识别技术。

早在1年多以前,2017 年 1 月,小米就成立了小米云平台语音组;同年 7 月,还曾在 arXiv 上首次提交过一篇端对端的语音识别论文。

当时就有人猜测,除了 NLP 之外,小米未来很可能会用上自己语音识别技术。这在很大程度上关系到数据的分析与共享。

实际上,与 BAT 以及很多纯粹的 AI 技术公司相比,小米在 AI 领域一贯低调。直到上周 MIX2S 发布会,我们也是才获知小米 AI 研发团队的具体规模已经增至500~600 人。

对于一家制造消费类硬件的公司来说,成立研发团队的优势在于,让技术进入应用层的周期大大缩短。

因为在任何时候,它都能把底层技术迅速实验在自己的产品上,软硬磨合期显然要比纯粹的 2B 技术公司短太多。

2017 年中旬,小米语音工程师张俊博在接受媒体采访时就曾表示,经过无数实验,小米的语音技术在小米电视测试数据上成功获得了 2.81% 的字错误率,达到可用水平。

数据并不算耀眼,但这个数据在某种程度上却是难得脱离了「学术舒适区」的产业品类评测数据。

当然,这也从侧面说明了小米的软硬耦合能力。就像上面陈孝良所说的,软件能力会在一定程度上补足硬件的不足。反过来,充分的硬件制造经验,也会加强软件的运行效果。

AI 技术最终落实到硬件的用户体验上,就是小米音箱的智能内核——小爱同学的应用效果。

根据我们此前的评测,其水平明显高于当下的音箱智力水平线,甚至在「自然语言理解」层面表现突出。

譬如在音乐操作方面,一个存在多个关键词的语音命令,小米可以做到准确识别语义并给出正确答案。

当你发出「我想听英文新歌」「我想听英文的爵士乐」「我想听周杰伦的新歌」等指令时,小爱同学为歌曲同时设定「爵士」与「英文」,或「最近的」与「英文」等约束条件是没有问题的。

而在这方面,除了百度等大型科技公司,创业公司的产品普遍很难做到。

此外,小米系列 AI 音箱有一个有意思的功能——专门为自己的小爱同学创建命令。而且创建以后,这些命令在任何小米 AI 音箱上都可以被唤醒。

譬如那个在天猫精灵技能中非常火的「放屁」功能,就被用户也创建在了小米 AI 音箱里:

这在某种程度上,可以比招揽专业技能开发者更快地增加自己的技能数量……

当然,根据用户们的反馈,小米的槽点也不容忽视。譬如曲库资源勉强达到要求,但不等于满意,他们还是想请雷军再去跟 QQ 和虾米音乐谈判一下;

此外,像小冰一样的调侃式聊天,在小爱同学身上也是有限制的。但这毕竟是一个执行命令多于「插科打诨」的硬件产品,或许直接跟手机聊天可能更实惠一点。

而音箱不可忽视的另一个小 bug,是 Wifi 连接状况不稳定。

这毫无疑问是使用音箱的第一个关键步骤——只要不联网,除非连接蓝牙,要不然音箱就是一块板砖。

在这次使用 Mini 之前,我就碰到了这种情况——无论如何都连不上小米 AI APP。

最后在小米工程师快速的响应速度基础上,我们终于发现了问题的根源——路由器设置的频段与信道与小米音箱 Mini 不匹配。

「如果很多人 wifi 都设置成这样呢?」我问,

「用户环境复杂,确实是我们一直比较头疼的事情。」小米工程师的回答也很无奈。

在当下的智能音箱市场,所有同类产品其实都以「达到及格线」为荣。

但从智能程度、内容资源、销量以及生态系统等各个维度衡量,在一众音箱产品中,小米音箱与天猫精灵是名副其实处于第一军团。

与阿里依靠强大渠道与价格战卖出了 200 万台天猫精灵相比,小米 AI 音箱迅速提升的市场认知度在很大程度上要感谢小米强大的硬件生态链(作为一个控制中枢,米家任何智能家居都可以被控制,都是自己的东西当然没有障碍),销售策略及后续稳定增长的良好口碑。

有不愿透露姓名的芯片采购商向我们,他们很奇怪为何小米会迟迟发不出货。

「从音箱的配件市场供应情况来看,不应该出现这种情况,」她更倾向于这是一种销售策略,「即便是去年双十一订单超量的天猫精灵,也基本在 1 个月左右就能从工厂出货。」

而后续增长的良好口碑,除了很多评测媒体在「横评」(多个音箱一起测试)中出了不错的分数以外,普通用户的一些追评其实超出了大众对现阶段智能产品打的平均分:

除了在人机交互体验这一方面并不弱于 BAT 大厂,它的中控能力,终于把小米在过去四年里从一个充电器开始,默默做生态链的优势发挥了出来。

「我一朋友结婚家里刚装修完,家电都买的小米的,说这样更好连通,不用下那么多 APP,而且坏了都能找一家去修。」一位圈外的「80 后老少女」在聊天时这样告诉我们,「智能家居嘛,别以为我们不如你懂。」

天猫精灵的优势与问题),仅仅依靠合作,其实很难把音箱的中控能力(家庭控制中枢)发挥到极致。

这里面有技术与平台的兼容问题,有数据问题,也有团队磨合问题等等一系列在双方都要牢牢维护自身利益前提下产生的阻碍。

因此,平台与平台之间处处设置壁垒,美的、格力、海尔等等传统硬件厂商正在出品多个应对不同 AI 平台与产品的智能空调型号;

为了连接另一个品牌的智能灯泡或智能开关,需要再下 1 个 2 个 3 个 APP;

普通电器常用的射频遥控与红外遥控,有不同的连接阻碍……

对于许多年轻人来说,在质量和效果没有那么大差距的条件下,为了体验真正无障碍的智能家庭,会倾向于选择「没那么麻烦的」。

而接下来,当这一代对智能家居有初步认识与好感的 80、90、00 后年轻人逐渐成长为社会的主流消费群体,传统硬件企业,未进入生态圈的硬件企业,未打通生态圈的科技企业,就不再是「充满危机感」这么简单了。



发表回复


copyright © www.scitycase.com all rights reserve.
京ICP备16019547号-5