(资料图片仅供参考)
飞象网讯(魏德龄/文)随着ChatGPT的风靡,让很多人发现AI离自己如此之近,流畅的外文翻译、包含从1-4的简单小作文,一下让AI从只闻其声,不见其影的高科技,变身为触手可及的生活小助手。
其实AI在手机上的应用并非什么新鲜事,很多年前当用户打开摄像头,界面中就能识别出拍摄物体的种类,其中就有AI的一份功劳。然而这种能力并未让用户感到不可或缺,或是能为工作与生活带来质的改变。
但今年以来Stable Diffusion在智能手机上的功能演示,却无疑带来了更多遐想。
体验迎来新契机
作者头一阵恰好体验了运行在Android手机上的Stable Diffusion终端侧演示,仅仅通过一台与目前市面上主流旗舰手机配置相当,搭载第二代骁龙8机型的手机,通过输入一段文本描述后,等待约10多秒钟左右,就能眼见其从模糊到清晰的创作出一张图画。
整个过程完全在终端侧运行,无需借助云端的AI算力。要知道,如今以ChatGPT为代表的云端计算压力可谓不小,登陆暂缓都是常有的事,为此不少高粘性用户则开始选择购买更高阶的会员。但对于普通用户来说,其对功能的要求,可能不至于非要每月花上20美元。
在Stable Diffusion终端侧演示中,高通从Hugging Face的FP32 1-5版本开源模型入手,通过量化、编译和硬件加速进行优化,使其能在搭载第二代骁龙8移动平台的手机上运行。通过全栈优化最终让Stable Diffusion能够在智能手机上运行,在15秒内执行20步推理,生成一张512x512像素的图像。这是在智能手机上最快的推理速度,能媲美云端时延,且用户文本输入完全不受限制。
苹果公司在去年年底同样在 macOS 13.1 和 iOS 16.2 中发布了针对 Stable Diffusion 的 Core ML 优化,并通过一个代码库对部署过程进行了详细讲解。在三款苹果设备(M1 iPad Pro 8GB、M1 MacBook Pro 16GB、M2 MacBook Air 8GB)上的测试结果表明,苹果推出的相关优化基本可以保证最新版 Stable Diffusion(SD 2.0)在半分钟内生成一张同样分辨率为512x512像素的图。这无疑也为未来苹果将Stable Diffusion功能在自家设备中实现本地化运行奠定了基础。
正在凸显的手机AI能力
实际上,目前移动端的AI能力已经在一些工作上凸显出来。例如在iPad上拥有很多抠取视频中图像的App,以往这项在电脑端需要较大精力的工作,借助搭载M1/M2芯片iPad上的神经网络引擎,能够轻松的对目标图像进行抠取,并实现相关特效效果。进而致使很多人开始使用iPad先行制作一些特效,然后再将素材传输至电脑端与其他素材一并进行二次剪辑。
以M1芯片为例,相较于苹果之前所采用的处理器,机器学习的速度提升了15倍,这源于苹果专门为其加入了神经网络引擎,采用16核架构,每秒能进行 11 万亿次运算。在运行视频分析、语音识别以及图像处理等任务时的处理速度都能实现明显提升。
以骁龙8系处理器为代理的Android阵营,在近年来的AI能力同样在翻倍提升。上文中能够流畅运行Stable Diffusion本地演示的第二代骁龙8,其AI 引擎的主要组成部分Hexagon 处理器专门升级了微切片推理和更大的张量加速器,采用专用供电系统,并首次在手机端实现 INT4 精度格式的支持,因此在 AI 推理时性能最多可以提高4.35倍,能效提升60%。新增的微切片推理功能,恰恰能够帮助Stable Diffusion等大型模型高效运行。
爱奇艺出品的真人秀节目《元音大冒险》中则展现出了AI说带来的全新体验提升,在节目摄制中,借助搭载骁龙旗舰手机所支持的高通AI引擎,及其专门面向AI神经网络的硬件加速单元等技术的支持下,仅仅通过一个头盔及一部搭载骁龙芯片的智能手机,即可将所有的细节、场景、表情精准地映射至“元音大陆”中。据悉,骁龙8系移动平台搭载高通AI引擎,具备行业领先的终端侧AI性能和能效比,可以支持基于300个人脸特征点的检测,在为节目制作提供强有力的支持和保障同时,也降低了节目制作的技术门槛与成本。
在PC设备更新换代频率早就远远落后于智能手机的当下,智能手机的本地AI能力将更加凸显,实时了解到智能用户在拍什么的AI,实现了比相机更加优秀的成像效果。对图形的理解能力,造就了比电脑更强的视频创作能力,方便好用的边缘侧AI能力正在到来。
方便好用的边缘侧AI能力
近期,借助AI接口所开发的小型应用不断涌现,相比于登陆账号、问问题的方式,将功能聚焦在了如文章翻译这一热门使用场景,用户可以通过App像使用以往的那些翻译应用一样,快速进行使用,且在准确率与流畅度上有了大幅提升。
对于云端AI计算而言,其所面向的用户群更多为企业或研究机构,针对药物研发、基因工程、数字孪生模拟等行业领域,都需要超强的算力作为保障,才能在更短的时间内,获得研究人员想要的结果。而普通用户使用频次更高的语音转文字、翻译、文章或图画创作,通过边缘侧AI能力,能够获得更快的响应速度,摆脱了部分云连接的束缚,整体体验也能获得更好的提升。
有业内人士预计,今年年底或明年年初,消费市场将会为了获得更强的AI能力而购买新的终端产品,AI将引爆新的终端需求。于此同时,今年的芯片产品也将继续在AI性能上实现更大幅度的升级,来满足围绕AI而产生的相关用例的爆发。
试想一下,未来用户通过手机就能自动生成一个有趣的配图,用于社交媒体内容、文章配图、工作演示等不同用途。这些功能又需要以移动设备的本地AI能力作为依托,用户为了加速十多秒的等待,可能会购置更强AI性能的手机,或许目前智能手机的需求瓶颈将通过AI得以解决。