手机端侧人工智能的机遇将原本联系不多的两个行业联系在了一起。联发科无线通信事业部生态发展资深总监章立在开发者大会上向记者表示,大型模型厂商已经认识到,从应用程序走向大型模型应用生态阶段,需要向云端芯片和终端芯片索要算力。
近日,联发科对外推出了“天玑 AI 先锋计划”,并提供了相关的开发者解决方案,以支持大型模型厂商在端侧 AI 技术的落地和端侧生成式 AI 应用创新。章立认为,未来一段时间,生成式 AI 和芯片是紧密相关的。
过去一年,随着生成式 AI 从云端走向终端,像联发科这样的芯片公司看到了更多机会。他们逐渐发现,除了手机厂商,更多的模型企业也开始直接与芯片公司从底层展开合作,以解决算力成本在端侧的覆盖问题。
不同于云端的大型服务器集群,智能终端过去受限于小型化,算力有限,但独特优势在于更好的隐私性。业内逐渐看到 AI 手机、AI PC、智能汽车等端侧 AI 场景的潜力,更重要的是,当大型模型装进手机时,模型企业可以通过本地化部署 AI,绕开昂贵的云端运算成本。
但手机端可运行的大型模型目前多在 70 亿参数左右,可支持的大型模型应用场景仍然受限,爆款 AI 应用要爆发还需要端侧的算力和生态支持。联发科之外,业内也在探索适合端侧运行的小型化模型。
大型模型企业敲开芯片厂大门
大型模型云端算力昂贵是推动大型模型应用走向端侧的动力之一。据悉,ChatGPT 每天需要响应超过 2 亿次请求,耗电量可能超过每天 50 万千瓦时。一位大型模型应用厂商高管也表示,Sora 至今不向公众开放使用,主要原因很可能是运算成本太高。
相比之下,运用分布式的端侧算力,在手机、电脑等个人持有的终端设备上运算而不依赖于联网,被认为可以替代部分云端算力,减轻用户使用大型模型服务的算力成本。但大型模型参数量大的特点,使得算力要求颇高,这正是手机等终端的限制之处。目前,联发科和高通移动芯片最高都可支持上百亿参数的大语言模型运行,而云端运行的主流大型模型往往有上千亿参数。
“现在手机算力可支持 70 亿参数大型模型,再往上可能就是 100 多亿参数。”有芯片业内人士表示。
以手机为代表的端侧目前不适合搭载更高算力的芯片,一个原因是功耗。安谋科技产品总监杨磊指出,PC、平板电脑、手机、智能眼镜大多由电池供电,功耗和电池容量决定设备续航时间,而一张高性能 GPU 动辄功耗数百瓦,更适合云端使用,普通手机功耗不超过 10 瓦。
算力有限的情况下,端侧搭载大型模型面临多重挑战。联发科无线通信事业部副总经理李彦辑表示,模型厂商希望在端侧高效运行大型模型,但面临两类问题。一是运行效率,包括耗电量和速度,二是内存占用可能过高。直接将云端训练好的模型放到手机端将会遇到以上问题,模型厂商对这些优化方案非常重视。
“与模型厂商合作时会有很多困难。
例如,将 70 亿(7B)、130 亿的参数模型装入手机等小设备,是一项艰巨的挑战,需要通过我们的开发套件中的 Neuron Studio 进行量化和压缩,以打造最佳且最小的网络结构。”联发科无线通信事业部技术规划总监李俊男表示。
基于算力需求,芯片厂商与大模型厂商合作渐深。“没有芯片支持,在终端或云端都会面临相同挑战。”章立表示,大模型应用将从芯片底层出发,挖掘打造移动平台用户新体验的可能性。
爆款应用何时出现?
在提出人工智能手机、人工智能 PC 的概念后,基于这些智能终端的爆款应用尚未诞生。目前,终端算力是限制大模型应用落地手机的一个原因。“手机终端的人工智能功能还比较有限,可以支持修图,但在断网的情况下进行大模型语音对话还不行。图片模型的参数不需要很大,而语音模型的参数则更大。”一位芯片业内人士表示。
章立表示,终端爆款应用将会出现,而这与芯片制程和能力并不绝对相关。过去,人们认为手机的发展似乎已经停滞,应用厂商不知所措,因为先前的规则已经形成,竞争格局和流量相对稳定,许多开发人员没有新的机会。生成式人工智能为开发人员提供了更多工具。技术带来用户体验创新,在这种情况下,无需担心爆款是否会出现,只是无法确定其出现时间。
为了促进人工智能应用在手机等终端落地,除了大模型应用向芯片索要算力外,提高终端整体算力和小型模型表现效果是另外两个方面。业内人士预计手机算力将进一步提升。杨磊认为,旗舰手机芯片算力可达 40~50 TOPS,中档手机算力 10~20 TOPS,入门级手机并未专门配备人工智能能力,预计随着半导体技术演进,旗舰手机算力水平有望达 100 TOPS,入门级手机将提升至 5~10 TOPS,两年后手机都有望具备本地部署人工智能大模型的硬件计算能力。
为了适应分散化的终端计算需求,大模型也在向小型化发展。今年 4 月,Meta 发布了 Llama 3 系列的两个开源大模型,参数量分别是 80 亿和 700 亿。猎豹移动董事长兼首席执行官傅盛表示,小参数模型 Llama 3 80 亿的表现比上一代大参数模型 Llama 2 700 亿更好,这印证了小参数模型的能力将快速提升。新浪微博新技术研发负责人张俊林也认为,Llama 3 最重要的改变是训练数据量极大扩充,小模型固定大小并增加数据量后效果会持续提升。张俊林表示,目前小模型的能力还没有看到上限。
小模型能力的快速提升,已让一些业界人士预测小模型将加速在智能终端落地。“现在很流行小模型 SLM。通过更好的训练将模型缩小,现在看来小模型的能力也很好,30 亿以下能力不错,这是对终端非常有利的趋势,苹果可能也在布局这种小模型。”李俊男表示,终端人工智能算力相关的内存带宽瓶颈也可以采用小模型解决。
从发布的成果来看,苹果也在发力小模型并突破终端参数限制。华福证券研报称,苹果除了 30 亿参数的 MM1 模型外,更多在终端模型布局,其中终端场景化小模型 ReALM 最小参数 8000 万。
苹果提出了利用闪存解决大型模型运行时的内存瓶颈。其 Flash-LLM 方案可将端侧设备可运行模型参数量提升至原来的两倍。随着 6 月 WWDC 及后续发布会的举行,苹果相关产品有望面世。
至于未来的端侧爆款应用形态,联发科专家章立表示,他们从两个维度观察应用:一是革新和生成式 AI 化的存量头部应用,二是新兴应用。目前尚未确定爆款应用会出自哪一类。
章立认为,大模型应用可能在云端和端侧同时出现,但云端更适合进行“0 到 1”的创新,而端侧更适合进行感知和一些优化创新。
专家李彦辑则指出,影像、视频等多模态大模型的输入输出将在手机上迅速得到实现。专家系统还会训练大量小模型,并可根据用户需求进行切换。手机端的应用需求日益明晰,例如能力更加个性化、计算更加本地化。
还没有评论,来说两句吧...