您好,欢迎进入AG真人国际(中国)官方网站有限公司官网!

咨询热线:

020-88888888

Llama31根本卖不动!业内人士:开源模型成本反而更高

发布时间:2024-08-31 01:34人气:

  Meta的开源大模型Llama 3在市场上遇冷,进一步加剧了大模型开源与闭源之争的关注热度。

  据报道,Meta的开源大模型Llama 3一直难以在全球最大云厂商——亚马逊的AWS上获得关注,AWS的企业客户更倾向于使用Anthropic的闭源大模型Claude。

  据微软内部人士透露,Llama也并非微软的销售首选,他们更倾向于将Llama推介给具备数据专业知识的公司,如内部有工程师和数据科学家的公司。

  Meta现面临挑战,或将激发Meta自建AI产品的销售团队,直面企业需求。而这一系列问题也突显了开源大模型在商业化过程中的困难。从市场选择来看,开源模型的实际效果和商业回报或许均未能满足企业客户预期。

  面对“开源还是闭源”的问题,国内的各大模型厂商根据自身的技术路线和商业战略,形成了截然不同的立场。那么,企业应如何选择大模型,以及在两者之间如何找到最佳平衡点?

  在此背景下,百度智能云AI与大模型平台总经理忻舟接受了媒体采访,详细解析了开源与闭源之争的底层逻辑、商业策略,以及对未来市场的预判。

  忻舟认为,大模型的开源和软件开源有本质区别——开源模型因其并未开放训练源代码、预训练和精调数据等影响模型效果的关键信息,所以无法像开源软件一样,靠社区开发者一起参与来提升效果和性能,而基座模型的训练只能掌握在厂商自己手里。

  谈及“开源模型和闭源模型谁更贵”时,忻舟表示,开源模型免费,给人一种低成本的印象,但大模型的应用并不仅仅是单一的技术,而是涵盖“技术+服务”的完整解决方案,企业要算“总账”。在业务实际落地时,开源模型若想达到与闭源模型相同的效果,需要后续投入大量的人力、资金和时间,综合成本反而更高。

  开源模型和闭源模型分别适用于什么场景?忻舟认为,开源模型更适合用于学术研究,但不适合对外提供服务的大型商业项目,在一些百万甚至千万投入的严肃项目中,闭源模型仍然是主角。

  忻舟:在这场大模型盛宴中,每个厂商的定位和商业模式是不一样的,大致可以分为三类:

  第一类角色,对于云厂商来说,商业模式其实还是卖算力资源。通过规模化来降低成本、提升资源弹性能力,从而实现盈利,这是云厂商持久不变的模式。不管是开源模型还是闭源模型,只要托管在云厂商这里,云厂商就可以赚到钱。

  第二类角色,既是云厂商又是模型厂商,他们希望通过模型的调用带动业务上云。目前只靠模型API调用的利润还很低,他们目前期望在市场上占据有利份额,在大模型的牌桌上,不断寻找新的拓展机会。

  第三类角色,对于创业的模型厂商来说,在各大云厂商宣布模型降价以后,他们的调用量下跌很厉害。大模型领域很快就会变成几大云厂商之战,大模型创企要么专注到特定行业、要么做toB的私有化项目、要么转型做toC产品。

  对比开源软件,比如像手机操作系统安卓、数据库软件MySQL,这些开源软件是所有的源代码都开放出来,全社会的开发者都可以参与代码的开发。这不仅可以降低软件的研发成本,还能加快软件迭代速度,提升软件安全性,这是开源对于软件的价值。

  而开源模型要复杂很多,它可以开源的包括模型训练源代码、参数权重、训练数据等。但目前模型厂商通常仅仅开源参数权重,而训练源代码、训练数据等均未开源,这就导致开发者无法去改进它,也就无法对开源模型的效果做贡献。

  比如对于Llama来说,它每一次模型效果的进步,其实都是 Meta自己训练的结果,而不是开发者参与的结果。Llama2和Llama3在网络结构上没太大区别,它优化的是什么?一方面优化了训练阶段的流程,比如说多阶段训练;另外就是加了很多数据,Llama2和Llama3的数据相差一个数量级,更多的数据和训练时间为模型带来更好的效果。

  但这些好的效果都是Meta自己搞的,没办法把开发者的力量都用起来的,更不会像开源软件一样有社区反哺的过程。

  模型训练、数据标注是非常贵的,除非像Meta这样有强大的公司资源用来支撑开源模型持续发展,如果是一个开源模型的创业公司,他就没法形成商业闭环。同时,开发者又不能对你的模型效果做贡献,所以创业公司来做这个一定是越来越落后。再从结果上来看,最好的模型其实还是Open AI,现在评测榜排在最前面的模型都是闭源模型。

  再说开源模型为什么并不便宜。大模型的应用是涵盖“技术+服务”的完整解决方案,企业应用大模型需要“算总账”。总账怎么算?

  第一层,要算硬件资源成本。因为闭源的商业模型会配套相应的工具链,包括训练工具链、推理工具链,这些工具链的性能要比开源的好,对于客户来说,训练就能省大概10~20%的硬件成本,推理的时候省得更多,业务规模越大,省得越多。

  第二层,看模型带来的业务收益。同等参数规模的模型,闭源效果更好,一些客户对于90%还是95%的准确率敏感度没那么高。但是有一些业务,比如说商业广告,在CPM、CTR差一个点,对广告平台来说一天就可能有上千万的出入,这种时候对模型的效果要求越高的企业,就更愿意去买一个效果更好的闭源模型。

  第三层,还有机会成本、人力成本。用闭源商业模型收敛得更快,就比竞争对手更快推出新的产品。在闭源的商业模型中,厂商把模型和硬件都适配好了,调到了最优状态,客户直接复制成熟经验就可以。但如果你用开源,还要自己去适配调,投入的算力成本、工程师的成本更高。

  忻舟:大多数企业客户都会采买两种或者两种以上的硬件,因为他要考虑供应链的安全性和灵活性,开源模型如果要在每个硬件上去做适配的话,它的成本会非常高。

  这就体现出闭源商业模型的优势了,因为它可以通过规模化售卖,来分摊软硬件适配带来的成本。而且,多芯适配是一个非常有技术含量的事儿,百度的百舸异构计算平台专门为多芯异构做了很多优化,对各种硬件都适配。百舸本身就可以屏蔽掉硬件层各种各样的差异,有很多的加速库、推理库、训练库,百舸也为文心大模型提供了端到端的优化。

  这对于客户的好处是,不管用什么硬件都可以快速跑起来,省下来的时间和人力成本是非常高的。

  忻舟:总体的思路是:你想在个别业务场景中做尝试、做验证,可以先用闭源模型跑起来,开箱即用,快速验证;在一些动辄百万元、千万元级别的严肃商业项目中,对规模化、精度要求高的业务中,闭源的商业模型还是企业的最佳选择。只有在一些对效果和性能要求不高,但要求必须私有化部署,且对价格又特别敏感的业务场景下,考虑使用开源模型。

  开源对于学术和研究的推动是有价值的,比如推理的工程性能优化、预训练和精调数据对结果的影响等,如果他能够开源更多的东西,比如说训练代码、训练数据、指令微调的数据等也开放出来,它对于学术研究和技术发展的价值会更大。哪怕只开放了模型权重,也为研究者提供了一个很好的基座模型。

  5、有些厂商希望开源闭源两条路同时走通,即开源模型吸引用户做大生态,闭源模型专门负责商业化,这个逻辑走得通吗?

  在公有云上,各厂商公布的调用量中,闭源模型调用量远高于开源模型,说明开源模型其实在公有云上并没有起到吸引用户做大生态的作用。而且在公有云上做微调,开源或闭源模型都可以实现,所以在公有云上客户会直接选择最好的模型。

  在私有化部署上,这个逻辑在一定程度上是讲得通的。很多企业最开始起步是拿开源模型测试,之后觉得效果不错要买了,会选择开源模型对应厂商的闭源模型,因为同源的模型对于prompt的适应性更好,这种情况这个逻辑是成立的。但这种价值正在逐渐的缩小。因为各厂商的模型通用能力都在快速提升,切换成本越来越低,逐步就抹平了这种模型的传承性。

  还有一些厂商推出开源模型是为了推广硬件,比如英伟达推出开源模型,它的商业逻辑非常简单,用模型要买卡。

  忻舟:从各家厂商的调动量上其实已经明确看到,公有云上调用量大的都是商业闭源模型,开源模型对公有云并没有太多影响。

  而在私有化市场中,随着客户对大模型认知不断提升,开源闭源逐渐不再成为关键因素。我在和很多大型企业客户交流后发现,业务负责人要不要用一款模型有很多因素,按优先级排序通常是:效果、性能、安全、价格。模型开源闭源并不是决定性因素。

  7、您提到企业在选择模型时最看重的是效果、性能、安全、价格,百度云推出的“千帆大模型一体机”是否正在尝试一种新的软硬一体的商业模式?

  忻舟:目前,企业使用大模型还处在探索阶段,非常需要低成本、开箱即用的产品来快速验证大模型的使用场景和效果。“千帆大模型一体机”很适合当下的阶段,因为在国内有很多私有化部署的需求,我们的一体机是开放的,各种各样的硬件都可以做适配,集成了市面上所有主流芯片和模型。百度智能云的千帆大模型一体机提供两个能力:

  第一,提供软硬件适配的一体化平台,这个平台内置了文心大模型和业界主流的开源大模型、场景应用样板间。对于热门的开源模型也都做过适配和优化,用户可以直接在一体机上面跑,无需自己去调模型了。同时,千帆大模型一体机可以提供从基础管控、AI框架、模型训练、预测推理、场景应用于一身的大模型软硬一体解决方案,为客户提供全流程的软硬件服务。

  第二,千帆大模型一体机因为做了端到端的性能优化,能够把所有硬件性能都榨出来,所以性价比相当高。客户可以以一个较低的成本快速使用。

  在整体价格上,千帆一体机的价格远低于分别采购服务器和大模型及平台,对于客户来说能够开箱即用。

  8、现在很多人觉得,光用基础大模型不行,大家还是要做行业模型才能真正实现大模型的产业落地。那目前企业自己训练一个行业模型要多少成本?

  忻舟:成本很高。首先取决于要训练模型的参数规模,这个成本是线性增加的。其次,取决于数据量有多大。最后,是你的数据标注成本。

  你如果要从头开始训一个70b的模型,用云的弹性资源可能需要3000万。如果要训参数量更大一点的模型,成本上亿都有可能的。这还是有经验的人去训,如果没经验,中间走了一些弯路,成本就更高了。

  忻舟:我们不建议客户不管三七二十一的从一开始就做行业基座模型,收益怎么样另说,成本一定非常高。我们会帮助客户先做需求分析。

  比如说,画一个坐标系,横坐标是任务的敏感性,纵坐标是对行业数据的需求性。所谓任务的敏感性,是指场景是否与行业和业务强相关,比如医疗领域,都是相当专业的问题。纵坐标是对行业数据的需求性,行业越封闭、在公开网络上的数据越少,就越需要做预训练。比如医疗领域,需要把一些脱敏后的病历信息预训练到模型里面。

  通过分析,在这个坐标轴中,左下角既没有行业特性,又不需要行业数据,就可以直接用通用模型,但右上角对这个行业的业务属性有敏感性,又需要很多的行业数据,这个时候就需要做行业模型。

  第一步,价值验证。初步建设大模型软硬件基础设施,构建初步的行业大模型。结合相对成熟的生成式AI的应用,快速见到效果。比如通过千帆大模型平台轻量版加上智能客服、企业知识管理、数字人等成熟的应用。

  第二步,深入对接企业的各种应用。进一步完善大模型基础设施,升级为千帆大模型旗舰版,除了大模型相关的训练调优外,也包含了应用构建的平台。百度及生态伙伴深度参与到企业内部大模型相关培训和运营中,构建技术氛围、培训相关人才,与企业一起攻坚深入业务的难题,给企业带来更多价值。

  第三步,全面创新和自主可控。企业已经掌握了大模型和应用开发的相关技术,也有了相应的人才梯队,能够更好的自主可控发展并开始全面创新。百度会作为长期技术支持和顾问,协助发展,并不断为企业带来新的技术和方案。

  第二,基于大模型的应用会有一个大爆发,非常重要的方向就是Agent(智能体)。大模型如果只做“输入、输出“的规定动作,那会大大限制它的价值发挥,他应该更像人,可以使用工具、互相协同、规划思考、反思迭代。它要跟各种各样的组件、插件结合,才能满足特定业务场景的需求,所以Agent会成为接下来各家模型厂商起量的关键。

  第三,做企业应用的机会会变多,ag旗舰厅网像知识库、客服、数字人、辅助代码编写等场景。比如用大模型做代码编写,百度有一个产品叫“文心快码”,在百度内部已经大规模应用了,采纳率能达到46%,新增代码中生成的比例达到了30%,可以帮助企业大幅提升开发效率。同时,大量做AI应用开发的企业将涌现出来,这些企业能够将应用的部署和复制成本降到足够低,只要运营效率够高,就能脱颖而出。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。


020-88888888