主页 › 阅读 › 社会新闻 › 开源大模型虽然很好，但在哪用或许更加重要

开源大模型虽然很好，但在哪用或许更加重要

三易生活发布于 17天前

76 0 0

不久前在4月中旬，关于AI大模型到底是“开源好”、还是“闭源好”这个问题，国内互联网行业中曾有过一阵论战。

当时“闭源大模型”的支持者最大的一条论据，就是历数那时候已经发布的大模型就会发现，尽管开源大模型近年来进步很快，但它们的客观性能还是普遍落后于闭源方案。由此可以证明，更能赚钱的闭源大模型才有长期成长的动力。

大模型的开源和闭源如何定义？Meta给了个好例子

但问题在于，当时可能所有人都没想到的是，就在这场论战发生不过几天时间，Meta方面就发布了他们最新的开源大模型Llama 3，并一口气将许多关键指标提升到了超过绝大多数闭源大模型的水准。从某种程度上来说，可谓是狠狠地打了“闭源支持者”的脸。

比如在公开的训练数据方面，Llama 3使用了超过15万亿的公共数据，经过两个24000GPU的集群训练而来。Meta方面虽然没有公布更进一步的训练细节，但他们有提到，Llama 3 Instruct针对对话应用进行了优化，其结合了超过1000万的人工标注数据，通过监督式微调（SFT）、拒绝采样、邻近策略优化（PPO）和直接策略优化（DPO）进行训练。

以结果来说，这就使得Llama 3的小型模型参数量略有增加（从前代的7B增加到8B）。但如此小的参数量膨胀，却换来了大得多的输入和输出矩阵，显著增强了词汇库的文本编码效率，并有望显著优化多语种混合处理时的性能。

总的来说，Llama 3的能力（特别是其中的70B版本）公认已经能够与Gemini 1.5 Pro、GPT-4等顶级闭源大模型“平起平坐”。而且它甚至还有着显著的价格优势，如果你的电脑配置确实足够高，那么本地部署Llama 3也绝不再是什么难事。而这对于此前的那些闭源大模型来说，更是难以想象的事情。

Llama 3谁都能用，但“在哪用”成了新的问题

当然，可以说Llama 3在技术上的成功绝大多数都应该归功于Meta，它并不是严格的、由开源社区“共建”的成果。但问题在于，评价一款大模型到底是开源、还是闭源，并不是看它究竟是哪家大公司贡献的代码更多、还是其他个人开发者的功劳更大。

因为大家所讨论的，究其根本还是商业模式上的差异。从这一点来说，哪怕Llama 3每一个字节都是Meta自己的成果，只要它的商业模式还是开源，就依然算是开源大模型。

当然，正因为Llama 3是一个开源的大模型，所以在商业层面对比那些闭源大模型它还有一个很关键的差异，那就是用户并不需要专门通过Meta这个“门户”，才能够使用上它。

根据公开资料显示，现在至少有不低于6家不同的大模型供应商可以提供基于Llama 3的使用接口，甚至其中的一些还允许免费试用。从某种程度来说，这也可以说是开源大模型相比闭源的一大显著优势了。

小平台的风险，使得传统巨头反而成为了明智的选择

那么问题就来了，站在用户的角度上而言，这是否意味着只需要去对比不同供应商的价格，然后挑选最便宜的就好呢？

要是放在以前，这样或许没什么问题。但至少在近日的月之暗面套现风波发生后，想必不少开发者都已经对于中小供应商的长远可靠性起了疑虑。

平心而论，这也是目前一个比较无奈的情况，因为大家都知道，生成式AI毕竟是目前的大热门赛道。在这样的背景下，指望一些创业不久的平台能够“坚守初心”，不被急速膨胀的估值迷了眼，实在是有点过于考验人性了。

好在，开发者还是有些显著更靠谱的选择。比如AWS（即亚马逊云科技）就几乎是在Meta方面发布Llama3的同时，将其加入了Amazon SageMaker JumpStart服务可选模型列表中。

根据AWS方面公布的教程显示，通过Amazon SageMaker JumpStart，开发者可以很容易地以图形化的界面选择和部署包括Llama 3在内的多种大模型，并且在整个部署阶段都有端到端的指导，以引导开发者更简单地一步步完成整个部署、推理，甚至是完成之后的清理操作。

Llama 3很好，但AWS更看重“选择自由”

需要注意的是，与目前行业中其他能够提供Llama 3的服务商相比，AWS未必是其中单价最低的那一家。但如果考虑到基础设施的稳定性、更多区域的可用性，以及AWS过去很多年里伴随着自研算力芯片的升级、而多次主动降低价格的这一事实，那么他们的长期性价比很可能反而会更为出色。

况且不同于其他一些可能存在着“跟风”嫌疑的中小平台，AWS虽然在引入Llama 3上表现积极，但他们并没有将其视为唯一或者更突出的业务选择。

实际上，目前的AWS能够提供的大模型已经包括但不限于通过Amazon Bedrock提供，来自AI21 Labs、Amazon、Anthropic、 Cohere、Meta、Mistral AI和Stability AI的大模型，以及通过Amazon SageMaker JumpStart提供、包括Llama 3在内的各种模型。

这就不禁令我们想到去年年底举行的AWS re:Invent2023上，AWS首席执行官Adam Selipsky就曾专门提到过“模型选择自由”的重要性。

当时他表示，“不会有一个统治一切的模型，也肯定不会有一家公司能提供所有人使用的模型”。正因如此，Selipsky认为，“我们在AWS的整个历史中一直在强调这种选择的需要，这也是我们在将近一年前开始谈论我们的生成式AI战略时明确阐述的方法。这就是为什么我们继续创新，使构建和在一系列基础模型之间移动变得像API调用一样简单。”

【本文图片来自网络】

友情提示

本站部分转载文章，皆来自互联网，仅供参考及分享，并不用于任何商业用途；版权归原作者所有，如涉及作品内容、版权和其他问题，请与本网联系，我们将在第一时间删除内容！

联系邮箱：1042463605@qq.com

#amazon#

上一篇：三星计划明年量产采用 GAA 技术的 2nm 芯片
下一篇：AI技术入门学习（一）：什么是神经网络？它是如何运作的？

请登录以参与评论。

立即登录