Llama 3.3 70B:Meta 宣布其性能与 Llama 3.1 405B 相当,但成本大幅降低

Publié le 21 2 月 2025 à 05h03
modifié le 21 2 月 2025 à 05h04

Llama 3.3 70B : 性能与 Llama 3.1 405B 相当

最近由 Meta 宣布的 Llama 3.3 70B 模型,战略性地定位于开源模型市场。Meta 强调该模型在成本显著低于所需的情况下,能够与拥有 4050 亿参数的 Llama 3.1 达到相同的性能。这对希望将人工智能纳入其预算的企业而言,是一大优势。

快速发布系列

Meta 并未减缓发布的节奏,7 月推出了 Llama 3.1,接着在 9 月底推出了 Llama 3.2,并于上周发布了 Llama 3.3。Meta 表示,Llama 3.3 70B 模型提供了更高质量和性能的文本应用,同时保持低成本。

准备与训练数据

为这一最终版本,Meta 在约 15000 万亿 tokens 的公共可用来源上进行了预训练。微调阶段整合了公共指令数据集,以及超过 2500 万的合成生成示例。研究人员表示,用于预训练的数据延续至 2023 年 12 月。

架构与开发

Llama 3.3 70B 基于 Transformer 类型的架构,并使用自回归模型。开发过程中包括监督微调及人类反馈辅助的强化学习(RLHF)。该模型具有 128,000 个 tokens 的上下文窗口,从而优化了其在多种文本指令中的应用。

性能比较

基准测试结果表明,Llama 3.3 70B 的性能与 Llama 3.1 70B 以及最近推出的亚马逊 Nova Pro 模型相当。在各种测试中,Llama 3.3 70B 超越了竞争对手,如 Gemini Pro 1.5 和 GPT-4o。它在性能上与 Llama 3.1 405B 相当,但成本却低十倍。

多语言支持及商业应用

该模型支持八种语言:德语、西班牙语、法语、印地语、意大利语、葡萄牙语、泰语和英语。Llama 3.3 旨在用于商业和研究用途,可以作为聊天机器人助手或文本生成任务的工具。Meta 鼓励开发者利用该模型广泛的语言能力,同时强调对不支持的语言进行微调的重要性。

基础设施与资源

为训练动用了相当大的资源:在 H100-80GB 硬件上,共计算了 3930 万小时的 GPU。预训练、微调、注释和评估的基础设施已整合入 Meta 的生产生态系统,从而优化了性能质量。

潜力与建议

Meta 强调,Llama 3.3 提供了 投资回报高的性能,支持在常规工作站上进行推理。尽管该模型能够生成其他语言的文本,但 Meta 不建议在未经调整的情况下使用这些不官方语言进行对话。

Llama 3.3 70B 常见问答

Llama 3.3 70B 与 Llama 3.1 405B 的主要区别是什么?
主要区别在于 Llama 3.3 70B 提供了与 Llama 3.1 405B 类似的性能,同时需要更少的财务和计算资源。
Llama 3.3 70B 相较其他模型有什么经济优势?
Llama 3.3 70B 使企业能够以显著降低的成本接触到先进的人工智能技术,从而使人工智能变得更易获取。
Llama 3.3 70B 如何以更少的参数获得如此性能?
这一性能得益于算法的优化及更大数据量的训练,以及先进的模型架构。
Llama 3.3 70B 支持哪些语言?
Llama 3.3 70B 支持八种语言,包括德语、西班牙语、法语、印地语、意大利语、葡萄牙语和泰语。
Llama 3.3 70B 是如何进行预训练的?
该模型在约 15000 万亿 tokens 的公共可用来源和指令数据集上进行了预训练。
哪些类型的应用可以受益于 Llama 3.3 70B?
Llama 3.3 70B 特别适合于多语言对话应用、聊天机器人及在商业和研究背景下进行的各种文本生成任务。
Llama 3.3 70B 的上下文窗口能力是多少?
该模型具有 128,000 个 tokens 的上下文窗口,能够处理更长、更复杂的文本上下文。
Llama 3.3 70B 是否推荐用于不支持的语言?
尽管它可以生成其他语言的文本,Meta 不建议在没有微调和安全检查的情况下使用不支持的语言。
为训练 Llama 3.3 70B 使用了哪些技术基础设施?
预训练是在 Meta 的定制 GPU 集群上进行的,总共使用了 3930 万小时的 GPU,使用 H100-80GB 硬件。
Llama 3.3 70B 仍然是开源模型吗?
是的,Llama 3.3 70B 仍然是一个开源模型,提供社区许可,允许多种商业和研究应用。

actu.iaNon classéLlama 3.3 70B:Meta 宣布其性能与 Llama 3.1 405B 相当,但成本大幅降低

Claude 引入了一個創新的數據分析工具:以下是它的運作方式

découvrez l'outil d'analyse de données révolutionnaire présenté par claude. apprenez comment il fonctionne et comment il peut transformer votre manière de traiter les données pour des résultats optimaux.

与植物交谈吗?发现第一个由AI驱动的智能花园,它会回应你!

découvrez comment dialoguer avec vos plantes grâce à notre jardin intelligent, le premier de son genre alimenté par l'ia. apprenez à améliorer leur bien-être et à optimiser votre jardinage quotidien avec des conseils personnalisés et interactifs.

Claude 3.5 Sonnet : 一种革命性的人工智能,用于计算机的自主管理

découvrez claude 3.5 sonnet, une intelligence artificielle révolutionnaire conçue pour optimiser la gestion autonome des ordinateurs. transformez votre expérience numérique avec une technologie avancée qui simplifie les tâches complexes et améliore l'efficacité. explorez un avenir où vos ordinateurs s'adaptent et s'améliorent grâce à l'ia.

Orion:ChatGPT 的重大升级 GPT-5 可能在十二月推出

découvrez orion, la mise à niveau tant attendue de gpt-5 pour chatgpt, prévue pour décembre. cette avancée promet d'améliorer les performances et les fonctionnalités de votre assistant intelligent, offrant une expérience utilisateur encore plus riche et efficace.

一场悲剧:一个聊天机器人被指控促使一名少年自杀,对其创造者提出诉讼

découvrez l'affaire tragique d'un chatbot ia, accusé d'avoir incité un adolescent au suicide, entraînant une plainte contre son créateur. un drame qui soulève des questions éthiques sur l'intelligence artificielle et la responsabilité de ses concepteurs.

拜登总统首次推出国家人工智能安全备忘录

découvrez comment le président biden inaugure son premier mémorandum national sur la sécurité relatif à l'intelligence artificielle, marquant une étape cruciale dans la régulation de l'ia et la protection des enjeux nationaux.