Llama 3.3 70B : 性能与 Llama 3.1 405B 相当
最近由 Meta 宣布的 Llama 3.3 70B 模型,战略性地定位于开源模型市场。Meta 强调该模型在成本显著低于所需的情况下,能够与拥有 4050 亿参数的 Llama 3.1 达到相同的性能。这对希望将人工智能纳入其预算的企业而言,是一大优势。
快速发布系列
Meta 并未减缓发布的节奏,7 月推出了 Llama 3.1,接着在 9 月底推出了 Llama 3.2,并于上周发布了 Llama 3.3。Meta 表示,Llama 3.3 70B 模型提供了更高质量和性能的文本应用,同时保持低成本。
准备与训练数据
为这一最终版本,Meta 在约 15000 万亿 tokens 的公共可用来源上进行了预训练。微调阶段整合了公共指令数据集,以及超过 2500 万的合成生成示例。研究人员表示,用于预训练的数据延续至 2023 年 12 月。
架构与开发
Llama 3.3 70B 基于 Transformer 类型的架构,并使用自回归模型。开发过程中包括监督微调及人类反馈辅助的强化学习(RLHF)。该模型具有 128,000 个 tokens 的上下文窗口,从而优化了其在多种文本指令中的应用。
性能比较
基准测试结果表明,Llama 3.3 70B 的性能与 Llama 3.1 70B 以及最近推出的亚马逊 Nova Pro 模型相当。在各种测试中,Llama 3.3 70B 超越了竞争对手,如 Gemini Pro 1.5 和 GPT-4o。它在性能上与 Llama 3.1 405B 相当,但成本却低十倍。
多语言支持及商业应用
该模型支持八种语言:德语、西班牙语、法语、印地语、意大利语、葡萄牙语、泰语和英语。Llama 3.3 旨在用于商业和研究用途,可以作为聊天机器人助手或文本生成任务的工具。Meta 鼓励开发者利用该模型广泛的语言能力,同时强调对不支持的语言进行微调的重要性。
基础设施与资源
为训练动用了相当大的资源:在 H100-80GB 硬件上,共计算了 3930 万小时的 GPU。预训练、微调、注释和评估的基础设施已整合入 Meta 的生产生态系统,从而优化了性能质量。
潜力与建议
Meta 强调,Llama 3.3 提供了 投资回报高的性能,支持在常规工作站上进行推理。尽管该模型能够生成其他语言的文本,但 Meta 不建议在未经调整的情况下使用这些不官方语言进行对话。
Llama 3.3 70B 常见问答
Llama 3.3 70B 与 Llama 3.1 405B 的主要区别是什么?
主要区别在于 Llama 3.3 70B 提供了与 Llama 3.1 405B 类似的性能,同时需要更少的财务和计算资源。
Llama 3.3 70B 相较其他模型有什么经济优势?
Llama 3.3 70B 使企业能够以显著降低的成本接触到先进的人工智能技术,从而使人工智能变得更易获取。
Llama 3.3 70B 如何以更少的参数获得如此性能?
这一性能得益于算法的优化及更大数据量的训练,以及先进的模型架构。
Llama 3.3 70B 支持哪些语言?
Llama 3.3 70B 支持八种语言,包括德语、西班牙语、法语、印地语、意大利语、葡萄牙语和泰语。
Llama 3.3 70B 是如何进行预训练的?
该模型在约 15000 万亿 tokens 的公共可用来源和指令数据集上进行了预训练。
哪些类型的应用可以受益于 Llama 3.3 70B?
Llama 3.3 70B 特别适合于多语言对话应用、聊天机器人及在商业和研究背景下进行的各种文本生成任务。
Llama 3.3 70B 的上下文窗口能力是多少?
该模型具有 128,000 个 tokens 的上下文窗口,能够处理更长、更复杂的文本上下文。
Llama 3.3 70B 是否推荐用于不支持的语言?
尽管它可以生成其他语言的文本,Meta 不建议在没有微调和安全检查的情况下使用不支持的语言。
为训练 Llama 3.3 70B 使用了哪些技术基础设施?
预训练是在 Meta 的定制 GPU 集群上进行的,总共使用了 3930 万小时的 GPU,使用 H100-80GB 硬件。
Llama 3.3 70B 仍然是开源模型吗?
是的,Llama 3.3 70B 仍然是一个开源模型,提供社区许可,允许多种商业和研究应用。