Meta Platforms Inc.(原Facebook)周六发布了其Llama系列大语言人工智能模型的最新成员,声称这些模型是有史以来向公众发布的最强大AI模型之一。
这些新模型属于Llama 4系列,现已可通过Meta AI助手在网页、Messenger、WhatsApp和Instagram上使用,也可以直接从Meta或Hugging Face下载。
新发布的模型包括Llama 4 Scout,这是一个小型模型,能够完全装入单个Nvidia H100图形处理单元中;以及Llama 4 Maverick,这是一个更大的模型,可与OpenAI的GPT-4o和Google LLC的Gemini 2.0 Flash相媲美。这两个模型都拥有170亿个活跃参数。
公司目前仍在开发Llama 4系列中的最大模型。据Meta首席执行官马克·扎克伯格介绍,这个模型名为Llama 4 Behemoth,一旦发布,它将成为"世界上性能最高的基础模型"。
Meta表示,Llama 4模型是迄今为止该公司开发的最先进模型,在多模态能力方面也是"同类最佳"。多模态AI模型能够处理不同类型的数据格式,包括文本、图像、音频和视频,因此能够理解更复杂的场景并生成更好的响应。
Meta首席产品官Chris Cox在3月份接受CNBC采访时表示,Llama 4模型旨在为所谓的AI代理提供动力。这些AI代理是更复杂的AI模型和系统,具有增强的推理能力,能够浏览网页并采取行动。它们可以被指示代表人类完成各种任务,并且能够在最少监督的情况下完成这些任务。
Meta表示,Llama 4 Scout是一个小型但极其高效的模型,设计为仅在一块高端显卡上运行。它能够处理多达1000万个"token"(AI行业对单词或数据块的称呼)。公司指出,这比之前的"小型"大语言模型有了巨大飞跃。
在涵盖"广泛"应用的多项关键基准测试中,Llama 4 Scout的表现超过了其他小型大语言模型,如Google的Gemma 3和Gemini 2.0以及Mistral的Mistral 3.1。
至于Llama 4 Maverick,这是一个更强大的迭代版本,设计用于处理编写代码、创意写作、解决数学问题以及理解图像和视频等任务。据Meta称,尽管它更高效且具有成本效益,但其性能超过了竞争对手的模型,如OpenAI的GPT-4o和Google的Gemini 2.0。Meta没有将其与最近发布的Gemini 2.5模型进行比较,但表示Maverick的性能也与DeepSeek Ltd.的V3推理模型相当,尽管使用的活跃参数不到后者的一半。
在一篇详细描述新模型及其创建方式的博客文章中,Meta解释说,它使用了一种名为"专家混合"(Mixture-of-Experts,MoE)的新型系统,使模型能够更高效地工作。MoE系统不是为每个任务使用整个模型,而是只激活完成当前任务所需的部分,因此可以运行得更快并使用更少的能源。
Meta还简要介绍了即将推出的Llama 4 Behemoth模型,该模型将拥有2880亿个活跃参数,发布时总参数量将接近2万亿。该模型仍在训练中,因此尚未发布,但它已经在使用一种称为"蒸馏"的技术"教导"较小的Llama 4模型,这种技术使知识能够从较大模型转移到较小模型。据Meta称,早期测试显示,Llama 4 Behemoth在多项STEM基准测试中的表现显著优于GPT-4.5和Claude Sonnet 3.7等竞争模型。
除了性能外,Meta还注重使Llama 4模型更安全、更平衡。它增强了内置保护措施,旨在防止模型提供有害或有偏见的回应,使其能够对有争议和政治敏感的问题提供更加平衡的答案。因此,Meta表示,Llama 4模型不太可能拒绝回答棘手问题,或在政治光谱的某一侧过度倾斜。
"我们的目标是构建世界领先的AI,将其开源,并使其普遍可及,让全世界的每个人都能受益,"扎克伯格在Instagram上发布的视频中说。"我一直认为开源AI将成为领先模型,随着Llama 4的推出,这一趋势正在开始发生。Meta AI今天将获得重大升级。"
我们可以期待在4月29日Meta举办首届年度LlamaCon AI大会时看到更多AI方面的内容,届时该公司可能会发布Llama 4 Behemoth模型。预计Meta还将在活动中宣布一款独立的Meta AI应用程序。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。