Meta Llama 3.2系列模型亮相亚马逊云科技，支持图像推理、多模态应用及内容安全保护

志斌 • 2024年10月10日上午10:23 • 资讯

大模型之家讯 10月10日，亚马逊云科技宣布，Meta的Llama 3.2系列模型，包括其首款多模态模型，现已正式入驻Amazon Bedrock和Amazon SageMaker平台。此外，客户还可以在基于Amazon Trainium和Amazon Inferentia的Amazon Elastic Cloud Compute（Amazon EC2）实例中部署这些先进的模型。

Llama 3.2系列模型在继承前代成功经验的基础上，进行了全面升级，带来了高度差异化的功能更新。其中，小型和中型视觉大语言模型支持图像推理，为AI应用增添了新的维度。同时，针对设备端优化的轻量级纯文本模型，则大大提高了使用的便捷性和效率。Meta特别强调，在创新过程中，他们始终注重负责任的创新和安全性，确保技术的健康发展。

在Llama 3.2系列中，Meta推出了两款多模态视觉模型——Llama 3.2 11B Vision和Llama 3.2 90B Vision。这两款模型是系列中的佼佼者，不仅支持图像理解和视觉推理，还擅长分析视觉数据，如图表和图形，提供精确的答案和洞察。它们的应用场景广泛，包括图像标注、视觉问答、图像与文本检索、文档处理、多模态聊天机器人等。此外，它们还能进行长篇文本生成、多语言翻译、编程、数学和高级推理等任务，展现了强大的跨领域能力。

除了大型模型外，Llama 3.2系列还为边缘和移动设备量身定制了轻量级模型——Llama 3.2 1B和Llama 3.2 3B。这两款模型既可在云端运行，也可在本地进行数据处理，响应速度极快。它们非常适合高度个性化的应用，如文本生成与总结、情感分析、客户服务应用、文本润色、多语言知识检索和移动AI写作助手等。

值得一提的是，Llama 3.2系列中的Llama Guard 3 11B Vision模型针对内容安全分类进行了微调。该模型仅在Amazon SageMaker JumpStart中可用，可以对大型语言模型的输入（即提示词分类）和输出（即响应分类）进行内容安全保护。它专为支持图像推理场景设计，提升了对提示词输入中的有害多模态内容（文本和图像）的检测能力，以及模型输出的文本内容检测，为AI应用的安全性提供了有力保障。

据Meta表示，Llama 3.2模型已在超过150个基准数据集上进行评估，展现出与领先基础模型相媲美的竞争力。与Llama 3.1类似，所有Llama 3.2模型均支持128K的上下文长度，并支持涵盖八种语言的多语言对话使用场景，包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语，进一步提升了模型的全球适用性和用户体验。

原创文章，作者：志斌，如若转载，请注明出处：http://damoai.com.cn/archives/7509