xAI大升级，将实现Grok聊天机器人支持多模态输入

AI快讯 2024-05-22

埃隆・马斯克的人工智能先锋 xAI 公司正在为旗下的智能对话机器人Grok 赋予更强大的能力，致力于为其增加多模态输入功能。

根据近期披露的开发者资料，xAI公司在Grok聊天机器人的多模态输入技术研发上已有所突破。这标志着，未来用户将有机会通过上传照片，直接获取基于这些图像内容的文本回答。

早在上个月，xAI便在其官方博客中提及了这一创新点，暗示着Grok的新版本将具备“跨领域多模态模型”的先进功能。而从最新的开发者文档更新来看，这一新功能的实现已指日可待。

在最新的开发者文档中，一个Python脚本示例展示了如何利用xAI软件开发工具包（SDK）来生成结合了文本与图像元素的回应。该脚本能够读取图像文件，接收用户提供的文本提示，并通过xAI SDK生成相应的回答。

对于xAI而言，这一功能的实现是Grok发展历程中的一大里程碑。自2023年11月首次亮相以来，Grok便以其卓越的性能吸引了大量用户，但仅对购买X高级会员订阅的用户开放。今年3月发布的Grok 1.5版本，更是在推理能力上有了显著提升。

据xAI的官方博文透露，Grok模型是基于互联网公开来源直至2023年第三季度的大量文本数据进行训练的，其中还包含了由人类审核员精心筛选和整理的内容。不过，Grok并未直接使用xAI自身的公开帖子进行训练。尽管如此，Grok仍然能够实时捕捉和整合来自xAI平台上的各类信息。

作为埃隆・马斯克于2023年3月创立的人工智能公司，xAI在人工智能领域虽然起步较晚，但在技术创新上却毫不逊色。尽管在某些方面暂时落后于OpenAI的ChatGPT等竞争对手，但xAI的Grok 1.5模型已在多项基准测试中展现出与GPT-4不相上下的实力，这些测试涵盖了从基础教育到高中竞赛的广泛领域。不过，值得注意的是，大型语言模型的基准测试经常受到质疑，因为当这些基准测试被纳入模型的训练数据时，模型便有可能在这些测试上取得出色的表现。