xAI大升级,将实现Grok聊天机器人支持多模态输入
埃隆・马斯克的人工智能先锋 xAI 公司正在为旗下的智能对话机器人Grok 赋予更强大的能力,致力于为其增加多模态输入功能。
根据近期披露的开发者资料,xAI公司在Grok聊天机器人的多模态输入技术研发上已有所突破。这标志着,未来用户将有机会通过上传照片,直接获取基于这些图像内容的文本回答。
早在上个月,xAI便在其官方博客中提及了这一创新点,暗示着Grok的新版本将具备“跨领域多模态模型”的先进功能。而从最新的开发者文档更新来看,这一新功能的实现已指日可待。
在最新的开发者文档中,一个Python脚本示例展示了如何利用xAI软件开发工具包(SDK)来生成结合了文本与图像元素的回应。该脚本能够读取图像文件,接收用户提供的文本提示,并通过xAI SDK生成相应的回答。
对于xAI而言,这一功能的实现是Grok发展历程中的一大里程碑。自2023年11月首次亮相以来,Grok便以其卓越的性能吸引了大量用户,但仅对购买X高级会员订阅的用户开放。今年3月发布的Grok 1.5版本,更是在推理能力上有了显著提升。
据xAI的官方博文透露,Grok模型是基于互联网公开来源直至2023年第三季度的大量文本数据进行训练的,其中还包含了由人类审核员精心筛选和整理的内容。不过,Grok并未直接使用xAI自身的公开帖子进行训练。尽管如此,Grok仍然能够实时捕捉和整合来自xAI平台上的各类信息。
作为埃隆・马斯克于2023年3月创立的人工智能公司,xAI在人工智能领域虽然起步较晚,但在技术创新上却毫不逊色。尽管在某些方面暂时落后于OpenAI的ChatGPT等竞争对手,但xAI的Grok 1.5模型已在多项基准测试中展现出与GPT-4不相上下的实力,这些测试涵盖了从基础教育到高中竞赛的广泛领域。不过,值得注意的是,大型语言模型的基准测试经常受到质疑,因为当这些基准测试被纳入模型的训练数据时,模型便有可能在这些测试上取得出色的表现。