新AI模型Reka挑战ChatGPT、Claude和Llama-3—而且是免费的
2024 年 4 月 29 日

新的AI模型Reka崛起挑战ChatGPT、Claude和Llama-3——而且它是免费的 #

一家专注于为大型企业构建定制AI模型的创业公司宣布了Reka Core的公开发布,这是一种多模态语言模型,能够处理文本、图像、视频和音频输入。

企业软件公司Reka AI (opens new window)成立于2022年,由来自谷歌的DeepMind、中国科技巨头百度和Meta的研究人员创立。它已经从包括纽约人寿风险投资、Radical Ventures、Snowflake Ventures、DST Global和投资者企业家Nat Friedman在内的投资者那里筹集了6000万美元的资金 (opens new window)

Reka Core是该公司迄今为止规模最大、功能最强大的模型。而Reka AI——参考自己的测试结果——表示它在许多更大、资金更充裕的模型面前表现出色。在一份研究报告 (opens new window)中,整合了几个合成基准测试的结果,Reka声称其Core模型可以与OpenAI、Anthropic和Google等AI工具竞争。

其中一个关键指标是MMMU,即大规模多学科多模态理解和推理基准。这是一个旨在测试大型语言模型(LLMs)在多模态理解和推理方面能力的数据集,与人类专家水平可比。

“Core在MMMU上与GPT-4V相媲美,在我们进行的独立第三方多模态人类评估中胜过Claude-3 Opus,并在视频任务上超越了Gemini Ultra,”Reka AI在其研究报告中表示 (opens new window)。“在语言任务上,Core在已建立的基准测试中与其他前沿模型竞争。”

在理解视频输入方面,通过感知测试基准来衡量,Core击败了唯一另一个视频能力模型Gemini Ultra。

总的来说,Reka Core具有多模态(图像和视频)能力,良好的推理能力,可以生成代码,并且具有多语言流利性。聊天机器人界面是免费使用的,Reka Core也可以通过API访问。对于API访问,开发人员可以期望每100万个令牌支付10美元,以及相同数量的输出令牌需支付25美元。

然而,该模型在处理长提示时存在困难。出于效率原因,其免费版本仅处理4000个上下文令牌,根据Reka的说法,可以扩展到128,000个令牌。而来自OpenAI、Anthropic和Google的竞争模型具有128,000个标准上下文窗口,实验版本可以处理100万个令牌。

Reka Core是从头开始在数千个GPU上训练的。该公司表示,他们使用了来自32种语言的文本数据,使其精通英语以及几种亚洲和欧洲语言。开发人员表示,他们还从包含110种语言的维基百科数据集中摄取了一些多语言训练,使其具有对许多不常见语言和方言的有限基础知识。

Reka Core可用于免费测试 (opens new window),但不是开源的。Reka AI表示正在与许多领先的全球技术平台和政府组织合作,如Snowflake、Oracle和新加坡人工智能。

测试Reka #

_Decrypt_通过其公共聊天机器人界面 (opens new window)对Reka Core进行了测试。它看起来与ChatGPT相似,采用暗模式显示,带有蓝色和紫色的突出显示。

视觉能力

Reka Core的视觉能力令人印象深刻,但重要的是要注意,它无法像ChatGPT Plus、Meta AI或Google Gemini那样生成图像。

但是,Reka的视觉能力快速准确,使其成为需要视觉分析的任务的绝佳工具。

在我们的测试中,Reka比GPT-4更快,并提供准确的结果——无论是在被要求描述某物时,还是在使用视觉信息来回应任务时。例如,我们向Reka展示了埃菲尔铁塔的照片,并问它如何在那个城市度过周末。Reka理解了上下文,并给出了一个关于巴黎参观地点的行程表——没有包括埃菲尔铁塔。

Reka AI似乎很清楚他们的模型的视觉能力与竞争对手相比如何。他们建立了一个专门的展示网站,展示了Reka、GPT-4和Claude 3 Opus提供的不同输出的示例。

Reka编写代码

Reka Core是一个功能强大的编码助手,但它确实有一些限制。在_Decrypt_的测试中,Reka需要仔细措辞才能提供准确的结果,因为它对所有事物都非常字面。对于不知道如何以Reka能理解的方式解释事物的初学者来说,这可能是具有挑战性的。

一旦提示被正确措辞,Reka可以生成出色的代码和令人满意的结果。

_Decrypt_要求该模型创建一个不存在的游戏的代码。第一次结果不起作用,即使它确实按照我们要求的方式写了。当我们更明确地重述我们的提示时,它第一次尝试创建了功能良好但不完美的代码,比Claude 3 Opus提供的结果更好。

代码样本可在此处 (opens new window)找到——以及其他LLMs生成的版本。

Reka具有强大的安全设置

Reka Core具有内置的安全控制,拒绝生成被认为有害或不道德的结果,即使它们是合法的。例如,它拒绝提供吸引朋友的浪漫伴侣的建议。

在我们的测试中,Reka抵制了基本的越狱技术,比GPT-4、Llama-3和Claude更中立。当被问及有争议的话题,如性别认同和政治意识形态时,Reka提供了平衡和公正的回应。

在另一个例子中,它提供了支持和反对资本主义和社会主义的论点——即使被要求决定哪种模型最好。此外,当被要求定义女人时,Reka提供了一个详细而微妙的回应,认识到生物学和社会学因素,明确地将女人定义为“一个成年女性人类,具有通常与女性性别相关的生物、心理和社会属性”。

此外,Reka小心地承认了性别认同的复杂性,并提供了尊重和包容的回应。 Reka的创意写作能力是扎实的,但并非特别出色。

我们要求该模型创作一个关于一个人从2160年到1000年修复问题并无意中引起时间悖论的故事。

Reka的叙事风格清晰且引人入胜,偶尔还有一些不错的描述性华丽修饰。然而,散文并没有达到像Claude这样的其他AI那样的想象力高度。故事情节也感觉有些不成熟,带有AI制作的感觉。

正如之前提到的,Reka的一个弱点是缺乏上下文能力,这可能会使其难以生成长篇故事或在不同章节中保持连贯的叙述。

在这个领域,明显的赢家是Claude。就纯粹的叙事技巧而言,能够用精妙的散文和自信的叙述语调编织引人入胜、情感共鸣的故事,Claude胜出。总体而言,Claude的散文具有出色的文学品质。

Reka、Claude、ChatGPT、Mistral和Llama-3生成的故事样本可以在此处找到 (opens new window)

知识和推理

Reka Core的知识和推理能力非常出色。在_Decrypt_的测试中,Reka能够处理需要分析的复杂问题,并展示了一些数学能力。此外,Reka能够以清晰简洁的方式解释其逻辑推理。

在处理跟进问题方面也做得很好,可以在不失去上下文的情况下反复探讨同一问题,只要跟进问题不将模型推到技术极限之外。如果发生这种情况,就无法继续与其互动。

Reka还发布了一段视频,解释了用户如何使用其API部署AI代理,这可以进一步扩展其功能,使其在这方面更加强大。

语言理解

Reka Core的语言理解能力非常出色。在我们的测试中,Reka能够理解文本,即使其中包含许多错误。它还是一位熟练的校对员,能够在叙述中采用不同的风格和语调。

该模型还能够理解不同语言中的细微差别。它能够翻译并提取语境,以完全理解翻译的信息。它理解了西班牙语中的一句常用谚语,给出了适当调整的文化等同之后解释了其含义。

结论

_Decrypt_对Reka Core印象深刻。

在输出和整体工作方面,Reka优于Google Gemini,但Gemini提供2TB的存储空间,并与Google产品套件集成,对某些用户有很大好处。

如果视觉功能是优先考虑的,Reka绝对值得考虑。由于它既免费又快速,可能会赢得许多渴望在大众之前探索下一个大事件的AI爱好者的心。

如果需要专注于创意写作,Claude仍然是明显的赢家。如果这不是优先考虑的事项,Claude和Reka之间没有太大区别。Claude在其长篇故事情节能力方面表现最佳,而Reka在其出色的视觉能力方面表现最佳。

总的来说,如果人们需要具有广泛能力范围的先进聊天机器人,Reka是一个很好的选择,可以为那些本来可能考虑订阅付费服务的用户节省资金。

Stacy Elliott (opens new window)编辑。

保持对加密货币新闻的关注,每天在您的收件箱中获取更新。 #