OpenAI 的最大竞争对手之一—— Anthropic,又有大动作。
美国时间 7 月 11 日,这家由 OpenAI 前高管共同创立的人工智能企业,正式发布全新 AI 模型 Claude 2 及其网页测试版。网页测试版可以免费使用,且支持中文对话,但目前仅对美国和英国用户开放。
Anthropic 还称,面向企业的 Claude 2 API 价格与 Claude 1.3 相同(每生成 1000 个单词约 0.0465 美元),并希望在未来几个月内将 Claude 2 推广至全球范围。
Claude 2 此次更新,值得注意的是提高了单次可输入的长度——达 10 万 token,这几乎是目前商业可用模型中最大的。10 万 Token,意味着 Claude 2 可以一次性处理大约 75000 个单词,这相当于数百页的技术文档,甚至是书籍。
此外,模型的编程、数学、推理技能也得到了改善。在 Codex HumanEval(Python 编程测试)中,Claude 的得分从 1.3 的 56.0% 上升到了 2 的 71.2%。在小学数学问题(GSM8K)、多学科问答(MMLU)、科学问题(ARC-Challenge)等方面,Claude 2 较之前也均有所提升。
来源:Anthropic
与 Claude 1.3 一样,Claude 2 可以实现文档搜索、总结,代码分析和编码等功能。
根据官网给出的示例,用户只需上传需要分析的文档,然后给出相应的指令,Claude 就会自动阅读文档,并作出回答。示例中的两个 pdf 大小总计近 300k,包含超过 83000 个 token,但 Claude 2 仍然成功地完成了任务。
尝试输入了一个英文文档,并用中文下达指令。Claude 2 虽然给出了较为清晰的答案,但可以明显感受到满满的翻译腔,并不能达到自然的中文对话水平。
来源:Claude 2 使用截图
另外,Anthropic 在其发布的论文中表示,Claude 2 具有支持 20 万 token 上下文的潜力,但目前暂未对外开放。
为了进一步检测 Claude 2 的中文能力,向 Claude 2 提出了高难度的 " 谐音梗 " 问题。Claude 2 起初显然没有意识到问题的本质,还在尝试给出符合现实逻辑的答案。
而当给出正确答案—— " 巴黎世(是)家 " 时,Claude 2 虽然意识到,问题可能是个 " 谐音梗 ",但却开始一本正经地胡说八道了起来。
而在代码方面,官方展示了如何利用 Claude 2,在一幅静态地图上加入交互的动效。使用者只需将静态地图的 js 文件输入聊天框,就可以要求 Claude 2 分析代码的功能,而后输入想要实现的新功能,Claude 2 就会自动生成对应的代码。
也尝试用中文提问,要求 Claude 2 生成一个五子棋游戏的代码。Claude 2 虽然快速生成了能够运行的代码,但还不能判断胜负逻辑。不过,Claude 2 也给出了相应的解释,提示用户继续编拓展其他代码。
此次更新还使用了最新的数据集,包括网站、第三方授权数据集和 2023 年初用户自愿提供的数据。相较之下,OpenAI 的 ChatGPT 未联网时,数据集还停留在 2021 年底。
不过,Anthropic 上市负责人 Sandy Banerjee 在接受 TechCrunch 时表示,Claude 2 与 1.3 在模型上并没有什么不同,只是 " 不断迭代的模型开发方法的产物 "。
截至目前,Anthropic 声称已有 " 数千客户 " 以及一批合作伙伴。公司的投资者之一谷歌,已承诺投资 3 亿美元,以换取该公司 10% 的股权。
Anthropic 还表示,要继续研发大模型,未来两年内公司还需要约 50 亿美元,其中大部分资金将用于计算。