Claude 升级2.1 后，可轻松处理20W指令，准确率提升30%

307
文章

14
评论

2023年12月1日 17:08:38技术•随笔评论608字数 1626阅读5分25秒阅读模式

Claude 2.1 升级后，可轻松处理20W指令。虽然很高兴能够将这一强大的新功能交到用户手中，但通常需要几个小时的人力才能完成的任务可能需要 Claude 几分钟的时间。我们预计随着技术的进步，延迟将大幅减少。

Claude 升级2.1 后，可轻松处理20W指令，准确率提升30%

200K 上下文窗口

自今年早些时候推出以来，Claude 已被数百万人用于广泛的应用——从翻译学术论文到起草商业计划书和分析复杂的合同。在与用户的讨论中，他们要求在处理长文档时提供更大的上下文窗口和更准确的输出。

现在传递给 Claude 的信息量增加一倍，限制为 200,000 个令牌，翻译为大约 150,000 个单词，或超过 500 页的材料。用户现在可以上传技术文档，如整个代码库、财务报表（如 S-1），甚至是长篇文学作品，如《伊利亚特》或《奥德赛》。通过能够与大量内容或数据交谈，Claude 可以进行总结、执行问答、预测趋势、比较和对比多个文档等等。

处理 200K 长度的消息是一项复杂的壮举，通常需要数小时人工才能完成的任务， Claude 几分钟可能就可以完成了。随着技术的进步，延迟将大幅降低。

幻觉率

降低 2 倍 Claude 2.1 在诚实方面也取得了显着进步，与的 Claude 2.0 模型相比，虚假陈述减少了 2 倍。这使企业能够构建高性能的 AI 应用程序，以解决具体的业务问题，并以更高的信任度和可靠性在其运营中部署 AI。

通过策划大量复杂的事实问题来测试 Claude 2.1 的诚实性，这些问题探讨了当前模型中的已知弱点。使用区分错误声明（“玻利维亚人口第五多的城市是蒙特罗”）和承认不确定性（“我不确定玻利维亚第五大人口城市是什么”）的评分标准，Claude 2.1 更有可能提出异议而不是提供不正确的信息。

Claude 2.1 在理解和总结方面也做出了有意义的改进，特别是对于需要高度准确性的长而复杂的文档，例如法律文档、财务报告和技术规范。在评估中，Claude 2.1 的错误答案减少了 30%，错误地得出结论支持特定主张的比率降低了 3-4 倍。

PI 工具

使用根据大众需求，我们还添加了工具使用，这是一项新的测试版功能，允许 Claude 与用户现有的流程、产品和 API 集成。这种扩展的互操作性旨在使 Claude 在用户的日常操作中更加有用。

Claude 现在可以跨开发人员定义的函数或 API 进行编排，搜索 Web 资源，并从私有知识库中检索信息。用户可以定义一组工具供 Claude 使用并指定请求。然后，模型将决定需要哪种工具来完成任务并代表他们执行操作，例如：

使用计算器进行复杂的数值推理
将自然语言请求转换为结构化 API 调用
通过搜索数据库或使用 Web 搜索 API 来回答问题
通过私有 API 在软件中执行简单操作
连接到产品数据集以提出建议并帮助用户完成购买

工具的使用目前处于早期开发阶段，我们正在构建开发人员功能并提示指南，以便更轻松地集成到您的应用程序中。我们鼓励用户分享有关工具使用的反馈，以帮助塑造和改进产品。

开发人员体验

Claude API 用户的开发人员控制台体验，同时更轻松地测试新提示以加快学习速度。新的 Workbench 产品使开发人员能够在 Playground 风格的体验中迭代提示，并访问新的模型设置以优化 Claude 的行为。他们可以创建多个提示，并在它们之间为不同的项目导航，并且修订版本会保存以保留历史上下文。开发人员还可以生成代码片段，以便直接在我们的某个 SDK 中使用他们的提示。

Claude 2.1 还引入了系统提示，允许用户向 Claude 提供自定义指令以提高性能。系统提示设置有用的上下文，增强 Claude 承担特定个性和角色的能力，或以更可定制、更一致的方式构建响应，符合用户需求。

Claude 2.1 现已在我们的 API 中提供，并且还为免费和专业级别的聊天界面提供了 claude.ai 支持。200K 令牌上下文窗口的使用是为 Claude Pro 用户保留的，他们现在可以上传比以往更大的文件。

官方链接：https://www.anthropic.com/index/claude-2-1

继续阅读