狙击 GPT5？Claude3 免费体验方法及初步体验

人工智能

API

生成式人工智能

Amazon Bedrock

技领云博主

![image.png](https://dev-media.amazoncloud.cn/ae639de63a9c4bb4a64ca930051fc2ea_image.png "image.png") 3月4号，被视作“OpenAI 最大竞争对手”的著名 AI 大模型公司 Anthropic 公司发布了其第三代 Cluade 大模型：Claude 3。这次的 Claude 3一次性发布了三个模型——Claude 3 Haiku、Claude 3 Sonnet 与 Claude 3 Opus，能力依次从低到高。其中： * **Haiku 是市场上最快且最具成本效益的模型，** 也是成本最低的选项，在大多数纯文本任务上的表现仍然相当出色，也同时包含多模态能力。 * **对于绝大多数工作负载，Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍，且智能水平更高。** 它擅长执行需要快速响应的智能任务，例如知识检索或销售自动化。它在智能和速度之间实现了理想的平衡——对于企业用例是尤其重要的品质。 * **Opus 是最先进、最强大的基础模型，具有深度推理、高级数学和编码能力，在高度复杂的任务上具有顶级性能。** 它可以非常流畅地导航开放式提示和新颖场景，包括任务自动化、假设生成以及图表、图形和预测的分析。适用于需要高度智能和复杂任务处理的场景，如企业自动化、复杂金融预测、研究和开发等。在相关测评中，能力最强的 Opus 在多项基准测试中得分都超过了 GPT-4 和 Gemini 1.0 Ultra，在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准，在特定测试场景如研究生水平考试 Q 题解 A 以及数学 Q 题解决上，Claude 3 表现出优于 GPT-4 的成绩。例如，在 zero-shot 学习环境下，Claude 3 的准确率达到了60%，超过了 GPT-4 的52%。 ![image.png](https://dev-media.amazoncloud.cn/0deb291f97be4201bdb35b524055ca56_image.png "image.png") 本篇文章将通过 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 教大家如何免费体验 Claude3，并对 Claude3 做初步测评分析。 ### 一、Claude3 免费体验方法目前，**Anthropic 的 Claude 3 Sonnet 模型现已在亚马逊****云科技****的 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 正式可用。** 目前可以完全免费试用。首先点击体验链接：https://portal.cloudassist-beta.sign-up.china.aws.a2z.com/demo/qrcode?trk=asdfghjkl12345?trk=cndc-detail 无需注册账号，仅需要扫码进入 CloudAssist，然后点击限时试用： ![image.png](https://dev-media.amazoncloud.cn/888f8b9d07b844c28fe970c6e4af326d_image.png "image.png") 然后点击进入 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail)： ![image.png](https://dev-media.amazoncloud.cn/f7e315b1322b434284835f85dd3b052c_image.png "image.png") 进入 Bedrock 控制台后，在这里我们可以看到 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 支持多个基础模型（foundation model）,其中包括 Amazon Titan，Claude，Jurassic，Command，Stable Diffusion 以及 Llama2。登录后，还需要对 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 中的模型进行授权，对于某些模型，可能首先需要提交用例详细信息，然后才能请求访问。这里点击模型访问权限——管理模型访问权限： ![image.png](https://dev-media.amazoncloud.cn/e11f81ebe46a425eba4332b410e25eb1_image.png "image.png") 申请 Claude3 需要提交应用场景详细信息： ![image.png](https://dev-media.amazoncloud.cn/cd3be43328c44458aaa1a35991bec7ab_image.png "image.png") 然后在弹出的表单中提交相关信息，在应用场景中可以写试用 ![image.png](https://dev-media.amazoncloud.cn/a488f213bd6e42abb47117e51829e7c8_image.png "image.png") 提交申请后，勾选 Claude 3 Sonnet，然后翻到最底部点击提交即可获取使用权限 ![image.png](https://dev-media.amazoncloud.cn/35787d96aa9b4bd09ef7caf75c8dbc16_image.png "image.png") 等待两到三分钟后，可以看到成功获取到访问权限。然后我们点击聊天，点击选择模型，选择 Anthropic 中的 Claude 3 Sonnet，就可以开始体验了！ ![image.png](https://dev-media.amazoncloud.cn/3cc1a019f0044a448edc0c76e1af3ad1_image.png "image.png") ### 二、Claude3 初步体验 #### 2.1、参数配置 ![image.png](https://dev-media.amazoncloud.cn/8437f146b84b43ac9ec4e8a0494d335e_image.png "image.png") 进入后可以看到 Claude 3 Sonnet 提供了多项配置，其中 Top-k、Top-p 和温度参数是常用的三个参数。这些参数可以有效地控制模型的输出行为和生成质量。通过调整这些参数的设置，可以更好地调优模型的性能，以适应不同的应用场景和任务需求，具体设置如下： 1. 温度：温度是一个控制生成文本多样性的参数，较高的温度值，如1.0，会产生更随机的输出，而较低的温度值，如0.1，会使模型更倾向于选择最可能的单词。 2. 排名前P：Top-p 是一种考虑模型输出的全局策略，它决定了更好地探索可能的输出序列，从而产生更多样化的输出。具体来说，Top-p 策略首先按照每个词的预测概率对它们进行排序，然后根据这些词的顺序逐个选择下一个输出，直到累计概率达到 p。Top-p 可以更好地探索可能的输出序列，从而产生更多样化的输出 3. 排名前K：Top-k 是一种控制模型输出的策略，它决定了模型在生成文本时应该考虑的下一个词的最大词频。在生成文本时，模型会根据当前的上下文预测下一个词的概率分布，然后从最高的预测概率中采样出一个词作为下一个输出。但是，如果下一个词的预测概率非常高（即 top-1），那么模型可能会过于自信，忽略了其他可能的词。 4. 最大长度：这是生成文本的最大长度限制，超过这个长度的文本将被截断或停止生成。 5. 停止序列：停止序列是一个指定的特殊标记或序列，暂时不用管。本次体验在默认参数下进行，我们选择了一些网络上具有代表性的问题进行提问： #### 2.2、模型效果 ##### 分橘子问题（考验模型常识+推理能力）最多切一刀，如何把四个橘子分给四个小朋友，回答的较好： ![image.png](https://dev-media.amazoncloud.cn/352a054ab474463eba63dcf8b4923083_image.png "image.png") ##### 我父母婚礼为何不邀请我参加？（考验常识与信息确认能力）这里出现了错误，无法应对智障问题 ![image.png](https://dev-media.amazoncloud.cn/68a2fcadc5e44640a78698acdefa32c4_image.png "image.png") ##### 数学类计算问题简单算数完全没有问题： ![image.png](https://dev-media.amazoncloud.cn/fcf52ab927b648108dafb5825746074d_image.png "image.png") 数位过多或者比较复杂的计算仍然有错误，实际结果应该为91425854 ![image.png](https://dev-media.amazoncloud.cn/41c06c1f46ca4c6683c54f1343bbe9d5_image.png "image.png") ##### 视觉识别输入了一张红色的鸟类图像，可以看到其能够比较准确的认知图像： ![image.png](https://dev-media.amazoncloud.cn/0007b643d44042eb9117143ce40b5191_image.png "image.png") ##### 视觉+常识输入一张时钟图像，其正确时间为10点10左右，出现了认知错误 ![image.png](https://dev-media.amazoncloud.cn/5eeeb9af153c46f3b4bc4acda3972067_image.png "image.png") ##### 视觉+逻辑输入以下图像，让 Claude3 识别火箭的数量 ![image.png](https://dev-media.amazoncloud.cn/aed0d0e4052449b6b7c5e567081c6a50_image.png "image.png") 可以看到面对这种高阶的视觉逻辑问题，其回答仍然有错误 ![image.png](https://dev-media.amazoncloud.cn/f3a10a29861e432c9c01f4fb52529338_image.png "image.png") ### 三、Amazon Bedrock 简介 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 是一项完全托管的服务，其提供了来自众多领先AI公司（包括 AI21 Labs、Anthropic、Cohere、Meta、Stability AI 和亚马逊）面向海外业务的的高性能基础模型，除了Claude3, [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 还可以利用简单的 API 接口访问 Meta Llama2、Anthropic Claude、Titan、Stability AI、AI21 Labs、Cohere 等领先的基础模型，以构建和扩展其生成式 AI 应用程序。 ![image.png](https://dev-media.amazoncloud.cn/a3d2c51cc31b46e7a3096052c299c3fe_image.png "image.png") [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 提供易于使用的开发者体验，无论选择哪种模型，您都可以快速尝试灵活使用，并且只需最少的代码更改即可保持最新的模型版本。借助 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 知识库，可以安全地将基础模型连接到数据来源，以便在托管服务中增强检索，从而扩展基础模型已有功能，使其更了解特定领域和组织，越用越好，才是王道。 ![image.png](https://dev-media.amazoncloud.cn/e30486b29a7142d581bb92eae5965001_image.png "image.png") 体验链接：https://portal.cloudassist-beta.sign-up.china.aws.a2z.com/demo/qrcode?trk=cndc-detail **前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用，亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。*

亚马逊云科技解决方案基于行业客户应用场景及技术领域的解决方案

联系亚马逊云科技专家