### 前言
ChatGPT-4 的训练截止日期是 2021 年 9 月,那 Claude 3 呢?在 2024 年 3 月 5 日,Anthropic 在官网正式悄然发布了新一代 Claude 大模型——Claude 3 系列多模态大模型。在 Claude 3 正式发布后不久,亚马逊云科技 UserGroup 社区也迅速开放了基于 Amazon BedRock 的 Claude 3 体验。趁着这一次机会,正好对 Claude 3 进行一次简单的尝试。
![image.png](https://dev-media.amazoncloud.cn/11c758033cd141a28c91f7b95db22672_image.png "image.png")
### 一、Claude 3 系列大模型开发团队
Anthropic 成立于 2020 年,其创始人 Dario Amodei 和 Daniela Amodei 均来自 OpenAI。由于对 OpenAI 在技术尚未完全成熟时就急于商业化的做法表示不满,他们毅然离职创立了 Anthropic,旨在构建更安全、可解释、可操控的 AI 系统。
![image.png](https://dev-media.amazoncloud.cn/7fc84871ff694aef9d7801fcd95b4ea2_image.png "image.png")
本次发布的 Claude 3 系列也在设计上体现了 Anthropic 对安全性和易用性的高度重视。**开发团队特别强调了模型安全性,通过多团队合作,着手降低虚假信息、生物安全滥用、选举干预等潜在风险。同时,增强了模型透明度并减少隐私问题,确保了使用过程中的安全与信任**。
### 二、基于 Amazon Bedrock 的 Claude 3 体验
在 Claude 3 正式发布后不久,亚马逊云科技 UserGroup 社区也迅速开放了基于 Amazon BedRock 的 Claude 3 体验。趁着这一次机会,正好对 Claude 3 进行一次简单的尝试。
![image.png](https://dev-media.amazoncloud.cn/e4a45b36cd714c339541447593c10533_image.png "image.png")
BedRock 是亚马逊云科技提供 AI 生成图像和文本的云服务。针对 Claude 3,BedRock 在随机性和多样性上提供一部分可调节的能力。
- 温度——指的是调整生成的随机程度。较低的温度意味着较少的随机生成。
- 排名前 P——如果设置为小于 1 的浮点数,则仅保留概率总计为 Top_p 或更高的最小一组可能的令牌进行生成。
- 排名前 K——可用于减少生成令牌的重复性。该值越高,对先前存在的令牌施加惩罚就越严厉,这与它们在提示或之前的生成中已经出现的概率成正比。
### 三、Claude 3 数据实测
#### 3.1、申请模型访问权限
下图是亚马逊云科技 Bedrock 的页面,在申请了模型的访问权限后,就可以在聊天操场开始尝试了。
![image.png](https://dev-media.amazoncloud.cn/f54a253f266a4f1797bc1d894eeab5de_image.png "image.png")
#### 3.2、Claude 3 回答的严谨性
不出所料的是,Claude 3 在回答的严谨性上保持了一贯的严谨,很抱歉、非常抱歉、十分抱歉……
![image.png](https://dev-media.amazoncloud.cn/e0a87aca6a1f440181f17adf24f2bc91_image.png "image.png")
#### 3.3、验证 Claude 3 较于 ChatGPT-4 数据集更新时间
ChatGPT-4 的训练截止日期是 2021 年 9 月,ChatGPT 大模型不同版本、描述信息及训练日期,具体如下图所示:
![image.png](https://dev-media.amazoncloud.cn/7524cdfd95f6460899c445453e06d708_image.png "image.png")
既然 Claude 3 发布时间晚于 ChatGPT-4,那他所采用数据集会不会比 ChatGPT 更新呢?
答案不出所料:非常抱歉……
![image.png](https://dev-media.amazoncloud.cn/7205f79fd6cb485fabe3bb876d68ef1a_image.png "image.png")
#### 3.4、“二分法”判断 Claude 3 训练数据截止时间
![image.png](https://dev-media.amazoncloud.cn/ca91b664501944299d9a4b20aa863e38_image.png "image.png")
对于任何一个基于大规模数据训练的人工智能系统来说,它的知识面就等同于截止到训练数据集的时间范围。超出这一时间范围,模型就可能无法给出可靠回答。因此,判断出它的训练数据截止时间,等于解开了 AI 能力的谜团。 那么,在 Claude 3 已经明确拒绝的情况下,该如何探测 Claude 3 的训练数据截止时间呢?
我们可以借助二分法的思路,通过一种"问答游戏"的方式加以求证。
二分法,简单来说,是一种处理问题的策略,尤其在需要查找或解决问题时特别有用。它通常从问题的中间部分开始,然后根据这个中间部分的情况,将问题分为两部分来考虑。比如,在一个有序数组中查找一个特定的数字,你可以先看数组中间的数字。如果这个数字正好是你要找的,那就找到了;如果不是,你要找的数字比中间数字小,那就在数组的前半部分继续找;如果比中间数字大,那就在后半部分找。这样每次都能排除掉一部分不需要考虑的内容,直到找到答案或确定答案不存在。
![image.png](https://dev-media.amazoncloud.cn/a6d6da659f0a4f0ab561a910495b4b37_image.png "image.png")
首先,我们需要设定一个较大的时间范围,比如从 2022 年 1 月 1 日到 2023 年 3 月 1 日。接下来,选择该范围的中点日期,比如 2022 年 6 月 15 日,询问一些该日期前后发生的重大事件。如果 Claude 3 能够正确回答这些事件,那说明截止时间至少在该中点之后;反之,则在之前。以此为基准,我们就可以将时间范围二分,重复上述过程,持续缩小范围。经过若干轮次的缩减,我们最终就能够将 Claude 3 的训练数据截止时间锁定在一个较小的时间段内,精度可以做到日级别。
#### 3.5、综合二分法与边界测试验证前后回答的一致性
在实际的测试过程中,为了验证前后回答的一致性,我们综合了二分法和边界测试。
![image.png](https://dev-media.amazoncloud.cn/ce76d5eec5c84c458b91e1d1fa821f6f_image.png "image.png")
![image.png](https://dev-media.amazoncloud.cn/ad742c35cbf643b8988c10d3bcccdaad_image.png "image.png")
![image.png](https://dev-media.amazoncloud.cn/096e7643cb4049ce8e382cf415ccbc6d_image.png "image.png")
![image.png](https://dev-media.amazoncloud.cn/5013ca62968d44e683d8c8a4b56e6a00_image.png "image.png")
![image.png](https://dev-media.amazoncloud.cn/ea435af2727a421f971beb118a226f12_image.png "image.png")
![image.png](https://dev-media.amazoncloud.cn/a225ba7224ac43628fb9f5e1b5e50f5b_image.png "image.png")
![image.png](https://dev-media.amazoncloud.cn/d48c5f1189a5452ba44db1c13f56e8da_image.png "image.png")
![image.png](https://dev-media.amazoncloud.cn/f1c9ffefdd8246398d30e2267513dbd3_image.png "image.png")
![image.png](https://dev-media.amazoncloud.cn/7ff71351a07d43c0a63499132750b1f6_image.png "image.png")
### 总结
根据 Claude 3 的回答,我们可以简单得出这样的结论:Claude 3 的训练数据截止日期是 2022 年 12 月 31 日,它在接受训练时能够吸收包含 2021 年 9 月至 2022 年 12 月之间的最新数据和知识。而 ChatGPT-4 在训练过程中没有接触到 2021 年 9 月之后产生的新数据、事件、趋势和技术进展等信息。
**前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。*