建立 Falcon 大语言模型:一个顶级的开源语言模型

云计算
re:Invent
0
0
## 视频 <video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/WPS209-Building_Falcon_LLM__A_top_ranked_open_source_language_model-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video> ## 导读 在本论坛中,学习技术创新研究所 (TII) 如何构建下一代生成式 AI 技术。了解 TII 如何通过在大语言模型 (LLM) 中应用专有技术,构建跨学科的尖端专业知识,从而扩展现代标准语言模型的范围。Falcon 大语言模型接受了大量文本数据的训练,能够快速、低成本地对用户提示生成类似人类的响应。 ## 演讲精华 <font color = "grey">以下是小编为您整理的本次演讲的精华,共1100字,阅读时间大约是6分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font> 在2023年的re:Invent上,一个关于生成性AI和大型语言模型(LLM)力量的引人入胜的会议举行。欧洲、中东和非洲地区的亚马逊云科技(Amazon Web Services)公共部门领导者Cameron Brooks首先强调了像Falcon这样的LLM如何正在开创自然语言处理的新领域。他表示,这些算法已经掌握了人类语言的复杂性,在各个领域如教育、研究、通信等解锁了无尽的可能性。 特别地,Cameron强调了LLM如何促进跨越语言障碍的无缝沟通,促进全球合作以应对紧迫问题,如气候变化和公共卫生危机。它们可以消化大量的数据,以加速任何领域的研究人员的创新速度。在教育领域,LLM有潜力通过提供针对每个学生优势和弱点的个性化体验来彻底改变学习。最终,通过利用语言的力量,LLM正在帮助解决社会的一些最重大挑战。 为了更深入地了解领先的LLM的发展,Cameron介绍了来自阿拉伯联合酋长国的AI先驱Al Abdela Al Mousauri博士。Al Abdela是阿联酋技术创新研究所(TII)的执行董事兼首席AI研究员,该研究所是一个专注于变革性技术的主要研究机构。她还共同创立了TII的人工智能跨中心单位,该单位的使命是建立世界一流的AI研究所。 Al Abdela从分享TII的愿景开始,即创建解决现实世界问题的先进技术。TII雇佣了来自70多个国家的1000多名科学家、研究人员和工程师,反映了多元化的视角。她解释说,TII遵循“开放科学”的哲学,开发像Falcon LLM这样的创新,以便全球的研究人员和企业家都可以访问。最终,目标是利用AI来推进联合国在医疗保健、教育等领域可持续发展目标。 转向猎鹰项目的起源,阿尔·阿卜代拉博士追溯了TII逐步发展越来越强大的LLMs的方法。他们从较小的规模模型开始,如猎鹰1B和7B,然后发展到猎鹰40B,最终达到180B参数。每个阶段都涉及到使用亚马逊云科技的SageMaker对模型架构、训练技巧和数据集进行大量实验,以确定训练LLM的最佳配方。 阿尔·阿卜代拉博士随后深入研究了猎鹰的核心技术。一个关键创新是猎鹰的仅解码器变压器架构,这有助于更有效地大规模训练。团队还利用各种技巧,如混洗和优化器分片,以提高稳定性并减少内存占用。同样重要的是,猎鹰使用了85%的高质量网络数据和15%的精选数据,以最小化记忆同时捕捉细微的语言理解。 事实证明,这一点从实际中得到了证明——在2023年3月,TII展示了400亿参数的猎鹰4B实际上超过了更大参数量1750亿参数的GPT-3模型。这表明,通过正确的方法和数据,较小的模型可以超越更大的对应物。 现在,猎鹰180B代表了TII在LLM开发过程中的下一个阶段。评估结果显示,尽管参数数量少于Claude的一半,但猎鹰180B的性能超过了99%。在NLP基准测试中,猎鹰180B也超过了GPT-3.5和Meta的LaMDA 2,同时展示了更强的推理能力和多语言功能。 为了实现这些成就,TII利用了亚马逊云科技的SageMaker的庞大规模,使用超过4000个GPU在3.5万亿标记上训练猎鹰180B。阿尔·阿卜代拉博士详细解释了如何精心优化SageMaker集群、S3存储和其他亚马逊云科技服务,以实现此规模的高效分布式训练。团队主要依赖亚马逊云科技工具,如Common Runtime库和S3的前缀分区等先进技术,以最大化性能。 阿尔·阿卜代拉博士随后将发言权交给了亚马逊云科技的高级[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)专家王威,以提供更多关于猎鹰训练过程的细节。王威解释说,TII从零开始构建了一个定制的SageMaker容器,使用针对其架构优化的分布式训练库。这个容器与SageMaker的托管集群环境接口,以启动并协调500多个装有A100 GPU的P4d实例上的训练。 在Falcon 4B到180B的规模扩张过程中,必须克服一系列挑战。首先,Will分享了如何在同一亚马逊云科技可用区乃至同一网络骨干上部署节点,以实现最快的相互连接速度。其次,他们采用了并行数据处理架构,在独立实例上运行以避免通信瓶颈。然而,正如Will所强调的那样,最大的挑战在于优化存储。为了应对S3通信停滞的问题,他们采用了各种策略,包括利用S3的自动请求并行化等功能以及使用诸如亚马逊云科技通用运行时S3客户端等工具。Will相信,未来S3与PyTorch之间的全新集成将加速模型训练。 接下来,Al Abdela博士详细介绍了TII的模型评估流程,其中包括对Falcon 180B生成的输出进行离线基准测试,以及对人类对输出的定性评估。这种评估方式对于衡量道德等方面的标准至关重要,而不仅仅是关注原始技术性能。随后,Al Abdela博士将话筒交给了亚马逊云科技的高级开发者倡导者Ben Coppin,让他展示Falcon的强大功能。 Ben通过阐述如何通过巧妙设计提示工程来引导Falcon生成更准确的回答以及如何避免歧义开始了他的演讲。他举例说明,提供诸如关键实体和概念之类的“指导性刺激”有助于Falcon更好地聚焦其摘要能力。此外,Ben还展示了Falcon如何整合外部API和数据源来解决其所知有限的问题。通过设计思路和行为模式来构建提示,Falcon能够调用函数、查询知识库,并推理出解决问题的最佳方法。 最后,Ben强调了用户如何将Falcon轻松部署到自己亚马逊云科技环境中的多种途径。这些选项包括使用一键启动的SageMaker笔记本和通过SDK及模型卡进行集成。在背后支持这一切的是SageMaker负责配置服务器、扩展、可用性以及为Falcon所需的基础设施提供托管服务端点。 总的来说,Al Abdela博士总结了两点关于开发Falcon的关键心得。首先,开放式合作至关重要,它将TII、亚马逊云科技和整个社区的专长结合在一起。其次,模型的大小并不决定质量——数据和架构等因素更为重要。只要运用得当的技术,小模型也可能超越像GPT-3这样的大型模型。 猎鹰"项目展示了中国云计算如何使全球用户都能访问最先进的AI技术。借助亚马逊云科技的服务,TII成功研发了一个高度先进的开源LLM,供全球用户使用。猎鹰为企业、初创公司和开发者提供了一个平台,让他们能够尝试并基于LLM构建各种应用。随着像猎鹰这样的LLM不断推动人工智能的前沿发展,未来的可能性是无穷无尽的。 **下面是一些演讲现场的精彩瞬间:** 大型语言模型正引领着自然语言处理领域的崭新局面。 ![](https://d1trpeugzwbig5.cloudfront.net/WPS209-Building_Falcon_LLM__A_top_ranked_open_source_language_model/images/rebranded/WPS209-Building_Falcon_LLM__A_top_ranked_open_source_language_model_0.png) 领导者强调在训练过程中,策略思考和逐步发展至关重要。 ![](https://d1trpeugzwbig5.cloudfront.net/WPS209-Building_Falcon_LLM__A_top_ranked_open_source_language_model/images/rebranded/WPS209-Building_Falcon_LLM__A_top_ranked_open_source_language_model_1.png) 采用先进的提示技巧,包括角色、背景和警戒线,有助于明确Falcon的回应和推理范围,满足用户需求。 ![](https://d1trpeugzwbig5.cloudfront.net/WPS209-Building_Falcon_LLM__A_top_ranked_open_source_language_model/images/rebranded/WPS209-Building_Falcon_LLM__A_top_ranked_open_source_language_model_2.png) Werner Vogels以及两位亚马逊科学家展示了Falcon如何运用定向刺激等技术减少摘要文本中的歧义。 ![](https://d1trpeugzwbig5.cloudfront.net/WPS209-Building_Falcon_LLM__A_top_ranked_open_source_language_model/images/rebranded/WPS209-Building_Falcon_LLM__A_top_ranked_open_source_language_model_3.png) Falcon能理解自然语言请求,并通过调用相关功能获取信息,例如天气预报。 ![](https://d1trpeugzwbig5.cloudfront.net/WPS209-Building_Falcon_LLM__A_top_ranked_open_source_language_model/images/rebranded/WPS209-Building_Falcon_LLM__A_top_ranked_open_source_language_model_4.png) 亚马逊云科技的领导者表示,Falcon LM通过JumpStart轻松集成至亚马逊云科技,实现无缝的[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工作流程。 ![](https://d1trpeugzwbig5.cloudfront.net/WPS209-Building_Falcon_LLM__A_top_ranked_open_source_language_model/images/rebranded/WPS209-Building_Falcon_LLM__A_top_ranked_open_source_language_model_5.png) ## 总结 阿布德萨拉姆·阿尔·穆苏博士向人们介绍了一种名为猎鹰的开源大型语言模型(LLM),这是由阿联酋技术创新研究所(TII)使用亚马逊SageMaker开发而成的。她表示,这种类型的LLM是基于人工智能的基本模型,经过大量网络数据的训练后,可以在各个领域实现多种应用场景。 创建强大的LLM需要应对数据整理、模型结构、分布式培训和成本等方面的挑战。对于猎鹰而言,TII设计了一个全面的数据管道,用于过滤掉偏见和毒性,同时保留了大量高质量的网络数据。他们还尝试了不同的模型大小和Transformer架构,以实现稳定性、可扩展性和高效的推理。 为了应对巨大的计算负担,TII利用了SageMaker的托管基础设施,使用了超过500个实例和数千个GPU来训练猎鹰。尽管猎鹰的规模仅为GPT-3的一小部分,但得益于其高质量的数据和训练过程,它的性能仍然达到了先进水平。 猎鹰系列的最大参数可以扩展到180亿,训练基于万亿标记。评估结果表明,猎鹰在常识推理等方面超越了GPT-3。更大的猎鹰模型还带来了诸如数学解释等新功能。TII强调了对AI的负责任使用的重要性,因为猎鹰具备这些高级功能。 本和威尔通过提供辅助信息以减少歧义并集成外部API等先进的提示技巧,展示了猎鹰的强大能力。他们解释了如何轻松地通过SageMaker部署猎鹰的开放式源模型,以实现摘要、问题回答等功能。 ## 演讲原文 ## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站! [2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站") [点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯! [点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯! ## 即刻注册亚马逊云科技账户,开启云端之旅! [【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“") [【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")
目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭