
## 视频 <video src="" class="bytemdVideo" controls="controls"></video> ## 导读 LexisNexis 在亚马逊S3上积累了数十亿份法律和新闻文件的海量数据湖,为成千上万的法律、风险管理和政府机构提供服务。在这次闪电演讲中,了解LexisNexis如何通过利用备份快速建立辅助数据湖,在出现中断、数据丢失或对抗事件时确保弹性。探索LexisNexis减少其800テビバイ特亚马逊S3环境的恢复时间从数天到数小时的备份和恢复架构。本演讲由Clumio(亚马逊合作伙伴)呈现。 ## 演讲精华 <font color = "grey">以下是小编为您整理的本次演讲的精华,共600字,阅读时间大约是3分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font> The video content primarily features a profound dialogue between Clumio联合创始人兼CTO Wun Jong and Mark Ser, CEO of LexisNexis. LexisNexis is a global provider in the fields of law, regulation, and business information, with an online database containing over 144 billion unique records and adding approximately 1.2 million new records daily. Mark's engineering team is responsible for managing the vast data lake architecture at LexisNexis, which stores most of the critical business information. The implementation of the data lake follows a completely serverless design, with no virtual private cloud environment even within their Amazon Web Services account. This enables high scalability to adapt to peak loads from multiple sources of input content. Despite the average document size in the data lake being only 35KB, LexisNexis adds between six and twelve million new documents hourly. This demonstrates the high frequency of changes in the data lake, requiring a resilient and adaptive underlying infrastructure layer. As a completely stateless service, LexisNexis leverages Amazon Web Technology's CloudFront as the front-end delivery network to its data lake. CloudFront provides disaster recovery functionality through automatic failover requests between replicated S3 storage buckets in at least two regions. Despite the disaster recovery issue being addressed through the implementation of CloudFront, LexisNexis seeks additional data protection in the form of immutable and air-isolated backups to ensure that the data is not even impacted by accidental or malicious actions by internal employees. LexisNexis requires backups with a low RPO (recovery point objective) of 15 minutes and a low RTO (recovery time objective) from backup restoration. These metrics aim to minimize potential income losses. Due to the size and speed of change of the LexisNexis data lake, assessing backup solutions presents significant challenges: - One S3 storage bucket contains 26 billion records - The total storage exceeds 100 terabytes - Between six and twelve million small objects are added or deleted hourly - It would take six months to refill the data lake using traditional backup methods 为了应对这些挑战,Clumio为每个客户的专用亚马逊云科技账户实施了一个具有弹性的备份解决方案。这个解决方案完全是[无服务器](的,所有的处理和保留都是由通过动态扩展的Lambda函数来协调。通过CloudFormation模板实现轻量级部署,将必要的访问角色和资产安装到客户账户中。S3库存和事件提供了高效的更改跟踪,以实现15分钟的RPO目标。 Clumio的一项关键创新是即时访问功能。在恢复过程中,传统的方法是需要完全复制备份数据,这对于LexisNexis这样的大规模和快速变化的环境来说是不切实际的。即时访问提供了一个S3终点,可以立即访问所需的恢复点,而不是等待完整副本。这使得在复制100TB数据所需的几天内能够直接在几小时内访问。通过进一步定制,可以将即时访问与CloudFront原始组集成,使备份可以直接作为故障切换原始服务器可用,同时重新填充主要的S3存储桶。在测试中,Clumio成功地在不到3小时内恢复了260亿条记录和100TB的LexisNexis数据的访问。 总的来说,Clumio与LexisNexis的合作产生了一个具有弹性的S3数据湖备份解决方案,特别满足了大规模需求。这次合作还推动了诸如即时访问等技术创新,解决了关于恢复时间目标的真实客户挑战。随着LexisNexis的需求演变,两家公司紧密合作以持续优化该解决方案。 **下面是一些演讲现场的精彩瞬间:** 领导者要求在演讲中让Mark进行自我介绍。 ![]( 亚马逊云科技在[Amazon S3](中提供了多种数据备份解决方案,旨在帮助客户从操作错误、网络攻击中恢复,并满足各种合规性要求。 ![]( 其高度可扩展的[无服务器](架构能够轻松处理每小时新增的数百万新文档。 ![]( 领导者详细解释了如何为每位客户创建一个专属的Amazon云科技账户,以便在[无服务器](环境中安全地处理他们的数据。 ![]( 领导者强调了Cumia如何在不到三小时内成功恢复260亿条记录,从而在无缝迁移存储回主要系统的同时,快速访问关键数据。 ![]( 此外,亚马逊云科技的即时访问功能能够以更低的成本和时间迅速重现以往的数据状态。 ![]( ## 总结 该视频探讨了如何利用Clumio的备份和恢复功能,为LexisNexis大型S3数据湖实现数据灵活性。LexisNexis拥有100TB容量、260亿条记录的S3数据湖,每天新增600万到1200万个对象。他们需要一个S3备份解决方案以防止意外事故、网络攻击或合规需求导致的数据丢失。其要求包括15分钟的RPO(恢复点目标)、快速的RTO(恢复时间目标)和稳定性。Clumio提供了无缝的上船过程以无中断地[无服务器](备份S3数据。一项关键创新是"即时访问"——提供S3端点以立即访问备份数据,同时并行执行恢复。这使得他们在不到3小时内就能恢复整个数据湖。LexisNexis将即时访问与CloudFront源代码组集成以实现快速的灾难恢复故障切换。可选的对象标记和删除操作的选择性备份等定制选项优化了成本。这一合作伙伴关系展示了Clumio处理大规模数据的能力以及诸如即时访问和低RTO恢复等创新功能。 ## 演讲原文
