## 视频
<video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/FSI316-FINRA_CAT__Overcoming_challenges_when_big_data_becomes_massive-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video>
## 导读
在过去三年中,FINRA CAT 建立并优化了一个大型金融服务数据库。Consolidated Audit Trail (CAT) 以大规模和大规模的规模运行,消耗了600 PB 以上的存储空间,因为它每天将来自市场交易所和经纪商的 4000 多亿个事件拼凑在一起。了解 FINRA 如何构建一个动态、经济高效的架构,该架构可以扩展以满足系统的不稳定需求,平均每天需要 130000 个计算节点。探索所使用的架构模式和亚马逊云科技服务,包括 [Amazon EMR](https://aws.amazon.com/cn/emr/?trk=cndc-detail)、[Amazon Athena](https: //aws.amazon.com/cn/athena/?trk=cndc-detail) 和 Amazon KMS,并了解 FINRA 如何提高性能和降低成本。
## 演讲精华
<font color = "grey">以下是小编为您整理的本次演讲的精华,共1000字,阅读时间大约是5分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font>
金融产业监管局(FINRA)的综合审计追踪(CAT)系统是一个庞大的数据分析系统,借助亚马逊云科技的力量收集并处理美国股票和期权市场的所有活动的详细记录。CAT创建了一个单一的真实来源,使监管机构能够识别可能危害投资者和市场完整性的欺诈和操纵交易行为。
正如亚马逊云科技的客户解决方案经理Leah Crawford所描述的那样,CAT管理着近700亿字节的高度复杂和不可预测的金融市场数据。Crawford强调,这一巨大数量远远超出了“大数据”的范围,进入了“海量数据”领域。预计在未来三年内,CAT将达到一艾字节(超过1百万兆字节)的规模。在高峰期,CAT每天处理和接收超过6000亿条交易记录。其先进的分析算法将相关市场活动链拼接在一起,这些链可能从3到超过1亿个连续链接不等。在正常情况下,CAT每天可以识别出65到150亿个这样的事件链以供进一步分析。
为了大规模收集、存储、处理和查询这种大量且多变的金融数据,FINRA在完全由亚马逊云科技的大数据和云计算分析服务支持的核心架构上构建了CAT。亚马逊云科技弹性映射(EMR)为CAT的大数据管道提供了管理的框架,利用开源Apache Spark进行处理。亚马逊云科技弹性计算云(EC2)计算实例,尤其是亚马逊云科技的先进Graviton芯片,为处理CAT的计算密集型工作负载提供了动力。亚马逊简单存储服务(S3)实现了几乎无限的有弹性的数据存储以及优化成本的自动化。而亚马逊云科技Lambda允许CAT在其基础设施中实现事件驱动的自动化。
接下来,Crawler介绍了CAT的首席技术官Scott Donaldson,以概述CAT的起源和技术架构。Donaldson解释说,CAT是在2010年闪电崩盘之后作为一项行业范围内的倡议提出的,以提高监管监督使用综合审计轨迹数据。FINRA被选于2019年作为构建和管理CAT的计划处理器。根据历史市场交易量每年20-25%的增长率,CAT最初被规划和设计为处理逐步扩大的情况。
新冠疫情在美国市场引发了一场前所未有的交易量激增。在从零开始建设FINRA的CAT系统时,他们突然需要大幅度提高能力开发和发展速度。这使得他们在应对十倍增长的同时,必须建立、大规模运营并快速升级系统。
唐纳德森概述了CAT所面临的关键挑战:在严格的服务水平协议(SLA)下,每天处理超过万亿个事件的极端性能需求;确保100%的高质量、准确的数据;动态地调整计算资源以避免浪费;以及在给定的巨大数据和处理需求下最小化成本。
CAT的架构原则是将数据本身作为真实来源,亚马逊S3被确定为唯一的记录系统。计算资源根据需要进行动态调整以防止过度分配。在必要时,他们会利用EC2 Spot实例来降低成本,同时仍能满足SLA。CAT执行超过200个不同的数据管道,将原始数据验证、协调并链接成提供给监管机构监督的丰富数据集。
唐纳德森分享了一些关于CAT运营规模令人难以置信的统计数据。他们每天会启动12万至15万个计算节点,高峰期有2万至2.5万个同时运行。最近一天的高峰纪录是处理了超过6650亿条交易记录。唐纳德森指出,极端的数据偏斜使得在CAT的基础设施上平衡工作负载尤其具有挑战性。目前,CAT的数据足迹约为680亿兆字节,其中45%存储在S3智能分层存档中,40%存储在深度存档中,15%存储在更频繁访问的层中。
接下来,CAT工程和运营部的资深总监史蒂文·戴蒙德更深入地探讨了CAT的技术架构和成功的关键。CAT最苛刻的工作负载之一是链接器,它从数十亿的每日交易事件中重建完整的订单生命周期。这个复杂的过程必须满足次日中午前完成且准确率99.9%的严格SLA。
当CAT首次运行时,由于其不可预测的数据量、增量构建增加数据负载以及对EBS卷的依赖,它无法始终如一地满足SLA。通过升级至EMR 6和Spark 3,并在Graviton2实例上使用高速NVMe本地存储,链接器性能提升了45-50%。自动检测不良节点也有助于提高稳定性。Diamond强调了对代码进行持续优化、升级版本以及评估新兴技术的必要性。
为了应对极端的扩展挑战,CAT采用了诸如EC2 Fleet、按需容量预留和节省计划等策略。预留确保关键工作负载的容量,而节省计划则提供折扣定价。CAT还会暂停未使用的预留以赚取Spot实例信用。S3智能分层通过自动优化不同访问层的数据,将存储成本降低了65%。
Donaldson随后详细解释了这些多方面的优化如何显著降低了CAT的单位成本,从而节省了数千万美元。例如,每处理十亿条记录的计算成本下降了50%以上,而每PB存储的每百亿条记录的成本降低了65%以上。如今,CAT可以更可预测地扩展,更高效地处理不断增长的数据量。
这些功能为监管机构提供了丰富的高质量数据,以实现更强大的市场监管。Donaldson分享了最近的一些执法案例,这些案例依赖于对CAT数据的分析,揭示了数百万非法交易收益。尽管CAT取得了很大的进步,但Donaldson指出,随着数据量继续每天膨胀到万亿级别,未来还有更多的工作需要做。CAT正在积极研究新兴技术,如EKS和下一代EC2实例,以进一步优化性能和扩展。
总之,金融市场数据的极端规模和复杂性使得FINRA不得不建立一个独一无二的基于云的分析和平台。通过利用亚马逊云科技的服务并持续优化系统性能,FINRA已经能够以降低的成本将CAT扩展到前所未有的水平。这使监管机构能够以前所未有的方式洞察美国资本市场,以更好地保护投资者并确保公平高效的市场。CAT作为在亚马逊云科技上创新分析架构以从真正庞大的数据中提取价值的先驱典范,值得称赞。
**下面是一些演讲现场的精彩瞬间:**
领导者正满怀热情地向观众讲述FINRA整合审计追踪系统(CAT)的故事。
![](https://d1trpeugzwbig5.cloudfront.net/FSI316-FINRA_CAT__Overcoming_challenges_when_big_data_becomes_massive/images/rebranded/FSI316-FINRA_CAT__Overcoming_challenges_when_big_data_becomes_massive_0.png)
这位领导者详细描述了亚马逊云科技(Amazon Web Services)如何处理每日超过100,000个金融文件,对其进行验证,并将错误报告回交易所和经纪商的过程。
![](https://d1trpeugzwbig5.cloudfront.net/FSI316-FINRA_CAT__Overcoming_challenges_when_big_data_becomes_massive/images/rebranded/FSI316-FINRA_CAT__Overcoming_challenges_when_big_data_becomes_massive_1.png)
升级至最新的亚马逊云科技服务,如EMR版本,可以带来性能提升、扩展功能、错误修复和安全更新。
![](https://d1trpeugzwbig5.cloudfront.net/FSI316-FINRA_CAT__Overcoming_challenges_when_big_data_becomes_massive/images/rebranded/FSI316-FINRA_CAT__Overcoming_challenges_when_big_data_becomes_massive_2.png)
领导者强调了使用S3智能分层功能,使客户能够大幅降低存储成本,通过自动将不常访问的数据转移到较低成本层。
![](https://d1trpeugzwbig5.cloudfront.net/FSI316-FINRA_CAT__Overcoming_challenges_when_big_data_becomes_massive/images/rebranded/FSI316-FINRA_CAT__Overcoming_challenges_when_big_data_becomes_massive_3.png)
美国证券交易委员会和其他监管机构可以利用亚马逊云科技金融服务数据来改进市场监管和监督工作。
![](https://d1trpeugzwbig5.cloudfront.net/FSI316-FINRA_CAT__Overcoming_challenges_when_big_data_becomes_massive/images/rebranded/FSI316-FINRA_CAT__Overcoming_challenges_when_big_data_becomes_massive_4.png)
领导者还谈到了在S3存储中管理大量数据的挑战以及优化数据管理的重要性。
![](https://d1trpeugzwbig5.cloudfront.net/FSI316-FINRA_CAT__Overcoming_challenges_when_big_data_becomes_massive/images/rebranded/FSI316-FINRA_CAT__Overcoming_challenges_when_big_data_becomes_massive_5.png)
## 总结
The video discusses how the Financial Industry Regulatory Authority (FINRA) leverages Amazon Web Services (亚马逊云科技) to build and operate a comprehensive Audit Trail System (CAT) for tracking massive data analytics of all activities in the U.S. stock and options markets. In 2019, FINRA launched CAT to create a single source of regulatory supervision, contributing to identifying fraudulent trading activities. However, shortly after its inception, the sudden surge in trading volume due to the COVID-19 pandemic forced FINRA to rapidly expand the scope of CAT while optimizing its performance and costs.
To handle the unpredictable massive data volumes (up to trillions of records per day), FINRA built CAT on top of Amazon Web Services services such as S3, EMR, EC2, and Lambda. This provided unlimited storage space, automated elasticity in processing, and serverless automation. Initially, CAT was unable to meet strict service-level agreements (SLAs) in terms of processing and validating data. By upgrading to Graviton processors and EMR v6, FINRA improved performance by 50% and reduced infrastructure costs by millions of dollars. Other optimization measures like S3 intelligent scaling reduced storage costs by 65%.
As a result, CAT now enables regulators to monitor markets more effectively. The rich dataset supports actions against activities like pre-emptive trading and manipulation schemes, resulting in millions of illegal gains being seized. Looking forward, FINRA focuses on supporting future growth to handle daily trillion-record levels. They are exploring EKS and new Graviton instances to enable linear scalability at lower costs for handling massive future processing volumes.
## 演讲原文
## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!
[2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站")
[点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯!
[点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯!
## 即刻注册亚马逊云科技账户,开启云端之旅!
[【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“")
[【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")