使用Apache Druid分析流数据(由Imply赞助)

云计算
re:Invent
0
0
## 视频 <video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/ANT213-S-Analyzing_streaming_data_with_Apache_Druid__sponsored_by_Imply___Imply_-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video> ## 导读 流数据不仅仅是运动的数据——它是一种潜在的有价值见解的来源,准备好被收获和利用。挑战在于大规模分析流数据并提取这些见解——在它们过时之前。加入这个关于为流数据构建实时分析的闪电谈话,看看您如何使用Apache Kafka与Apache Druid(一个用于速度、规模和流数据的开源数据库)。了解Druid如何轻松地大规模原生地摄入Kafka流数据,运行结合实时和历史数据的SQL查询,创建交互式仪表板来可视化事件数据,并将仪表板嵌入Web应用程序。这个演示由Imply提供,它是亚马逊云科技的合作伙伴。 ## 演讲精华 <font color = "grey">以下是小编为您整理的本次演讲的精华,共800字,阅读时间大约是4分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font> 演讲者首先阐述了实时分析流数据的重要价值。他指出,通过参加亚马逊云科技的re:Invent,观众们可以了解到数据流的概念以及分析它的必要性。实时数据分析使得实时操作和了解当前情况成为可能。例如,使用Druid,可以在低至10-20毫秒的延迟内分析Kinesis或Kafka等流中的事件。这种真正的流式摄入和处理允许在每个事件进入流时立即查询每个事件。 演讲者强调,实时流分析有助于实现基于上下文的决策。这与Druid的实时分析数据库与像Spark Streaming这样的流处理系统之间的关键区别有关。像Spark Streaming这样的流处理器可以显示流的可见性,但缺乏像Druid这样的系统提供的历史上下文。Druid结合了实时和历史数据,以丰富对正在发生的事件的理解。 演讲者提供了一些使用Druid进行实时分析的实例。例如,ThousandEyes将可观察性信号输入到Druid中,以支持跨云和内部基础设施的实时健康监控。Druid的高并发性使ThousandEyes能够为其客户支持数以万计的并发仪表板查询。Atlassian使用Druid来分析来自像Jira和Confluence这样的工具的每天30亿个事件,以便向最终用户提供实时分析。此外,Confluent在其Health+产品中使用Druid,通过分析从Envoy代理流式的指标来实时监控Kafka客户的集群健康状况。 演讲者总结了Druid在实时分析方面的四个主要应用:大规模的操作可见性(如纽约证券交易所依赖Druid来实时监控其处理每日交易额达3万亿美元的系统);面向外部的分析(如Citrix、Nielsen Research和Reddit等企业使用Druid来驱动面向客户的分析仪表板,因为其能处理数以万计的并发查询)。 Druid是一款在像Salesforce这样的大型公司内部使用的实时分析数据库。它能提供性能可视性,让员工自主了解资源使用情况。 第四,Druid为广告定向等应用提供实时决策支持。例如,Reddit使用Druid让广告商实时查看不同子论坛的用户是否符合其定向标准。 Druid的一个重要设计目标是在不损失实时性能的前提下处理大量流数据。虽然现有的数据库可以通过微批次的方式接收流数据,但这种做法会带来延迟,因为数据是以小批次处理的。Druid专为处理流数据工作负载而设计。 Druid承诺在数据到达后立刻可用并进行查询,并提供准确一次的交付语义。该系统具有良好的可扩展性,最大的已知生产集群在15,000个节点上运行,数据量达400PB。Druid将传入的事件流实时复制到亚马逊云科技的S3,以确保即使在完全停机的情况下也能实现零数据丢失的耐用性。一个Druid服务器可以同时处理100多个并发查询,同时保持毫秒级的延迟。 Druid成立于2010年,旨在满足每秒接收10亿事件并在不到一秒的时间内查询这些数据的开发者需求。其主要特点包括在任何规模下都能进行亚秒级查询、高并发度且无需昂贵扩展、统一的实时和历史分析以及通过备份到亚马逊云科技S3实现的持续可靠性。自2012年开源以来,Druid已被2000多个跨行业组织采用。 为了支持Druid的开源社区,原开发者于2015年成立了Imply。Imply提供了增强安全性的Druid商业发行版、名为Polaris的完全托管云服务、在客户基础设施上管理的混合Druid部署,以及来自Druid核心开发者的专家支持。Imply还提供与亚马逊云科技服务(如Kinesis和MSK)无缝集成的Druid,使其能够顺畅运行。 总的来说,Druid是一个开源的实时分析数据库,专门用于高性能的流数据摄取和分析。它将实时数据和历史数据统一起来的能力,为事件发生时提供了深入洞察。Druid为各种行业和用例提供了关键任务的实时分析应用支持。 **下面是一些演讲现场的精彩瞬间:** 领导者们讨论了亚马逊云科技在数据流领域的重要性及其功能。 ![](https://d1trpeugzwbig5.cloudfront.net/ANT213-S-Analyzing_streaming_data_with_Apache_Druid__sponsored_by_Imply___Imply_/images/rebranded/ANT213-S-Analyzing_streaming_data_with_Apache_Druid__sponsored_by_Imply___Imply__0.png) ThousandEyes公司利用Druid技术为客户提供高并发性的数据分析。 ![](https://d1trpeugzwbig5.cloudfront.net/ANT213-S-Analyzing_streaming_data_with_Apache_Druid__sponsored_by_Imply___Imply_/images/rebranded/ANT213-S-Analyzing_streaming_data_with_Apache_Druid__sponsored_by_Imply___Imply__1.png) Druid在Reddit平台上支持针对目标用户的实时广告投放决策。 ![](https://d1trpeugzwbig5.cloudfront.net/ANT213-S-Analyzing_streaming_data_with_Apache_Druid__sponsored_by_Imply___Imply_/images/rebranded/ANT213-S-Analyzing_streaming_data_with_Apache_Druid__sponsored_by_Imply___Imply__2.png) 亚马逊云科技的数据流业务正迅速扩张,预计在未来三年内,超过50%的高价值商业数据将以流形式存在。 ![](https://d1trpeugzwbig5.cloudfront.net/ANT213-S-Analyzing_streaming_data_with_Apache_Druid__sponsored_by_Imply___Imply_/images/rebranded/ANT213-S-Analyzing_streaming_data_with_Apache_Druid__sponsored_by_Imply___Imply__3.png) 亚马逊云科技为客户提供了混合管理模式,允许他们在自己的VPC中运行Kubernetes应用程序,同时仍能利用亚马逊云科技的统一管理功能。 ![](https://d1trpeugzwbig5.cloudfront.net/ANT213-S-Analyzing_streaming_data_with_Apache_Druid__sponsored_by_Imply___Imply_/images/rebranded/ANT213-S-Analyzing_streaming_data_with_Apache_Druid__sponsored_by_Imply___Imply__4.png) Druid拥有出色的开源社区支持、快速的响应速度,并还提供全天候的付费支持服务。 ![](https://d1trpeugzwbig5.cloudfront.net/ANT213-S-Analyzing_streaming_data_with_Apache_Druid__sponsored_by_Imply___Imply_/images/rebranded/ANT213-S-Analyzing_streaming_data_with_Apache_Druid__sponsored_by_Imply___Imply__5.png) 领导者们强调了亚马逊云科技开发者中心的丰富教育资源。 ![](https://d1trpeugzwbig5.cloudfront.net/ANT213-S-Analyzing_streaming_data_with_Apache_Druid__sponsored_by_Imply___Imply_/images/rebranded/ANT213-S-Analyzing_streaming_data_with_Apache_Druid__sponsored_by_Imply___Imply__6.png) ## 总结 亚马逊云科技(Amazon Web Services)主办的re:Invent是一场重要盛会,亚马逊云科技在峰会上发布重大公告并提供教育培训。此次讲座重点关注如何运用Apache Druid分析流数据,这是一款开源的实时数据分析数据库。 主讲人首先阐述了分析流数据的重要性和应用,包括实时操作、真正流式摄入、上下文感知决策和交互式分析等方面。他还列举了一些利用Druid实现这些功能的企业案例,如ThousandEyes、Atlassian和Nielsen等。 Druid的一个重要优势在于它能大规模提供亚秒级查询速度。在高流量和高并发场景下,它可以处理数据而不影响性能或可靠性。Druid具备诸如精确一次处理和连续备份等功能,使其成为处理流数据的理想选择。 Druid的创始人成立了一家名为Imply的公司来支持这一开源项目。Imply提供带有增强安全性的商业版Druid以及云部署选项和尊享支持。然而,开源Druid依然完全可用。 Druid已在亚马逊云科技上做好准备,并能与Kinesis和MSK等进行无缝集成。它与亚马逊云科技的服务和可视化工具配合得天衣无缝。主讲人建议大家查阅Druid的文档,并尝试使用免费的Imply云服务试用体验。 ## 演讲原文 ## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站! [2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站") [点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯! [点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯! ## 即刻注册亚马逊云科技账户,开启云端之旅! [【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“") [【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")
目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭