Select your cookie preferences

We use essential cookies and similar tools that are necessary to provide our site and services. We use performance cookies to collect anonymous statistics, so we can understand how customers use our site and make improvements. Essential cookies cannot be deactivated, but you can choose “Customize” or “Decline” to decline performance cookies.

If you agree, AWS and approved third parties will also use cookies to provide useful site features, remember your preferences, and display relevant content, including relevant advertising. To accept or decline all non-essential cookies, choose “Accept” or “Decline.” To make more detailed choices, choose “Customize.”

Left image
1.2K
33.2W
40
关注

使用在线和离线方法将数据迁移至亚马逊云科技的最佳实践

云计算
re:Invent
2023-12-19
0
0
## 视频 <video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/STG206-Best_practices_for_moving_data_to_AWS_using_online_and_offline_methods-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video> ## 导读 在本论坛中,学习如何使用 Amazon DataSync 和 Amazon Snow Family,加速将数据大规模迁移到 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)、[Amazon EFS](https://aws.amazon.com/cn/efs/?trk=cndc-detail) 和 Amazon FSx 的过程。探索案例和最佳实践,并了解何时选择在线或离线方法。最后,了解如何同时使用 Amazon Snow Family 和 DataSync,创建无缝迁移体验。 ## 演讲精华 <font color = "grey">以下是小编为您整理的本次演讲的精华,共1400字,阅读时间大约是7分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font> 保留和合规性 - 为满足内部政策或行业法规的要求,冷数据可存储长达7-10年或更长时间。亚马逊云的S3 Glacier等存储层为此类数据提供了低成本选项。 - 业务连续性 - 通过在亚马逊云云中保留数据的副本,以防止灾难发生并确保业务连续性。 - 成本优化 - 将冷数据从昂贵的内部存储中卸载,以实现成本降低。 - 容量和增长 - 应对有限的内部存储容量和处理快速的数据增长。 杰夫强调,如果公司尝试使用DIY脚本和工具来迁移大数据,可能会面临诸多挑战。一些关键考虑因素包括: - 安全性 - 在传输过程中和静止状态下对数据进行加密,以确保数据安全。 - 验证 - 对大规模数据成功迁移进行验证。 - 错误恢复 - 解决迁移工作流程中的失败情况。 - 网络可用性 - 确保足够的带宽和性能以满足数据迁移需求。 为了帮助客户克服这些障碍,亚马逊云提供了诸如DataSync和Snow Family等针对PB级数据迁移的托管服务,无论是线上还是线下。此外,还提供了其他辅助服务,如应用迁移服务、数据库迁移服务和存储网关。 DataSync,由Jeff描述,是一种针对大规模数据迁移和重复工作负载的快速、安全数据传输服务。其底层采用自定义协议加速传输并充分利用网络链接。内置的加密功能确保了数据传输过程中的安全性。DataSync还会对数据进行全面的验证,通过详细的报告和校验和提供完整、准确传输的保障。作为一款完全管理的服务,DataSync无需客户与亚马逊云科技的存储目标(如S3、EFS和FSx)进行集成。此外,DataSync还旨在通过本机功能简化设置过程,包括调度、过滤和元数据处理。 Jeff详细介绍了四个典型的客户应用场景:加快大型重复数据的传输;应用程序和数据库存迁移;业务连续性复制;以及冷数据归档。DataSync支持多种源和目标组合,包括内部/边缘到亚马逊云科技、亚马逊云科技内、多云和亚马逊云科技到亚马逊云科技之间的数据迁移。 数据同步管理基础设施使得客户能够在不部署和管理硬件的情况下轻松复制大量数据。该基础设施具备内置的优化功能,如区域复制、加密、安排和筛选,从而简化了工作流程。 以菲律宾的Globe电信公司为例,该公司曾面临将7PB数据从容量不足的Cloudera Hadoop集群迁移的问题。这个集群包含了超过10亿个文件。通过运用DataSync和10Gbps的亚马逊云科技直接连接链路,他们实现了每天高达72TB的速度,最终在Cloudera许可证到期前的4个月内成功完成了迁移。 转向Snow家族,Eric Durand首次将其定位为离线数据迁移的亚马逊云科技服务。其核心价值主张是为客户提供了从具有不可靠网络连接地区收集、处理和传输大型数据集的能力。 这项服务包括了坚固安全的设备,并与亚马逊云科技的安全、监控和存储功能紧密集成。Snow家族的多种形态为客户提供针对不同需求的定制存储和计算资源。 除了数据迁移之外,Snow Family还允许在边缘位置离线运行选择性的亚马逊云服务,如EC2和Lambda。然而,其主要关注点仍是大规模离线数据传输。 Eric强调,安全性是Snow Family的核心。这些设备配备了防篡改外壳和加密功能来保护数据。亚马逊云科技全程管理设备,从配置到退货以及将数据导入S3。 较小的Snowcone适用于小于1TB的传输。而更大的手提箱大小的Snowball Edge则能够通过集群多个设备来实现多PB级别的迁移扩展。 设备上的功能,如触摸屏界面和OpsHub管理软件,使得远程站点的非技术人员能够执行数据收集和管理。 6. 客户将会接到关于已成功完成数据导入的通知。 7. 亚马逊云科技将对设备进行删除并重新分配。 他指出,数据复制速度会受到数据集大小、设备数量以及其他因素的影响而产生不同。一般而言,迁移500TB的数据大约需要30天,而迁移1PB的数据大约需要60天。这是因为这个过程取决于客户自身的基础设施,所以并没有服务等级协议(SLA)。 埃里克分享了一个客户案例:Trellix公司在两个月内需要迁移400TB的数据,其中包括超过3亿个小型文件,目的是为了退出数据中心并避免昂贵的升级。通过使用Snowball并捆绑对象的方式,他们成功地超过了预定的时间表。 对于大型的Snow Family迁移,埃里克强烈建议在开始之前先进行概念验证,以便优化数据传输过程。这有助于确定所需的设备数量以及满足预期的时间表。 在进行在线和离线数据传输比较时,埃里克总结了两个关键因素:速度和可用带宽。 - 对于具有足够带宽的时间敏感数据传输,DataSync可以实现在小时或天内的高效在线传输。 - 对于大型的静态数据集,以及在具有灵活日程安排和有限带宽的情况下,Snow Family更适合在一周内完成离线传输。 作为一个经验法则: - 对于500TB的数据集和5Gbps的连接(约12天)或者100TB的数据集和1Gbps的连接(约5天),DataSync是更合适的选择。 - 对于1PB的数据集和1Gbps的连接(约60天)或者100MBps的连接(约200天),Snow Family是更合适的选择。 客户还会采用混合的方法,首先使用Snow Family对初始的大量静态数据进行迁移,然后使用DataSync对生产数据的变化进行持续的Delta同步。 总的来说,埃里克建议与客户和亚马逊云科技的团队合作,根据需求、资源和时间表来评估最适合的数据迁移方法。他为两种服务都提供了入门指南和培训资源。 总结来说,杰夫和埃里克全面且详细地介绍了如何使用DataSync和Snow Family来帮助客户将大型数据集迁移到亚马逊云。他们提供了基于需求、限制和使用情况的最佳实践和指导,以帮助客户了解两者之间的差异。客户案例和数据点为我们提供了现实世界的背景。 **下面是一些演讲现场的精彩瞬间:** 亚马逊云科技很高兴能分享其服务如何助力线上和线下数据的流动。 ![](https://d1trpeugzwbig5.cloudfront.net/STG206-Best_practices_for_moving_data_to_AWS_using_online_and_offline_methods/images/rebranded/STG206-Best_practices_for_moving_data_to_AWS_using_online_and_offline_methods_0.png) 尽管该公司需要处理海量数据,但管理这些数据却是一个挑战。 ![](https://d1trpeugzwbig5.cloudfront.net/STG206-Best_practices_for_moving_data_to_AWS_using_online_and_offline_methods/images/rebranded/STG206-Best_practices_for_moving_data_to_AWS_using_online_and_offline_methods_1.png) 在短短两个月内,特雷利克斯便利用Snowball成功迁移了400TB的数据,其中包括超过3亿个文件。 ![](https://d1trpeugzwbig5.cloudfront.net/STG206-Best_practices_for_moving_data_to_AWS_using_online_and_offline_methods/images/rebranded/STG206-Best_practices_for_moving_data_to_AWS_using_online_and_offline_methods_2.png) 据悉,Snowball Edge现已支持S3兼容存储,使客户能够部署具有增强耐用性、冗余和加密功能的多节点S3集群。 ![](https://d1trpeugzwbig5.cloudfront.net/STG206-Best_practices_for_moving_data_to_AWS_using_online_and_offline_methods/images/rebranded/STG206-Best_practices_for_moving_data_to_AWS_using_online_and_offline_methods_3.png) 此外,亚马逊云科技的Snowcone可帮助自动化并监控多台设备上的迁移作业,从而减轻手动项目管理的工作负担。 ![](https://d1trpeugzwbig5.cloudfront.net/STG206-Best_practices_for_moving_data_to_AWS_using_online_and_offline_methods/images/rebranded/STG206-Best_practices_for_moving_data_to_AWS_using_online_and_offline_methods_4.png) 亚马逊云科技还强调了对如何在高效进行大规模迁移过程中结合使用Snow和DataSync的理解。 ![](https://d1trpeugzwbig5.cloudfront.net/STG206-Best_practices_for_moving_data_to_AWS_using_online_and_offline_methods/images/rebranded/STG206-Best_practices_for_moving_data_to_AWS_using_online_and_offline_methods_5.png) 只需扫描二维码,即可开始体验亚马逊云科技DataSync和Snow服务的强大功能,助您拓展存储空间。 ![](https://d1trpeugzwbig5.cloudfront.net/STG206-Best_practices_for_moving_data_to_AWS_using_online_and_offline_methods/images/rebranded/STG206-Best_practices_for_moving_data_to_AWS_using_online_and_offline_methods_6.png) ## 总结 演讲者在探讨如何将大型数据集迁移至亚马逊云科技时,详细分析了在线传输与亚马逊云科技 DataSync 和离线传输与 Snowball 设备的优劣。 DataSync 通过高效、安全的网络实现数据传输,适用于重复性工作流程、迁移、复制和归档。而 Snowball 设备在网速受限的情况下也能实现 petabyte 级的数据传输,具备防篡改功能并与亚马逊云科技的安全功能相集成,同时在边缘提供计算能力。 对于在线传输,若速度是关键因素或数据经常变动,推荐使用 DataSync。而在离线传输中,若带宽有限且需一次性迁移大型静态数据集,首选 Snowball。客户可结合使用两者,先离线复制大量数据,再在线复制变更部分。 建议要点:与亚马逊云科技团队紧密合作,评估目标、数据类型和资源;区分存档和生产数据;利用大数据迁移管理器规划并监控 Snowball 迁移;首先进行概念验证以优化配置。 ## 演讲原文 ## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站! [2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站") [点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯! [点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯! ## 即刻注册亚马逊云科技账户,开启云端之旅! [【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“") [【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")

视频

导读

在本论坛中,学习如何使用 Amazon DataSync 和 Amazon Snow Family,加速将数据大规模迁移到 Amazon S3Amazon EFS 和 Amazon FSx 的过程。探索案例和最佳实践,并了解何时选择在线或离线方法。最后,了解如何同时使用 Amazon Snow Family 和 DataSync,创建无缝迁移体验。

演讲精华

以下是小编为您整理的本次演讲的精华,共1400字,阅读时间大约是7分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

保留和合规性 - 为满足内部政策或行业法规的要求,冷数据可存储长达7-10年或更长时间。亚马逊云的S3 Glacier等存储层为此类数据提供了低成本选项。

  • 业务连续性 - 通过在亚马逊云云中保留数据的副本,以防止灾难发生并确保业务连续性。

  • 成本优化 - 将冷数据从昂贵的内部存储中卸载,以实现成本降低。

  • 容量和增长 - 应对有限的内部存储容量和处理快速的数据增长。

杰夫强调,如果公司尝试使用DIY脚本和工具来迁移大数据,可能会面临诸多挑战。一些关键考虑因素包括:

  • 安全性 - 在传输过程中和静止状态下对数据进行加密,以确保数据安全。

  • 验证 - 对大规模数据成功迁移进行验证。

  • 错误恢复 - 解决迁移工作流程中的失败情况。

  • 网络可用性 - 确保足够的带宽和性能以满足数据迁移需求。

为了帮助客户克服这些障碍,亚马逊云提供了诸如DataSync和Snow Family等针对PB级数据迁移的托管服务,无论是线上还是线下。此外,还提供了其他辅助服务,如应用迁移服务、数据库迁移服务和存储网关。

DataSync,由Jeff描述,是一种针对大规模数据迁移和重复工作负载的快速、安全数据传输服务。其底层采用自定义协议加速传输并充分利用网络链接。内置的加密功能确保了数据传输过程中的安全性。DataSync还会对数据进行全面的验证,通过详细的报告和校验和提供完整、准确传输的保障。作为一款完全管理的服务,DataSync无需客户与亚马逊云科技的存储目标(如S3、EFS和FSx)进行集成。此外,DataSync还旨在通过本机功能简化设置过程,包括调度、过滤和元数据处理。

Jeff详细介绍了四个典型的客户应用场景:加快大型重复数据的传输;应用程序和数据库存迁移;业务连续性复制;以及冷数据归档。DataSync支持多种源和目标组合,包括内部/边缘到亚马逊云科技、亚马逊云科技内、多云和亚马逊云科技到亚马逊云科技之间的数据迁移。

数据同步管理基础设施使得客户能够在不部署和管理硬件的情况下轻松复制大量数据。该基础设施具备内置的优化功能,如区域复制、加密、安排和筛选,从而简化了工作流程。

以菲律宾的Globe电信公司为例,该公司曾面临将7PB数据从容量不足的Cloudera Hadoop集群迁移的问题。这个集群包含了超过10亿个文件。通过运用DataSync和10Gbps的亚马逊云科技直接连接链路,他们实现了每天高达72TB的速度,最终在Cloudera许可证到期前的4个月内成功完成了迁移。

转向Snow家族,Eric Durand首次将其定位为离线数据迁移的亚马逊云科技服务。其核心价值主张是为客户提供了从具有不可靠网络连接地区收集、处理和传输大型数据集的能力。

这项服务包括了坚固安全的设备,并与亚马逊云科技的安全、监控和存储功能紧密集成。Snow家族的多种形态为客户提供针对不同需求的定制存储和计算资源。

除了数据迁移之外,Snow Family还允许在边缘位置离线运行选择性的亚马逊云服务,如EC2和Lambda。然而,其主要关注点仍是大规模离线数据传输。

Eric强调,安全性是Snow Family的核心。这些设备配备了防篡改外壳和加密功能来保护数据。亚马逊云科技全程管理设备,从配置到退货以及将数据导入S3。

较小的Snowcone适用于小于1TB的传输。而更大的手提箱大小的Snowball Edge则能够通过集群多个设备来实现多PB级别的迁移扩展。

设备上的功能,如触摸屏界面和OpsHub管理软件,使得远程站点的非技术人员能够执行数据收集和管理。

  1. 客户将会接到关于已成功完成数据导入的通知。

  2. 亚马逊云科技将对设备进行删除并重新分配。

他指出,数据复制速度会受到数据集大小、设备数量以及其他因素的影响而产生不同。一般而言,迁移500TB的数据大约需要30天,而迁移1PB的数据大约需要60天。这是因为这个过程取决于客户自身的基础设施,所以并没有服务等级协议(SLA)。

埃里克分享了一个客户案例:Trellix公司在两个月内需要迁移400TB的数据,其中包括超过3亿个小型文件,目的是为了退出数据中心并避免昂贵的升级。通过使用Snowball并捆绑对象的方式,他们成功地超过了预定的时间表。

对于大型的Snow Family迁移,埃里克强烈建议在开始之前先进行概念验证,以便优化数据传输过程。这有助于确定所需的设备数量以及满足预期的时间表。

在进行在线和离线数据传输比较时,埃里克总结了两个关键因素:速度和可用带宽。

  • 对于具有足够带宽的时间敏感数据传输,DataSync可以实现在小时或天内的高效在线传输。

  • 对于大型的静态数据集,以及在具有灵活日程安排和有限带宽的情况下,Snow Family更适合在一周内完成离线传输。

作为一个经验法则:

  • 对于500TB的数据集和5Gbps的连接(约12天)或者100TB的数据集和1Gbps的连接(约5天),DataSync是更合适的选择。

  • 对于1PB的数据集和1Gbps的连接(约60天)或者100MBps的连接(约200天),Snow Family是更合适的选择。

客户还会采用混合的方法,首先使用Snow Family对初始的大量静态数据进行迁移,然后使用DataSync对生产数据的变化进行持续的Delta同步。

总的来说,埃里克建议与客户和亚马逊云科技的团队合作,根据需求、资源和时间表来评估最适合的数据迁移方法。他为两种服务都提供了入门指南和培训资源。

总结来说,杰夫和埃里克全面且详细地介绍了如何使用DataSync和Snow Family来帮助客户将大型数据集迁移到亚马逊云。他们提供了基于需求、限制和使用情况的最佳实践和指导,以帮助客户了解两者之间的差异。客户案例和数据点为我们提供了现实世界的背景。

下面是一些演讲现场的精彩瞬间:

亚马逊云科技很高兴能分享其服务如何助力线上和线下数据的流动。

尽管该公司需要处理海量数据,但管理这些数据却是一个挑战。

在短短两个月内,特雷利克斯便利用Snowball成功迁移了400TB的数据,其中包括超过3亿个文件。

据悉,Snowball Edge现已支持S3兼容存储,使客户能够部署具有增强耐用性、冗余和加密功能的多节点S3集群。

此外,亚马逊云科技的Snowcone可帮助自动化并监控多台设备上的迁移作业,从而减轻手动项目管理的工作负担。

亚马逊云科技还强调了对如何在高效进行大规模迁移过程中结合使用Snow和DataSync的理解。

只需扫描二维码,即可开始体验亚马逊云科技DataSync和Snow服务的强大功能,助您拓展存储空间。

总结

演讲者在探讨如何将大型数据集迁移至亚马逊云科技时,详细分析了在线传输与亚马逊云科技 DataSync 和离线传输与 Snowball 设备的优劣。

DataSync 通过高效、安全的网络实现数据传输,适用于重复性工作流程、迁移、复制和归档。而 Snowball 设备在网速受限的情况下也能实现 petabyte 级的数据传输,具备防篡改功能并与亚马逊云科技的安全功能相集成,同时在边缘提供计算能力。

对于在线传输,若速度是关键因素或数据经常变动,推荐使用 DataSync。而在离线传输中,若带宽有限且需一次性迁移大型静态数据集,首选 Snowball。客户可结合使用两者,先离线复制大量数据,再在线复制变更部分。

建议要点:与亚马逊云科技团队紧密合作,评估目标、数据类型和资源;区分存档和生产数据;利用大数据迁移管理器规划并监控 Snowball 迁移;首先进行概念验证以优化配置。

演讲原文

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

Left image 专栏
Left image
Builder
发表文章

1.2K

总阅读量

33.2W

粉丝数

40

目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭