使用生成式 AI 增强文档工作流

云计算
re:Invent
0
0
## 视频 <video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/AIM213-Enhance_your_document_workflows_with_generative_AI-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video> ## 导读 对于处理大量文档的组织,数据分类、提取和分析可能是一项挑战。传统的文档处理解决方案是手动的、昂贵的、容易出错且难以扩展。亚马逊云科技智能文档处理 (IDP) 使用业界领先的[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)([机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail))技术快速、准确地处理来自任何文档或图像的数据。生成式 AI 补充了 [Amazon Textract](https://aws.amazon.com/cn/textract/?trk=cndc-detail),以使用其他功能增强 IDP 工作流。在本论坛中,听取 Centene 的案例研究,Centene 提供高质量医疗保健、创新计划和广泛的健康解决方案。了解 Centene 如何使用 [Amazon Textract](https://aws.amazon.com/cn/textract/?trk=cndc-detail) 和生成式 AI 功能提高其以文档为中心的工作流和业务效率,同时降低成本。 ## 演讲精华 <font color = "grey">以下是小编为您整理的本次演讲的精华,共1700字,阅读时间大约是8分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font> Navneeth在演讲开始时解释说,传统上,文档处理是一个非常耗时、昂贵且容易出错的过程。他表示,今天他将谈论如何利用人工智能(AI),尤其是生成式AI来增强文档处理工作流程。 作为亚马逊Textract团队的产品经理,Navneeth介绍了自己。他还提到,他还将与Centene公司的[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)总监Rosha一起讨论Centene公司如何使用AI彻底改变他们的文档处理工作流程。 Navneeth详细解释了为什么文档处理如此繁琐。为了理解这一点,我们需要看看客户传统上是怎样进行文档处理的。他列出了三种常见方法: 1. 大量客户仍然依赖高度劳动密集的手动过程,由于人为因素,这些过程往往容易出现错误,成本高昂且繁琐。 2. 客户已经使用光学字符识别(OCR)和其他传统技术从文档中提取原始文本,因为这些技术已经存在了几十年。然而,它们具有局限性,因为它们只能提取文档的结构以外的文本,这意味着您无法轻松地从文本或文档中得出见解以用于下游决策。 3. 第三,某些客户已经将OCR等技术与其他基于规则的定制后处理代码结合使用,以从文档中得出见解。但是,这种基于规则的后期处理代码的特性使其无法扩展,因为文档以各种结构和布局出现,几乎不可能编写涵盖所有这些变化的基于规则的后期处理代码。 这意味着,即使处理一个简单的贷款申请或索赔包也需要数小时甚至数天的时间,没有人有足够的时间这样做。这也导致了数百万美元的运营成本仅仅用于文档处理。具体来说,Navneeth表示,文档处理可能会让客户承担数百万美元的营运成本。 Navneeth随后介绍了[Amazon Textract](https://aws.amazon.com/cn/textract/?trk=cndc-detail),这是一个可以从几乎所有文档中提取打印文本、结构、数据和手写字的[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)服务。他概述了Textract如何解决关键客户挑战: Textract,作为一个大语言模型,不仅是一个简单的光学字符识别(OCR)工具,还能够提取结构化的信息,如表格数据和键值对,从而直接提供洞察。这是通过运用计算机视觉、自然语言处理和其他[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)技术实现的,且整个过程完全可控,因此客户无需具备[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)专业知识。客户只需将Textract与全球可用的API集成即可。这种集成意味着成本降低和人工作业减少。具体来说,Navneeth强调,与传统的文档处理方法相比,Textract能降低成本并减少人工操作。 接下来,Navneet详细介绍了Textract的一些核心功能以及来自亚马逊云科技的其他AI服务。 他强调了Textract提取结构化信息的能力。例如,其Tables功能可以识别财务报告或实验室结果等文档中的表格数据,并提取表格结构。Forms功能可以自动识别表单上的键值对,如姓名和地址。此外,最近推出的Layout Detection功能有助于提取标题、照片等结构性元素,以实现更深入的文档分析。 Navneeth还强调了Textract去年推出的Queries功能,允许客户用自然语言提问以从文档中提取特定信息。这提供了与文档“聊天”的能力。Textract还通过上个月推出的Custom Queries功能对其进行了增强。这使得可以使用仅5个样本文档以自助方式定制Queries输出。 接着,Navneeth解释了生成性AI如何改变每个领域。在深入探讨生成性AI如何与现有AI服务共同作用之前,他概述了使生成性AI如此有趣的原因: 1. 其在大量非结构化数据上进行预训练,使其能够跨不同上下文解决问题; 2. 巨大的模型和参数规模使得可以自动化更多以前无法完成的复杂任务; 3. 更好的泛化能力使得处理过去难以处理的特殊长尾文档成为可能。 4. 易于使用少量数据进行定制,以实现特定用例的高准确性。据Navneeth介绍,客户对大型模型提供的定制功能非常感兴趣,且所需的数据量非常少。 详细来说,Navneeth阐述了生成性AI如何增强现有AI功能。客户已经在利用AI来自动化文档处理,应用于诸如提取值、理解结构、提问和文档分类等任务。 生成性AI增加了一层,从而实现了新的用例: - 不仅仅局限于提取信息,还可以将数据标准化并转换以匹配下游系统。 - 不仅仅限于提取式QA,更复杂的推理和总结任务也成为可能。具体而言,据Navneeth表示,您现在可以要求模型执行更多复杂任务,例如要求模型以简短段落的形式汇总文档。 - 可以添加智能验证,如检查过期或无效格式的文档。Navneeth提供了示例,如自动检查文档是否已过期或自动检查某些字段是否符合自定义业务格式。 - 更好的泛化能力使得可以处理专门的业务文档。据Navneeth表示,这些生成性AI模型的泛化能力实际上使您能够处理那些非常特殊的业务文档,而这些文档是您尚未能够加载到板上的长尾部分。 Navneeth随后展示了一个样本架构,展示了如何使用亚马逊云科技AI服务和通过Bedrock获得的大型语言模型自动化文档用例。 该架构分为三个步骤: 1. Textract提取信息并对文档进行分类,提供大型语言模型所需的文本输入。文档分类允许定制提示。 2. 主要工作步骤使用Textract Queries或Bedrock模型等服务来提取、规范化和丰富数据,以及执行总结。据Navneeth表示,您可以使用我们现成的某些服务直接投入使用,或者将数据引导至Bedrock并使用我们通过我们的Bedrock服务提供的任何LM。 3. 人工反馈步骤在将数据发送到下游应用程序之前验证模型输出。 Navneeth随后做了一个视频演示,展示了这个架构处理工资单文档的过程: - 一个Step Function工作流编排步骤。 - Textract Sync API提取原始文本。 具体来说,从工资单文档中提取的原始文本包含134,000,134,表示总工资金额。 - Bedrock模型将文档分类为提示中的工资单。 - Bedrock模型将提取的“年度总工资”数据规范化为数据库友好格式。 具体而言,它提取了134,000,134的值作为规范化的总工资。 - Bedrock模型将指定的收入表列提取到CSV格式中。 - Bedrock模型将文档总结为关键信息的两行摘要,如总工资134,000,134、净工资4,405和扣除1,895。 Navneeth总结说,该演示可以对文档进行分类、提取和丰富信息以及使用生成式AI进行总结,这解锁了以前不可能的新用例。 接下来,Navneeth介绍了来自Centene的Rosha,讨论他们如何利用AI革命性地改变文档工作流程。 Rosha开始时介绍了她自己和Centene的背景。 一些关键点: - Centene是美国排名前25的健康保险公司,为美国15%的人口提供保险服务。 - 该公司年收入达370亿美元,员工总数为67,800人。 - Rosha负责领导Centene的人工智能和[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)项目,拥有13年的相关经验。 Rosha进一步阐述了文档处理的挑战: - Centene与所有医疗保健公司一样,每天都需要处理大量复杂的业务往来文件,这对业务流程至关重要。Rosha具体表示,他们每天需要处理数以千计的文档,每个文档长达1000页。 - 目前,使用劳动密集型的手工流程,员工需要手动输入文档。这很令人沮丧,容易出错,导致员工流失率高,并影响服务级别协议。 - 日益增加的文档量和错误严重影响了会员、提供者和合规性。鉴于这些挑战,Centene决定利用AI服务来构建智能文档处理系统。 Rosha概述了Centene的方法: - 考虑从零开始建设,但希望有定制和速度的灵活性。 - 查看现成的解决方案,但医疗保健领域需要大量定制。 - 最后与Amazon Web Services合作,结合服务与定制ML模型,实现速度和灵活性的平衡。 Rosha随后详细介绍了Centene公司的六个层面: 1. 利用Lambda函数的高效率自动化[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)事件驱动架构。 2. 提供符合医疗保健法规要求的加密和安全功能,例如VPC端点。 3. 通过自动扩展、CI/CD管道和ServiceNow集成提高稳定性。 4. 灵活的摄入方式,包括电子邮件、API和S3。 5. 使用Textract OCR、表格、表单和查询的核心AI层,以及用于特定任务的自定义内部ML模型。 6. 可维护性的监控、优化和模块化。 Rosha还描述了两个实际应用场景: 1. 每天自动处理60-80页电子邮件工作流,减少80%的人工工作量。在这个案例中,每天处理60-80页,自动化减少了80%的人工劳动。 2. 每天自动处理2000个复杂页面文档,实现50%的自动化和93%的处理速度提升。在更大的案例中,每天处理2000页,Centene实现了50%的自动化和93%的处理速度提升。 最后,Rosha谈到了Centene计划如何运用生成性AI: - 专注于自动化医疗保健行业的书面流程。 - 用于搜索、摘要和生成训练自定义模型的真实数据。 - 在高风险但高回报的医疗保健行业中应用生成性AI时,确保准确性、人工参与并管理风险。 总的来说,演讲者成功地展示了Textract和生成性AI如何改变各行各业的工作流程。然而,在像医疗保健这样监管严格的行业中,谨慎和验证至关重要。提供的具体数据点和指标为我们提供了一个量化示例,展示了显著的改进。 **下面是一些演讲现场的精彩瞬间:** Navneeth自我介绍是[Amazon Textract](https://aws.amazon.com/cn/textract/?trk=cndc-detail)团队的产品经理。他表示,他将与来自Centene的Rosha一起探讨Centene如何运用人工智能改进文档处理。 ![](https://d1trpeugzwbig5.cloudfront.net/AIM213-Enhance_your_document_workflows_with_generative_AI/images/rebranded/AIM213-Enhance_your_document_workflows_with_generative_AI_0.png) 生成式人工智能能够增强并扩展现有文档处理功能,例如信息提取、查询和分类。 ![](https://d1trpeugzwbig5.cloudfront.net/AIM213-Enhance_your_document_workflows_with_generative_AI/images/rebranded/AIM213-Enhance_your_document_workflows_with_generative_AI_1.png) 通过与Textract合作提取和分类文档信息,可以为大型语言模型量身定制提示。 ![](https://d1trpeugzwbig5.cloudfront.net/AIM213-Enhance_your_document_workflows_with_generative_AI/images/rebranded/AIM213-Enhance_your_document_workflows_with_generative_AI_2.png) 这个AI助手已经成功地从一份文档的收入表中提取了特定的数据列,展示出其对准确信息的理解和遵循精确指令的能力。 ![](https://d1trpeugzwbig5.cloudfront.net/AIM213-Enhance_your_document_workflows_with_generative_AI/images/rebranded/AIM213-Enhance_your_document_workflows_with_generative_AI_3.png) Centene庞大规模及其影响力,包括超过67,000名员工,创造了370亿美元的收入,服务了美国近15%的人口。 ![](https://d1trpeugzwbig5.cloudfront.net/AIM213-Enhance_your_document_workflows_with_generative_AI/images/rebranded/AIM213-Enhance_your_document_workflows_with_generative_AI_4.png) Centene公司利用IDP和[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)实现文档接收的自动化,实现了80%的自动化率,准确率超过99%,处理速度提高了93%。 ![](https://d1trpeugzwbig5.cloudfront.net/AIM213-Enhance_your_document_workflows_with_generative_AI/images/rebranded/AIM213-Enhance_your_document_workflows_with_generative_AI_5.png) 当构建AI技术时,领导者讨论了成本和风险的管理。 ![](https://d1trpeugzwbig5.cloudfront.net/AIM213-Enhance_your_document_workflows_with_generative_AI/images/rebranded/AIM213-Enhance_your_document_workflows_with_generative_AI_6.png) ## 总结 演讲探讨了生成式人工智能如何在文档处理工作中实现增强。首先,它概述了传统文档处理方式所面临的挑战,包括人工操作、繁琐过程、高昂成本以及易出错等问题。为了解决这些问题,[Amazon Textract](https://aws.amazon.com/cn/textract/?trk=cndc-detail)被引入作为一种解决方案,提供了文本提取、表格识别以及自然语言查询等功能。然而,生成性AI更进一步地推动了更复杂的任务,例如自动摘要、数据规范化和推理能力。一个演示案例展示了该模型如何从工资单文件中分类、提取和归纳信息。接着,讨论了Centene公司如何运用人工智能技术来构建智能文档处理系统。他们利用了亚马逊云科技的服务,如Textract,但对其进行定制以满足特定行业的需求。通过这两个实际应用案例,展示了自动化如何提高处理速度和准确性。展望未来,在医疗保健领域,搜索、摘要和事实生成等生成性AI的应用具有巨大潜力,但在这些过程中保持人类对准确性的监督至关重要。总之,演讲强调了生成性AI如何通过增强现有的文档AI功能来解锁更多的应用场景。然而,在部署这一技术时,我们需要审慎负责地进行思考和决策。 ## 演讲原文 ## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站! [2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站") [点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯! [点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯! ## 即刻注册亚马逊云科技账户,开启云端之旅! [【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“") [【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")
目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭