在 Amazon Bedrock 上使用基础模型探索图像生成和搜索

云计算

re:Invent

## 视频 <video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/AIM332-Explore_image_generation_and_search_with_FMs_on_Amazon_Bedrock-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video> ## 导读基础模型 (FM) 理解多种形式的输入，例如图像和文本。加入本论坛，学习如何使用 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 中的图像构建转型体验。 ## 演讲精华 <font color = "grey">以下是小编为您整理的本次演讲的精华，共1500字，阅读时间大约是8分钟。如果您想进一步了解演讲内容或者观看演讲全文，请观看演讲完整视频或者下面的演讲原文。</font> 视频以亚马逊Bedrock的产品经理罗希特·米塔尔（Rohit Mittal）为开头，他介绍了自己和演讲主题——在亚马逊Bedrock上使用基础模型探索图像生成和图像搜索。他表示他将与其他两位演讲者共同参加这次活动，分别是亚马逊AI应用科学的高级经理阿什曼·斯瓦米纳坦（Ashman Swaminathan）和OfferUp的主要数据科学家安德烈斯·韦勒斯（Andres Veles）。罗希特接着解释道，图像是一种极具吸引力的媒介，能够迅速引起我们的注意，而且我们的大脑处理速度比处理文本更快。在AI领域，近期的一个显著进展就是视觉艺术和图像生成的领域。如今，人们只需通过文本提示就能轻松地生成引人入胜且富有创意的图像，让他们的想象力得到充分施展。我们已经看到了一些例子，如太空中的宇航员骑在马上，美丽的独角兽，以及梦幻般的场景，如灯泡内的帆船。罗希特强调，正在生成的视觉内容数量呈爆炸式增长。随着智能手机的普及，人们每天拍摄超过50亿张照片，总数每天超过1.8万亿张。这是新的图像生成工具出现后产生的巨大数量的图像。考虑一下在这些图像中搜索商业应用、零售产品目录或您自己的个人照片集，随着新图像生成工具的出现，效率将呈指数级提高。仅在过去的一年里，就已经有150亿张图像是通过这些生成性AI工具创建的，而且这一速度还在加速。我们现在面临着一个挑战，即在大量内容生成的同时，没有合适的工具来有效地搜索所有这些图像，无论是针对我们个人的设备还是商业需求。这就是生成性AI在图像搜索方面发挥作用的地方，以提高可发现性，并辅助内容创作，提高效率。在今天的会议上，我们将看到亚马逊Bedrock如何同时解决这两个挑战——通过其图像生成模型帮助生成引人入胜的图像，并通过其嵌入模型在现有图像中实现有效的搜索。罗希特继续介绍了演讲的主要议题。他将阐述昨天发布的两个全新的泰坦模型——泰坦多模态嵌入和泰坦图像生成器。接下来，他将会展示一些实际应用案例和架构，所有这些都是基于亚马逊基石服务的，这项服务为用户提供了便捷地访问基础模型的途径。最后，OfferUp的安德烈斯将讨论搜索在他们平台（连接本地买家和卖家）中的重要性，以及这些新的泰坦模型如何帮助他们实现其使命。罗希特提到，亚马逊基石是一个完全托管的服务，它提供了来自领先公司（如Anthropic、Cohere、Meta和Stability AI）的一些最佳基础模型的访问权和选择权。直到最近，亚马逊自己的泰坦模型主要关注文本，实现了文本生成和搜索功能。随着这两个新的模型——泰坦多模态嵌入和泰坦图像生成器的发布，基石服务现在也进入了视觉领域。这两个新的泰坦模型都是由亚马逊内部从头开始构建的。泰坦多模态嵌入模型能够以文本和/或图像作为输入，输出捕捉语义意义的向量表示。这使得相似性搜索和推荐相对于传统的基于关键词的标签和匹配更加高效。即使描述不准确，模型也能理解图像，因为图像嵌入本身编码了视觉信息。这有助于解决股票摄影网站或产品目录等使用情况的可发现性问题，其中最终用户需要找到相关的视觉内容。它还有助于内容创作者自身，因为他们的创作的发现是一项重大挑战。这个最先进的模型为构建搜索和推荐应用程序提供了最好的准确性。第二个模型是泰坦图像生成器，专注于减少创建视觉内容所需的时间和努力。对于广告和营销等行业，快速生成他们产品的吸引人的生活方式图片可以帮助吸引更多客户注意力并提高参与度。这两个新的模型都提供了出厂时的最高准确性，因此用户可以立即看到良好的结果。亚马逊还通过基石API使定制更容易，从而创建反映组织独特需求和审美的定制模型。亚马逊云科技的Titan系列模型在安全性和隐私保护方面有着严格的规定。所有数据和信息均保持完全的私密性。具体来说，亚马逊在使用Titan模型时，不会将任何客户数据进行进一步的训练或改进。每个用户的定制模型都是安全隔离的。负责任的人工智能是亚马逊的重要优先事项。Titan基础模型从一开始就会检测和移除任何有害内容，阻止不适当的提示和输出。这减轻了用户对滥用的担忧，同时允许他们充分利用这些强大的生成能力。关于第一个模型，罗希特解释道，现在一般都可以使用Titan多模态嵌入。传统上，内容所有者需要手动为图像添加关键词以匹配搜索查询，但这效率低下，不准确，并阻碍了发现性。相反，多模态嵌入直接从图像本身捕捉语义意义作为向量。用户搜索查询被映射到相同的嵌入空间，实现更准确的相关图像关联。罗希特用“无鞋带的蓝色运动鞋”这个搜索示例来说明这一点。关键词搜索会基于有限的产品文本描述展示不相关的结果。但是，通过理解视觉输入，多模态嵌入成功地找到了所需的颜色和款式的鞋子。他强调了该模型的三个主要优势：准确性、易用性和责任感。首先，它提供了即插即用的顶级搜索和推荐准确性。客户可以通过在领域特定数据上进行定制来进一步提高准确性，同时保持隐私。其次，该模型易于使用，具有简单的API、批量支持和与Amazon OpenSearch的集成。最后，负责的人工智能通过过滤训练数据、减轻偏见以及水印输出得到保证。至于第二个模型，提供预览的Titan图像生成器可以将文本转换为图像，并具有许多其他功能。它的重点是即使从简单的提示中也能产生高质量的结果，理解复杂的提示，根据客户的独特审美进行定制，以及一套全面的特性，如图像中的文本生成、修复、扩展、生成大小调整以及自动编辑。人工智能负责的事项再次成为了首要关注点，包括训练数据的筛选、不当提示的阻止以及对偏见的处理。此外，图像输出还加入了水印以保证其真实性。罗希特展示了一些例子，强调了模型的高品质、多样性和创意灵活性。随后，来自亚马逊AI的阿什曼·斯瓦米纳坦上台进一步阐述了泰坦图像生成器及其如何在高准确性、易用性和负责任的人工智能方面实现这三个原则。他解释道，该模型在组成、复杂场景生成和文本插入等方面已经过广泛评估，以确保在各种应用场景中获得高质量的结果。谈及易用性，阿什曼通过现场演示向观众展示了如何通过简单的API完成文本到图像生成和图像编辑等任务。他们的自动编辑功能展示了他们对高效工作流的承诺——无需手动屏蔽对象即可进行替换，模型能够根据文本提示自动识别并分割相关像素。阿什曼强调，负责任的人工智能在整个模型开发过程中都得到了充分的考虑，而不仅仅是在事后。广泛的筛选过程排除了不安全或带有偏见的数据。在推理过程中的安全措施防止了不当提示和输出。对人口统计偏见的处理也有助于确保多样化的公平代表。接着，来自OfferUp的安德烈斯·贝莱斯上台谈论了搜索在他们这个连接本地买卖双方平台的应用。他们拥有超过5000万用户，相当于美国每五个人中就有一个在使用OfferUp。他们的使命是提供一个简单且值得信赖的交易体验。安德里斯详细解释了移动市场中独特的搜索挑战——简短、宽泛的查询，稀疏的产品信息，有限的界面空间。在OfferUp，他们已经从关键词搜索演进到利用神经网络和语义搜索，提高了相关性23-27%。在将Titan多模态嵌入添加到从产品图像中提取视觉信号中后，他们实现了额外的9%的准确性提升。Andres强调了与亚马逊云科技的合作伙伴关系如何使他们能够快速测试尖端技术并加速进步。展望未来，他们的目标是利用[Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail)的人工智能进步来不断改善OfferUp的体验。总之，演讲者总结了新的Titan模型如何通过[Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail)的托管服务提供最先进的多种模式搜索和图像生成功能。准确性的结合、易用性和负责任的AI使这些强大的基础模型能够轻松供不同行业和用例的客户使用。定制选项使模型能够满足每个组织的独特需求和数据。总的来说，Bedrock使客户能够利用人工智能进步来创建引人入胜的视觉体验并从其不断增长的多媒体内容中创造价值。 **下面是一些演讲现场的精彩瞬间：** 领导者将与另外两位知名演讲者共同出席，他们分别是来自亚马逊AI团队的Ashman Swaminathan以及OfferUp的首席数据科学家Andres Welles。 ![](https://d1trpeugzwbig5.cloudfront.net/AIM332-Explore_image_generation_and_search_with_FMs_on_Amazon_Bedrock/images/rebranded/AIM332-Explore_image_generation_and_search_with_FMs_on_Amazon_Bedrock_0.png) 亚马逊云科技通过Bedrock生成图像嵌入并将其存储在Amazon OpenSearch中，为用户带来无缝的体验。 ![](https://d1trpeugzwbig5.cloudfront.net/AIM332-Explore_image_generation_and_search_with_FMs_on_Amazon_Bedrock/images/rebranded/AIM332-Explore_image_generation_and_search_with_FMs_on_Amazon_Bedrock_1.png) 在re:Invent上，亚马逊云科技展示了一种新的扩展功能，用户可以轻松地通过将产品图像扩展到生活方式场景来生成营销图像。 ![](https://d1trpeugzwbig5.cloudfront.net/AIM332-Explore_image_generation_and_search_with_FMs_on_Amazon_Bedrock/images/rebranded/AIM332-Explore_image_generation_and_search_with_FMs_on_Amazon_Bedrock_2.png) 一项即将推出新功能将允许客户仅上传图像即可进行精细调整，无需提供文本标题。 ![](https://d1trpeugzwbig5.cloudfront.net/AIM332-Explore_image_generation_and_search_with_FMs_on_Amazon_Bedrock/images/rebranded/AIM332-Explore_image_generation_and_search_with_FMs_on_Amazon_Bedrock_3.png) 亚马逊云科技确保其模型能够反映不同背景的人群，以避免产生偏见。 ![](https://d1trpeugzwbig5.cloudfront.net/AIM332-Explore_image_generation_and_search_with_FMs_on_Amazon_Bedrock/images/rebranded/AIM332-Explore_image_generation_and_search_with_FMs_on_Amazon_Bedrock_4.png) 领导者强调了与OpenSearch以及其他亚马逊服务的集成，以便更好地利用嵌入模型的优势。 ![](https://d1trpeugzwbig5.cloudfront.net/AIM332-Explore_image_generation_and_search_with_FMs_on_Amazon_Bedrock/images/rebranded/AIM332-Explore_image_generation_and_search_with_FMs_on_Amazon_Bedrock_5.png) OfferUp正积极探索在其平台上应用AI技术，如搜索、推荐和图像生成等方面的方法。 ![](https://d1trpeugzwbig5.cloudfront.net/AIM332-Explore_image_generation_and_search_with_FMs_on_Amazon_Bedrock/images/rebranded/AIM332-Explore_image_generation_and_search_with_FMs_on_Amazon_Bedrock_6.png) ## 总结 The video presents two new Amazon AI models launched on the [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) platform - Titan Multimodal Embeddings and Titan Image Generator. With the exponential growth of visual content, image search and generation have become increasingly challenging. Titan Multimodal Embeddings encodes images and text into a common semantic vector space, enabling accurate multimodal search and recommendation. It boasts advanced accuracy, is easy to use via a simple API, and helps mitigate biases. Titan Image Generator can create high-quality images based on text prompts, featuring functions like text-to-image conversion, restoration, expansion, automatic editing, and image variations. Its focus is simplicity, ease of integration, and responsible AI practices. Example use cases combine both models for applications such as visual search and automated image creation for advertising purposes. OfferUp describes how it leverages semantic search and multimodal embeddings on Bedrock to significantly improve search relevance and recall on its platform. Overall, the new Titan models based on Bedrock enable businesses to harness image generation and search functions to enhance their applications. ## 演讲原文 ## 想了解更多精彩完整内容吗？立即访问re:Invent 官网中文网站！ [2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站") [点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处")，一键获取亚马逊云科技全球最新产品/服务资讯！ [点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处")，一键获取亚马逊云科技中国区最新产品/服务资讯！ ## 即刻注册亚马逊云科技账户，开启云端之旅！ [【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“") [【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")

亚马逊云科技解决方案基于行业客户应用场景及技术领域的解决方案

联系亚马逊云科技专家