Azure OpenAI 服务推出多模态模型 GPT-4 Turbo with Vision 公共预览

Azure OpenAI 服务(国际版)现已推出多模态模型 GPT-4 Turbo with Vision 的公共预览版本,并在澳大利亚东部、瑞典中部、瑞士北部、美国西部区域可用。GPT-4 Turbo with Vision 是由 OpenAI 开发的大型多模态模型(LMM),支持图像分析并能对图像有关问题生成文本响应。它结合了自然语言处理和视觉理解能力。现在 Azure 用户可充分利用 Azure 可靠的云基础架构和 OpenAI 先进的人工智能研究成果。


过去的语言模型主要专注于文本输入,因而在不同情境中可能会应用受限。GPT-4 Turbo with Vision 通过整合视觉数据打破这一限制,达到了图像理解的先进水平。它不仅仅能够识别图片中的对象,更注重理解上下文和细节,比如创建详细的图像标题、提供丰富的上下文描述、回答关于视觉内容的问题或分配智能标签。

Instacart 这家食品科技和服务公司开发了“Ask Instacart”搜索功能,客户可用自然语言提问食物相关的开放性问题。现在,借助 Azure OpenAI 服务上的 GPT-4 Turbo with Vision,Instacart 正在升级“Ask Instacart”以支持额外的视觉功能。

Azure OpenAI 服务上的 GPT-4 Turbo with Vision 提供了尖端的人工智能能力,同时具备企业级安全性和负责任的人工智能治理。此外,它还提供了专属于 Azure AI 服务的定制增强功能的独特访问权。与 Azure AI 服务结合使用时,通过引入一系列先进功能来增强您的体验,包括:

01 视频提示

通过 Azure AI Vision Video Retrieval 的原生集成,开发者能够“输入”视频。这简化了将视频输入整合到应用程序中的过程,消除了复杂的视频处理代码的需求。通过对视觉和语音进行先进的多模态向量索引,该功能支持检索与视频提示相关的上下文,同时生成有关视频内容的摘要和答案。

Satalia 是全球最大的传播服务集团之一 WPP 的人工智能应用。Satalia 与微软合作,利用 GPT-4 Turbo 与 Azure OpenAI 服务以及 Azure AI Vision,创造性地转变了内容分析和优化。这些技术使 Satalia 能够对视频内容进行深度评估和优化,如广告和社交媒体帖子,为内容效果和受众参与提供深刻见解。

凭借 GPT-4 Turbo with Vision on Azure OpenAI Service with Video Retrieval 创建的视频详细摘要,Satalia 的 AI 工具能够预测视频内容的影响并提出改进建议,从而与受众期望和平台特性保持一致。AI 与人类创造力的融合产出的内容不仅在视觉上引人入胜,且能在情感上产生共鸣。

02 Azure OpenAI on your data 的图像应用

通过结合 GPT-4 Turbo with Vision、Azure AI Search 和 Azure AI Vision,信息检索的方式正在改变。现在,您可以将图像添加到文本数据中,并利用向量搜索来连接您的数据,从而实现更好的聊天体验。这种多模态支持建立在现有的基于文本模型的“Bring Your Data ”功能基础上。

03 物体定位

Azure AI Vision 针对输入图像的物体定位和勾勒功能,增强了 GPT-4 Turbo with Vision 的文本响应。该集成带来了数据分析和用户交互的新局面,为处理中的图像带来视觉上的区分和重要元素的凸显。

04 光学字符识别(OCR)

Azure AI Vision 通过提供高质量的 OCR 结果作为模型的补充信息,进一步完善了 GPT-4 Turbo with Vision,从而为密集文本、经过变换的图像和数字密集的财务文件生成更高质量的响应,并提升了 OCR 语言覆盖范围。

微软致力于以负责任的原则推动人工智能的发展。Azure OpenAI 服务上的 GPT-4 Turbo with Vision 尊重用户的隐私。在处理包含人物图像的图像或输入时,系统会首先对人脸进行模糊处理,再进行处理并返回请求的结果,从而防止面部识别带来的威胁。

微软不断扩展人工智能能力,并为用户提供市场上最创新的工具。我们期待看到客户如何利用这一新功能推动业务发展和创新。

滚动到顶部