解决长文本上下文问题的多种方法:OpenAI、Google、Microsoft 和 MCP 的尝试

OpenAI, Google, Microsoft 以及 MCP

目前大型语言模型(LLM)的技术迅速发展,AI的长文脉处理能力成为新的挑战。要使AI具备真正的智能,不仅需要简单的数据传递,还必须理解连续而有意义的上下文。

在这方面,Anthropic的MCP(模型上下文协议)被视为解决长文脉处理问题的重要转折点。然而,在MCP出现之前,许多技术公司已经在努力处理长脉和整合工具,目前也在以各种方式应对这一问题。

因此,未来AI的发展将取决于如何有效提升这些长文脉处理能力。





OpenAI的插件和函数调用功能



OpenAI, Google, Microsoft 以及 MCP

OpenAI在2023年推出了ChatGPT插件功能,使与外部API的集成成为可能。这样,模型可以与各种外部工具进行交互,如网页浏览和第三方服务调用,并能够根据OpenAPI规范执行特定任务。

尽管如此,插件方式的缺点在于只能在ChatGPT的网页界面这一有限的环境中工作。每个插件都需要单独的集成和托管,这在扩展性和一致性方面造成了限度。特别是每个插件都要求单独的认证程序,从而使得持续对话流的保持和工具识别变得困难。

随后,OpenAI添加了函数调用功能,使模型能够以JSON格式调用开发者设置的函数。该功能与LangChain等框架结合,结构性地支持工具的使用。但是这种方法也存在仅能访问预定义工具的静态形式的限制。

这些变化虽然提升了AI模型的利用度,但仍存在需改进的地方。这就是未来发展期待的原因。





MCP解决的局限性

OpenAI, Google, Microsoft 以及 MCP


MCP是克服传统局限的创新系统。由于模型在运行时能够自动识别并使用新的MCP服务器的结构,使得可以动态访问工具,而无需事先定义。

例如,LangChain通过最近的更新改进了MCP服务器,使其能够被视为一个工具源。这样一来,MCP客户端和服务器与函数调用结合,使AI能够调用工具,并有效利用结果的结构得以实现。这样的变化提高了在各个领域的应用可能性。





Microsoft和OpenAI的MCP采用

OpenAI, Google, Microsoft 以及 MCP

MCP在Anthropic的主导下,OpenAI和Microsoft也正在参与这一新标准。OpenAI计划在2024年底之前为其代理SDK增加对MCP的支持,以便OpenAI模型用户能够轻松利用MCP生态系统中的各种工具。

另一方面,Microsoft在其Azure AI Agents服务中整合了MCP。2025年3月,Azure博客展示了利用MCP使Claude等AI实时访问Bing搜索或企业内SharePoint文档的案例。这标志着MCP正在成为支持多平台和多模型兼容的开放标准。这一发展预计将进一步扩大多种AI技术的应用可能性。







Google Bard的扩展功能

OpenAI, Google, Microsoft 以及 MCP

2023年,Google为其聊天机器人Bard添加了新的扩展功能。凭借这一功能,AI能够访问Gmail、Google Drive和Google Docs等平台。这使得AI具备读取和总结用户邮箱或Drive中的文档的能力,这与MCP具有相似的扩展目标。

但Google的扩展仅在Google生态系统内运行,作为封闭集成,与任何人都可以自由使用的开放连接方式的MCP存在显著差异。这种差异可能成为未来AI的使用方式和用户的可接入性的重要因素。







模型自身的超长文处理能力提升

OpenAI, Google, Microsoft 以及 MCP

扩展模型的上下文窗口还有另一种方法。OpenAI在GPT-4 Turbo中支持最多128,000个 token,而之后发布的o3模型中则最多支持200,000个 token。谷歌的Gemini模型据说具有处理超过一百万个 token的能力。

这些进展表明,AI能够一次性理解相当于一本书的文本量。但简单地将所有数据汇集处理的方式存在明显的限制。

根据2024年ICLR上发布的研究,仅通过基于搜索的上下文添加就能展现出类似于大规模窗口模型的性能。此外,无论上下文窗口的大小,信息检索(Retrieval)始终有助于提高性能。这些研究结果预计将进一步扩展AI的应用可能性。





处理长脉的最佳策略是‘连接’



OpenAI, Google, Microsoft 以及 MCP

根据前面的讨论,解决长脉问题的方式可以分为几类。

首先是用于平台内的封闭插件(OpenAI,Google)。其次是静态函数调用和基于代码的工具连接(Function Calling,LangChain)方式。第三种是通过模型自身的窗口扩展(GPT-4 Turbo,Gemini)实现的方法。最后是能够进行动态连接的开放标准MCP。

在这些中,MCP以独特的结构同时兼顾开放性和通用性,已成为在多种模型和平台中使用的事实标准。这种结构预计将进一步推动技术的发展。

OpenAI, Google, Microsoft 以及 MCP

归根结底,提供更多上下文给AI的方法多种多样,但核心都是一个。

将必要的信息安全、自由地及时连接给AI。


而现在离这个答案最近的技术正是
MCP




#MCP, #AI工具连接, #OpenAI插件, #函数调用, #LangChain, #AzureAI, #GoogleBard, #GPT4Turbo, #Gemini, #上下文窗口, #超长文AI, #AI上下文扩展, #AI生态系统, #AI代理, #AI标准, #MCP引入, #Anthropic, #OpenAI代理SDK, #MicrosoftAzure, #云AI, #开放AI, #AI开放标准, #AI自动连接, #代理框架, #LangChainMCP, #AI补充战略, #搜索基础AI, #ICLR2024, #OpenReview, #AI未来技术

다음 이전