首页 资讯 正文

Gate Ventures研究洞察:第三次浏览器战争,AI Agent时代的入口之争

Odaily星球日报 2025年07月02日 02:52

TL;DR

第三次浏览器战争正在悄然展开。回顾历史,从上世纪 90 年代的 Netscape、微软的 IE,再到开源精神的 Firefox 与 Google 的 Chrome,浏览器之争一直是平台控制权与技术范式变迁的集中体现。Chrome 凭借更新速度与生态联动夺得霸主地位,而 Google 通过搜索与浏览器的“双寡头”结构,形成了信息入口的闭环。

但今天,这一格局正在动摇。大型语言模型(LLM)的崛起,使得越来越多用户在搜索结果页“零点击”完成任务,传统的网页点击行为正在减少。同时,Apple 有意在 Safari 中替换默认搜索引擎的传闻,进一步威胁 Alphabet (Google 母公司) 的利润根基,市场已开始显露出对“搜索正统”的不安。

浏览器本身也正面临角色重塑。它不仅是展示网页的工具,更是数据输入、用户行为、隐私身份等多种能力的集合容器。AI Agent 虽强,但若要完成复杂的页面交互、调用本地身份数据、控制网页元素,仍然需要借助浏览器的信任边界和功能沙盒。浏览器正在从人类界面,变成 Agent 的系统调用平台。

在本文,我们探讨了浏览器是否还有存在的必要,同时我们认为真正可能打破当前浏览器市场格局的,不是另一个“更好的 Chrome”,而是一种新的交互结构:不是信息的展示,而是任务的调用。未来浏览器要为 AI Agent 设计——不仅能读,还能写和执行。像 Browser Use 这样的项目正尝试将页面结构语义化,把可视化界面变成 LLM 可调用的结构化文本,实现页面到指令的映射,极大降低交互成本。

市面上主流项目已开始试水:Perplexity 构建原生浏览器 Comet,用 AI 代替传统搜索结果;Brave 把隐私保护与本地推理结合,用 LLM 增强搜索与屏蔽功能;而 Donut 等 Crypto 原生项目,则瞄准 AI 与链上资产交互的新入口。这些项目共同特征是:试图重构浏览器的输入端,而非美化其输出层。

对创业者而言,机遇藏在输入、结构与代理的三角关系中。浏览器作为未来 Agent 调用世界的接口,意味着谁能提供可结构化、可调用、可信任的“能力块”,谁就能成为新一代平台的组成部分。从 SEO 到 AEO(Agent Engine Optimization),从页面流量到任务链调用,产品形态与设计思维都在重构。第三次的浏览器战争,发生在“输入”而非“展示”;决定胜负的,不再是谁抓住用户的眼球,而是谁赢得了 Agent 的信任,获得调用的入口。

浏览器发展简史

在上世纪 90 年代初,互联网尚未成为日常生活的一部分时,Netscape Navigator 横空出世,如同开启新大陆的帆船,为数以百万计的用户打开了通往数字世界的大门。这款浏览器并非第一个,但却是第一个真正意义上走向大众、塑造互联网体验的产品。彼时,人们第一次能如此轻松地通过图形界面浏览网页,仿佛整个世界都突然变得触手可及。

然而,辉煌往往短暂。微软很快意识到浏览器的重要性,并决定将 Internet Explorer 强行捆绑进 Windows 操作系统,让其成为默认浏览器。这一策略堪称“平台杀手锏”,直接瓦解了 Netscape 的市场主导地位。许多用户并非主动选择 IE,而是因为系统默认便接受了它。IE 借助 Windows 的分发能力,迅速成为行业霸主,Netscape 则陷入了衰败的轨道。

Gate Ventures研究洞察:第三次浏览器战争,AI Agent时代的入口之争

Firefox Logo Evolution

在困境中,Netscape 的工程师选择了一条激进而理想主义的道路——他们将浏览器源代码公开,向开源社区发出召唤。这一决定,仿佛是一次技术界的“马其顿式让位”,预示着旧时代的终结与新力量的崛起。这段代码后来成为 Mozilla 浏览器项目的基础,最初命名为 Phoenix(意为凤凰涅槃),却因商标问题几经更名,最终定名为 Firefox。

Firefox 并非简单复制 Netscape,它在用户体验、插件生态、安全性等方面实现了多项突破。它的诞生标志着开源精神的胜利,也为整个行业注入新的活力。有人形容 Firefox 是 Netscape 的“精神继承者”,如同奥斯曼帝国继承了拜占庭的余晖。这一比喻虽夸张,却颇具意味。

但在 Firefox 正式发布前的几年,微软早已发布了六个版本的 IE,凭借时间优势和系统捆绑策略,使 Firefox 一开始便处于追赶地位,注定这场竞赛并非起跑线平等的公平竞争。

与此同时,另一个早期玩家也在悄然登场。1994 年,Opera 浏览器问世,它来自挪威,起初只是一个实验性项目。但从 2003 年的 7.0 版本起,它引入了自研的 Presto 引擎,率先支持 CSS、自适应布局、语音控制以及 Unicode 编码等前沿技术。虽然用户数量有限,但技术上始终走在行业前列,成为“极客的最爱”。

同年,苹果推出了 Safari 浏览器。这是一场别有意味的转折。彼时,微软曾向濒临破产的苹果注资 1.5 亿美元,以维持竞争表象、避免反垄断审查。虽然 Safari 从诞生起的默认搜索引擎是 Google,但这段与微软的历史纠葛象征着互联网巨头之间复杂而微妙的关系:合作与竞争,总是如影随形。

2007 年,IE 7 随 Windows Vista 推出,但市场反馈平平。反观 Firefox,凭借更快的更新节奏、更友好的扩展机制以及对开发者的天然吸引力,市场份额稳步提升至约 20% 。IE 的统治逐渐松动,风向正在改变。

谷歌则是另一种打法。虽然从 2001 年起就开始酝酿打造自家浏览器,但花了六年时间才说服 CEO 埃里克·施密特批准这个项目。Chrome 于 2008 年问世,基于 Chromium 开源项目与 Safari 所用的 WebKit 引擎打造。它被戏称为“臃肿”的浏览器,但凭借谷歌对广告投放与品牌塑造的深厚功力,迅速崛起。

Chrome 的关键武器并非功能,而是频繁的版本更新节奏(每六周一次)与全平台统一体验。2011 年 11 月,Chrome 首次超越 Firefox,市场份额达到 27% ;六个月后,又反超 IE,完成了从挑战者到主宰者的转变。

与此同时,中国的移动互联网也在形成自己的生态系统。阿里巴巴旗下的 UC 浏览器在 2010 年代初迅速蹿红,尤其是在印度、印尼、中国等新兴市场,依靠轻量级设计、压缩数据节省流量等特性,赢得了低端设备用户的青睐。2015 年,其全球移动浏览器市场份额突破 17% ,在印度一度高达 46% 。但这场胜利并不持久。随着印度政府加强对中国应用的安全审查,UC 浏览器被迫退出关键市场,逐渐失去往日辉煌。

Gate Ventures研究洞察:第三次浏览器战争,AI Agent时代的入口之争

Browser market share, source: statcounter

进入 2020 年代,Chrome 的主导地位已经确立,全球市场份额稳定在约 65% 。值得注意的是,Google 搜索引擎与 Chrome 浏览器虽然同属 Alphabet,但从市场层面看却是两个独立的霸权体系——前者控制了全球约九成的搜索入口,后者则掌握了大多数用户进入网络的“第一窗口”。

为了守住这一双重垄断结构,谷歌不惜重金投入。2022 年,Alphabet 向苹果支付约 200 亿美元,只为让 Google 保持在 Safari 中的默认搜索地位。有分析指出,这笔支出相当于谷歌从 Safari 流量中获取搜索广告收入的 36% 。换言之,谷歌正为护城河支付“保护费”。

Gate Ventures研究洞察:第三次浏览器战争,AI Agent时代的入口之争

Search Engine market share, source: statcounter

但风向又一次变化。随着大型语言模型(LLM)的崛起,传统搜索开始受到冲击。2024 年,Google 的搜索市场份额自 93% 跌至 89% ,虽仍称霸,但裂痕初现。更具颠覆性的,是关于苹果或将推出自有 AI 搜索引擎的传闻——若 Safari 默认搜索改投自家阵营,这不仅将改写生态格局,更可能撼动 Alphabet 的利润支柱。市场反应迅速,Alphabet 股价从 170 美元应声下跌至 140 美元,反映的不仅是投资者的恐慌,更是对搜索时代未来走向的深度不安。

Gate Ventures研究洞察:第三次浏览器战争,AI Agent时代的入口之争

从 Navigator 到 Chrome,从开源理想到广告商业化,从轻量浏览器到 AI 搜索助手,浏览器之争始终是一场关于技术、平台、内容与控制权的战争。战场不断迁移,但本质从未改变:谁掌握入口,谁就定义未来。

在 VC 眼中,依托 LLM 和 AI 时代人们对搜索引擎的新需求,第三次浏览器战争正在逐步展开。以下是部分知名 AI 浏览器赛道的项目的融资情况。

Gate Ventures研究洞察:第三次浏览器战争,AI Agent时代的入口之争

Gate Ventures研究洞察:第三次浏览器战争,AI Agent时代的入口之争

The overall architecture, source: Damien Benveniste

1. 客户端 - 前端入口

查询经 HTTPS 送达最近的 Google Front End,完成 TLS 解密、QoS 采样和地理路由。若检测到异常流量(DDoS、自动抓取)可在此层限流或挑战。

2. 查询理解

前端需要理解用户键入的单词的含义,有三个步骤:神经拼写校正,将 “recpie” 纠正为 “recipe”;同义词扩展,将“how to fix bike”,拓展到“repair bicycle”。意图解析,判定查询是资讯、导航还是交易意图,并分配 Vertical 请求。

3. 候选召回

Gate Ventures研究洞察:第三次浏览器战争,AI Agent时代的入口之争

Inverted Index, source:spot intelligence

Google 使用的查询技术被称为:倒排索引。在正序索引中,我们都是给定一个 ID 就可以索引到文件。但是用户不可能知道想要的内容在上千亿个文件中的编号,因此其采用了非常传统的倒排索引,通过内容来查询到哪些文件有对应的关键字。接下来,Google 采用向量索引用于处理语义搜索,即查找与查询含义相似的内容。它将文本、图像等内容转换为高维向量(embedding),并根据这些向量之间的相似性进行搜索。例如,即使用户搜索“如何制作披萨面团”,搜索引擎也能返回与“披萨面团制作指南”相关的结果,因为它们在语义上相似。经历了倒排索引和向量索引,大约十万量级的网页会被初筛出来。

4. 多级排序

系统通常通过 B M2 5、TF-IDF、页面质量分等数千维轻特征,将十万级规模的候选页面筛选至约 1000 篇,构成初步候选集。这类系统被统称为推荐引擎。其依赖多种实体生成的海量特征,包括用户行为、页面属性、查询意图与上下文信号。例如,Google 会综合用户历史、其他用户的行为反馈、页面语义、查询含义等信息,同时还考虑上下文要素,如时间(一天中时段、一周中的具体日子)与实时新闻等外部事件。

5. 深度学习进行主排序

在初步检索阶段,Google 使用 RankBrain 和 Neural Matching 等技术来理解查询的语义,并从海量文档中筛选出初步相关的结果。RankBrain 是 Google 于 2015 年引入的机器学习系统,旨在更好地理解用户查询的含义,尤其是首次出现的查询。它通过将查询和文档转换为向量表示,计算它们之间的相似性,从而找到最相关的结果。例如,对于查询“如何制作披萨面团”,即使文档中没有完全匹配的关键词,RankBrain 也能识别出与“披萨基础”或“面团制作”相关的内容。

Neural Matching 是 Google 于 2018 年推出的另一项技术,旨在更深入地理解查询和文档之间的语义关系。它使用神经网络模型来捕捉词语之间的模糊关系,帮助 Google 更好地匹配查询和网页内容。例如,对于查询“为什么我的笔记本电脑风扇声音很大”,Neural Matching 能够理解用户可能在寻找有关过热、灰尘积聚或高 CPU 使用率的故障排除信息,即使这些词语没有直接出现在查询中。

6. 深度重排:BERT 模型的应用

在初步筛选出相关文档后,Google 使用 BERT(Bidirectional Encoder Representations from Transformers)模型对这些文档进行更精细的排序,以确保最相关的结果排在前面。BERT 是一种基于 Transformer 的预训练语言模型,能够理解词语在句子中的上下文关系。在搜索中,BERT 被用于重新排序初步检索到的文档。它通过对查询和文档进行联合编码,计算它们之间的相关性得分,从而对文档进行重新排序。例如,对于查询“停车在没有路缘的坡道上”,BERT 能够理解“没有路缘”的含义,并返回建议驾驶员将车轮朝向路边的页面,而不是误解为有路缘的情况。而对于 SEO 工程师来说,就是需要精确的学习 Google 排序和机器学习的推荐算法,来针对性的优化网页内容重而获得更高的排名展示。

以上就是典型的 Google 搜索引擎的工作流程。但是在当前的 AI 和大数据爆发的时代,用户对浏览器的交互产生了新的需求。

为什么 AI 会重塑浏览器

首先我们需要明确,为什么浏览器这一形态仍然会存在?是否存在一种第三形态,除了人工智能代理和浏览器之外的选择?

我们认为,存在即无法替代。为什么人工智能能够使用浏览器,却无法完全取代浏览器?因为浏览器是通用平台,不仅仅是读取数据的入口,更是输入数据的通用入口。这个世界不可能只有信息输入,还必须产生数据并与网站进行交互,所以整合个性化用户信息的浏览器仍将广泛存在。

我们抓住这个点:浏览器作为通用入口,不仅用于读取数据,用户往往还需要与数据进行交互。浏览器本身是存储用户指纹的绝佳场所。更复杂的用户行为和自动化行为,必须以浏览器为载体。浏览器可以存储用户的所有行为指纹、通行证等隐私信息,在自动化过程中实现无需信任的调用。而与数据交互的动作,可以演变为:

用户 → 调用 AI Agent → 浏览器。

也就是说,唯一可能被取代的部分,是符合世界演变趋势的方向——更智能化、更个性化、以及更自动化。诚然,这部分可以交给 AI Agent 来处理,但 AI Agent 本身绝非适合承载用户个性化内容的场所,因为其在数据安全与便捷性方面面临多重挑战。具体而言:

浏览器是个性化内容的存储场所:

1. 多数大型模型托管在云端,会话上下文依赖服务器保存,难以直接调用本机密码、钱包、Cookie 等敏感数据。

2. 将全部浏览和支付数据送往第三方模型,需重新获得用户授权;欧盟《DMA》与美国州级隐私法均要求数据最小化出境。

3. 自动填写双重验证验证码、调用摄像头或利用 GPU 进行 WebGPU 推理,都必须在浏览器沙盒内完成。

4. 数据上下文高度依赖浏览器,包括标签页、Cookie、IndexedDB、Service Worker Cache、Passkey 凭据以及扩展数据,都沉淀在浏览器中。

交互形式的深刻变革

回到刚开始的话题,我们使用浏览器的行为大致可以分为三种形式:读取数据、输入数据、交互数据。人工智能大模型(LLM)已经深刻改变了我们读取数据的效率和方式,过去用户基于关键词搜索网页的行为显得非常老旧且低效。

针对用户搜索行为的演化——是获取总结答案,还是点击网页,已经有不少研究进行分析。

在用户的行为模式方面, 2024 年的研究显示,在美国每 1, 000 次 Google 查询中,只有 374 次最终点击开放网页。换言之,近 63% 属于“零点击”行为。用户习惯直接从搜索结果页获取天气、汇率、知识卡片等信息。

在用户的心理方面,一项 2023 年的调查指出, 44% 受访者认为常规自然结果比精选摘要(featured snippet)更值得信赖。学术研究也发现,在存在争议或无统一真相的议题中,用户更偏好包含多来源链接的结果页。

也就是说,确实有一部分用户对 AI 摘要的信赖度不高,但也有相当比例的用户行为已经转向“零点击”。所以,AI 浏览器仍然需要探索一个恰当的交互形态——特别是在数据读取这一部分,因为当前大模型的“幻觉问题”(hallucination)仍未根除,许多用户仍难以完全信任自动生成的内容摘要。在这方面,如果将大模型嵌入浏览器,实际上不需要对浏览器进行颠覆性变革,只需逐步解决模型的准确性与可控性,这项改进也正在持续推进中。

而真正可能触发浏览器大规模变革的,是数据交互这一层。过去人们通过输入关键字完成交互——这是浏览器能理解的极限。而现在,用户越来越倾向于使用一整段自然语言描述复杂任务,比如:

● “寻找纽约到洛杉矶某个时间段的直飞机票”

● “寻找纽约飞上海然后到洛杉矶的机票”

这些行为,即使对人类来说也需要耗费大量时间去访问多个网站、收集与比较数据。但这些 Agentic Tasks(代理任务)正在逐步被 AI Agent 接管。

这也符合历史演进的方向:自动化与智能化。人们渴望解放双手,AI Agent 必将深度嵌入浏览器。未来的浏览器必须为全自动化而设计,尤其要考虑:

● 如何兼顾人类阅读体验与 AI Agent 可解析性,

● 如何在同一个页面上,既服务于用户,也服务于代理模型。

只有满足这两者的设计,浏览器才能真正成为 AI Agent 执行任务的稳定载体。

接下来,我们将聚焦五个备受关注的项目,包括 Browser Use、Arc(The Browser Company)、Perplexity、Brave 以及 Donut。这些项目分别代表了 AI 浏览器的未来演进方向,及其在 Web3 和 Crypto 场景中的原生结合潜力。

Browser Use, source: Browser Use

Browser 是构建了一个真正意义上的语义层,其核心在于为下一代浏览器构建了语义识别架构。

Browser Use 把传统「DOM=给人看的节点树」重新解码成「语义 DOM=给 LLM 看的指令树」,让代理无需“看片点坐标”就能精准点击、填写与上传;这条路线以“结构化文本 → 函数调用”取代视觉 OCR 或坐标 Selenium,所以执行更快、token 更省、出错更少。TechCrunch 称之为“让 AI 真正读懂网页的胶水层”,而 3 月完成的 1700 万美元种子轮正是押注这一底层革新。

HTML 渲染后形成标准 DOM 树;浏览器再派生一棵 accessibility tree,为屏幕阅读器提供更丰富的“角色”与“状态”标签。

1. 把每个可交互元素(

odaily

odaily

18206篇

文章总数