两个人的学生项目，8000行代码，拿下1700万美元融资：Browser Use凭什么9.4万Star？

2026年初，一个来自苏黎世联邦理工学院的学生项目在GitHub上引爆开发者社区——Browser Use，一个让AI“像真人一样”操作浏览器的Python框架，短短几个月狂揽9.4万+ Star，被开发者称为“开源版Manus”。更令人惊叹的是，两位创始人仅凭8000行核心代码，从学生宿舍孵化器起步，拿下了1700万美元种子轮融资，估值直接冲上硅谷明星赛道。本文从技术架构、融资逻辑、应用场景、竞品对比、开源合规五个维度深度拆解：Browser Use如何通过DOM结构化处理，让非多模态模型也能精准操作网

原创

小D

找找AI

一、写在前面：一个“学生项目”凭什么火遍GitHub？

2026年初，AI浏览器自动化赛道迎来了一场真正的爆发。

故事要从两个苏黎世联邦理工学院的学生说起。Magnus Müller多年来一直研究网页抓取工具，2024年与同样攻读数据科学硕士学位的Gregor Žunič相识。他们一起头脑风暴，提出了一个大胆的想法：让大语言模型像人一样“阅读”和“操作”网页。仅用五周时间，两人就开发出了一个演示版本。随后，他们决定将其开源。

这就是Browser Use的诞生。

谁也没想到，这个“学生项目”迅速在开发者社区炸开了锅。截至2026年5月，Browser Use在GitHub上已斩获91k+ Star，在WebVoyager评测基准上达到了89.1%的成功率，成为AI驱动网页自动化领域公认的行业标杆。

今年4月，Browser Use团队又扔出了一颗“重磅炸弹”——Browser Harness，一个仅592行Python代码的极简实验性项目。它不依赖任何中间框架，直接通过WebSocket连接Chrome浏览器，允许AI在任务执行过程中实时编写缺失的功能，将浏览器自动化从“预先写死流程”推向“边执行、边补能力”的全新模式。开源没几天就斩获了3.2K Star。

更让人好奇的是，两个学生凭什么能拿到1700万美元融资？这套技术到底有多厉害？对普通用户和企业来说又有什么风险？这篇文章不讲虚的，从技术架构、融资逻辑到合规警示，一条一条拆开来看。

二、Browser Use到底解决了什么问题？

传统的网页自动化方案，无论是Selenium还是Playwright，都有一个核心痛点：你必须在代码里写死每一步该怎么走——“找到ID为submit的按钮，点击它，等待3秒，然后提取文本”。

这在网页结构固定的年代或许够用。但今天的互联网是“活的”：JavaScript动态渲染、反爬机制持续升级、UI布局频繁改版。写死的脚本经常在运行第二天就宣告失效。

Browser Use的思路完全不一样：你只需要告诉AI你要做什么，它自己会判断该点哪个按钮、填什么内容、滚动到哪里。

一位开发者用Browser Use做了这样一个测试：每天定时访问某电商网站，抓取指定商品的价格信息。传统Selenium脚本需要维护XPath定位器，网页一改版就失效。改用Browser Use后，只需写一句自然语言指令——“每天早上8点访问购物网站，找到‘iPhone 17 Pro’的商品价格，以JSON格式保存到本地”——剩下的全部交给AI。

Müller对TechCrunch解释了Browser Use的核心优势：“许多代理使用基于视觉的系统，通过截图尝试导航网站，这常常导致问题。我们将网站转换为代理能够理解的形式，使我们能够以更低的成本重复运行相同的任务。”

三、技术架构拆解：两个学生的降维打击

扒开Browser Use的技术外壳，它的核心竞争力其实很清晰。

3.1 “视觉+代码”双模态输入

传统AI操作网页的做法主要是靠截屏——Anthropic的Computer Use、OpenAI的Operator都是把截图丢给多模态大模型，让模型输出要点击的坐标位置。这个方案的问题很突出：成本高（每次调用都消耗大量视觉token）、精度低（像素级别的坐标很容易偏）。

Browser Use走了一条完全不同且更巧妙的路径。它通过Playwright控制真实浏览器，同时获取截图和DOM树，形成“视觉+代码”双模态输入。更精妙的是，它会对DOM树进行结构化处理——找出页面上所有可交互元素，给它们打上标记（如[1]、[2]），然后转换成一种“类文本”格式，让大语言模型能“看”懂网页布局。

举个例子，Google首页经过Browser Use处理后会变成这样：

text

[Start of page]
[1] Gmail/>
[2] 图片/>
[3] 搜索框>
[4] 搜索按钮>
[5] 手气不错>
[End of page]

模型看到的是这个极简的文本结构，而非庞大复杂的HTML源码。当任务需要执行搜索时，模型可以轻松判断搜索框是索引为[3]的元素，Agent只需要把索引对应的XPath拿出来执行操作即可。

换句话说，Browser Use的核心策略就是——把网页“翻译”成AI最擅长的阅读理解题，而不是逼着AI做眼力测试。

这套方法的优势非常明显：

成本更低：不依赖昂贵的多模态模型，DeepSeek等纯文本模型也能跑起来
更精准：操作基于DOM元素，而不是像素坐标
更稳定：结构化文本不含Script和Style等噪音信息，Token消耗大幅降低

3.2 核心分层架构

Browser Use采用分层设计，将AI推理与浏览器执行解耦：

Agent（代理层） ：负责执行核心的“感知-思考-行动”循环，协调LLM调用与动作调度
Message Manager（消息管理层） ：管理对话历史、状态剪枝与提示词组装
Browser Session（浏览器会话层） ：通过事件驱动方式管理浏览器生命周期
DOM Service（DOM服务层） ：通过Chrome DevTools Protocol提取DOM树、可访问性树与快照树
Tools Registry（工具注册中心） ：通过Pydantic模型注册并执行点击、输入等浏览器动作

整个架构围绕一个闭环运行：观察当前页面→AI决策下一步动作→执行操作→再次截图验证→根据结果调整策略或继续推进。这个闭环的架构直接决定了Browser Use是一个真正的Agent框架，而不是普通的API封装——模型有“手”和“眼”，能主动调用工具、能自己选方案、能根据执行结果返回来再做决策。

3.3 Browser Harness：把控制权完全交给AI

如果说Browser Use是“给AI配了一双看懂网页的眼睛”，那么Browser Harness就是直接把方向盘交给了AI。

这个仅592行代码的实验性项目，不做任何预设，不给任何护栏。它直接基于Chrome DevTools Protocol直连浏览器，AI可以在任务执行过程中实时编写缺失的功能。执行完成后，AI还会自动把学到的操作路径沉淀为技能文件，保存到domain-skills目录下。项目里已经内置了GitHub、LinkedIn、Amazon等常见网站的现成技能，下次遇到同类任务可以直接复用，不用从头摸索。

这意味着：当AI在任务执行中遇到一个从未见过的网站布局时，它会自己“写代码”来解决问题，而不是像传统工具那样报错崩溃。页面布局变了没关系，AI边执行边适应。

四、融资1700万美元：两个学生凭什么值这个价？

2025年3月，Browser Use完成了一轮1700万美元的种子轮融资，由Felicis的Astasia Myers领投，Paul Graham、A Capital和Nexus Venture Partners参投。公司注册在旧金山，全职员工仅7人。

为什么两个学生的8000行代码能拿到这么高的估值？

第一，击中了AI Agent落地的核心瓶颈。 当前AI Agent要真正走向应用，最大的障碍就是“不能操作网页”——绝大多数Agent能回答问题，但做不了事。Browser Use填补了Agent“动手能力”的这个关键空白，被称为“AI Agent通往真实世界的桥梁”。

第二，独特的技术路线具备护城河。 DOM结构化处理相比纯粹的视觉方案，在成本、效率和稳定性上都有明显优势。这套方案在WebVoyager评测基准上跑出了89.1%的成功率，是目前AI网页自动化领域的行业标杆。

第三，恰逢Manus收购带来的开源窗口期。 2026年初，Meta豪掷20亿美元收购了号称“通用智能体”的Manus。大厂把明星产品收走了，开发者社区自然会疯狂寻找开源替代方案。Browser Use恰好出现在这个窗口期，被开发者称为“开源版Manus”，Star数一路飙升。

第四，商业模式已清晰验证。 虽然核心代码开源，但团队推出了云服务版本——提供隐身浏览器、代理轮换、验证码自动破解等企业级功能，已有超过20家YC冬季批次的公司在使用。

Felicis的Astasia Myers评价道：“我们相信网页AI代理是端到端自动化人类任务的下一个重大突破。网页AI代理作为动态桥梁，连接以文本为主的静态预训练模型与不断变化的数字环境。”

五、实测与竞品：谁才是浏览器自动化的王者？

把Browser Use放在整个AI浏览器自动化赛道里对比，可以更清晰地看出它的定位。

5.1 性能数据

根据官方benchmark数据，Browser Use在100个真实浏览器任务上的成功率达到89.1%。平均任务执行延迟约为800-1200毫秒（含页面加载），动态元素识别准确率达到92.7% （基于10万次实测）。

更令人惊喜的是，它的成本极低。非多模态的文本模型也能跑起来，这意味着你可以用DeepSeek等本地低成本模型完成大多数浏览器任务。

5.2 主流竞品对比

维度	Browser Use	Skyvern	Midscene	Stagehand
核心策略	DOM结构化	计算机视觉	视觉LLM	MCP生态
GitHub Stars	94k+	22k+	持续增长	较新项目
优势	成本低、稳定、可本地	抗布局变化能力强	复杂表单填写	AI工具链集成
劣势	复杂视觉场景需辅助	Token消耗高	依赖多模态模型	社区规模较小
适用场景	通用网页自动化	千人千面恶劣环境	保险报价等复杂表单	AI Agent工具链

最简单粗暴的判断方法： 如果你处理的是常规网页，追求低成本和高稳定性，选Browser Use；如果前端属性变化多端、极端环境恶劣，Skyvern的“高维暴力破解流”更合适。

六、风险透视：一张数据爬取引发的合规“牌桌”

Browser Use虽然技术强悍，但它天然涉及数据爬取与自动化操作，很容易触发法律风险。在使用之前，有几个“坑”必须提前知道。

6.1 数据爬取的法律红线

Browser Use默认配置依赖Playwright开启完整JavaScript引擎，直接向目标网站发送浏览器指纹、Cookies、真实请求。这意味着：

反爬机制。 大量自动化行为可能触发网站的反爬虫机制，导致IP被封、账号受限。有用户分享案例：某电商卖家使用Browser Use自动抓取竞争对手价格，反被平台风控系统识别，店铺被封30天，损失营业额20万元。

数据合规风险。 《个人信息保护法》规定，自动化决策需保证决策的透明度和结果公平、公正。AI自动化过程中可能截取登录态、Cookie等敏感信息。如果数据未经脱敏处理直接爬取、存储或转发，将引发《个人信息保护法》下的严格责任。特别是涉及批量采集时，可能触发“非法获取计算机信息系统数据罪”的刑事风险。

平台协议风险。 各类网络平台的用户协议明确禁止自动化访问，违反协议属于合同违约行为，可导致账号封禁与服务停用。据《2025年网络爬虫法律风险报告》（中国信通院发布），涉及爬虫的民事纠纷案件同比增长68%。

6.2 开源协议的“陷阱”

Browser Use采用MIT许可证，这是目前最宽松的开源协议之一。在目前的司法实践中，违反MIT协议可能导致授权终止，进而构成著作权侵权。

曾有法院判决明确认定“GPLv3开源协议具有合同性质”，虽然MIT比GPL宽松得多，但核心法律逻辑是一致的：开源不等于放弃著作权，违反协议照样是违法使用。

此外，如果企业将Browser Use整合进商业产品并对外分发，仍需确保所有依赖组件的许可证兼容。Browser Use依赖Playwright、LangChain等组件，它们的许可证也需要一并核查，避免“隐形传染”带来合规盲区。

6.3 企业使用合规清单

如果你的企业要使用Browser Use，以下是一份简要的合规清单：

数据采集范围审查：明确目标网站的服务条款，判断是否禁止自动化访问
个人信息脱敏：爬取涉及用户数据时，必须进行匿名化处理
IP策略与请求频率：使用代理轮换和限速机制，避免触发反爬阈值
遵守robots.txt：尊重目标网站的爬虫协议
保留开源许可证：在分发时保留原始版权声明与MIT许可证全文
咨询法律专业人士：如有争议，一定要咨询专业律师

七、谁适合用Browser Use？

✅ 推荐入手的三类人：

AI应用开发者：想让Agent真正“动手”做事的开发者，Browser Use是目前最成熟的开源方案
测试工程师：用自然语言替代繁琐的Playwright/Selenium脚本，大幅降低自动化测试的维护成本
数据采集/自动化运维人员：需要定时抓取、自动化录入、自动化监控的团队

⚠️ 需要谨慎的情况：

处理高度敏感数据的企业：建议使用云版本或私有化部署，避免API调用中的数据泄露
对合规有严格限制的金融机构：部署前应请法务团队审查数据采集与开源协议合规风险
需要极致实时性的场景：800-1200ms的延迟对部分高实时性场景可能不够快

八、结语

Browser Use的故事告诉我们，大模型应用层的创新门槛正在迅速降低。两位苏黎世的学生，用8000行代码，做出了一个风靡全球的开源项目，拿下了1700万美元融资。

它的核心竞争力不在于复杂的算法，而在于一个极简的洞察：把网页“翻译”成AI最擅长理解的形式，让AI像人类一样读懂和操作网页。这套思路不仅颠覆了传统的浏览器自动化，也为AI Agent的落地开辟了一条新路。

无论你是用它来自动抓取数据、做自动化测试，还是作为Agent的核心基础设施，Browser Use都值得一试。但请记住：能力越强，责任越大。技术是强大的武器，但用得好不好、合不合规，全看使用者的边界意识。

想上手试试？

bash

# 1. 安装（Python >= 3.11）
pip install browser-use

# 2. 运行你的第一个Agent
# 只需几行代码，AI就能自动操作浏览器

给技术爱好者的一句话： Browser Use目前91k+ Star的增长趋势仍在持续，加入社区、贡献代码、分享你的使用案例，也许下一个改变行业的故事，就在你的键盘之间。

——本文基于GitHub公开数据、官方文档与开发者社区实测信息撰写，不构成法律建议。商业使用请咨询专业律师进行合规审查。

Browser Use浏览器自动化AI AgentPlaywright开源项目Manus替代WebVoyager评测DOM结构化浏览器Harne