两个人的学生项目,8000行代码,拿下1700万美元融资:Browser Use凭什么9.4万Star?
2026年初,一个来自苏黎世联邦理工学院的学生项目在GitHub上引爆开发者社区——Browser Use,一个让AI“像真人一样”操作浏览器的Python框架,短短几个月狂揽9.4万+ Star,被开发者称为“开源版Manus”。更令人惊叹的是,两位创始人仅凭8000行核心代码,从学生宿舍孵化器起步,拿下了1700万美元种子轮融资,估值直接冲上硅谷明星赛道。本文从技术架构、融资逻辑、应用场景、竞品对比、开源合规五个维度深度拆解:Browser Use如何通过DOM结构化处理,让非多模态模型也能精准操作网
一、写在前面:一个“学生项目”凭什么火遍GitHub?
2026年初,AI浏览器自动化赛道迎来了一场真正的爆发。
故事要从两个苏黎世联邦理工学院的学生说起。Magnus Müller多年来一直研究网页抓取工具,2024年与同样攻读数据科学硕士学位的Gregor Žunič相识。他们一起头脑风暴,提出了一个大胆的想法:让大语言模型像人一样“阅读”和“操作”网页。仅用五周时间,两人就开发出了一个演示版本。随后,他们决定将其开源。
这就是Browser Use的诞生。
谁也没想到,这个“学生项目”迅速在开发者社区炸开了锅。截至2026年5月,Browser Use在GitHub上已斩获91k+ Star,在WebVoyager评测基准上达到了89.1%的成功率,成为AI驱动网页自动化领域公认的行业标杆。
今年4月,Browser Use团队又扔出了一颗“重磅炸弹”——Browser Harness,一个仅592行Python代码的极简实验性项目。它不依赖任何中间框架,直接通过WebSocket连接Chrome浏览器,允许AI在任务执行过程中实时编写缺失的功能,将浏览器自动化从“预先写死流程”推向“边执行、边补能力”的全新模式。开源没几天就斩获了3.2K Star。
更让人好奇的是,两个学生凭什么能拿到1700万美元融资?这套技术到底有多厉害?对普通用户和企业来说又有什么风险?这篇文章不讲虚的,从技术架构、融资逻辑到合规警示,一条一条拆开来看。
二、Browser Use到底解决了什么问题?
传统的网页自动化方案,无论是Selenium还是Playwright,都有一个核心痛点:你必须在代码里写死每一步该怎么走——“找到ID为submit的按钮,点击它,等待3秒,然后提取文本”。
这在网页结构固定的年代或许够用。但今天的互联网是“活的”:JavaScript动态渲染、反爬机制持续升级、UI布局频繁改版。写死的脚本经常在运行第二天就宣告失效。
Browser Use的思路完全不一样:你只需要告诉AI你要做什么,它自己会判断该点哪个按钮、填什么内容、滚动到哪里。
一位开发者用Browser Use做了这样一个测试:每天定时访问某电商网站,抓取指定商品的价格信息。传统Selenium脚本需要维护XPath定位器,网页一改版就失效。改用Browser Use后,只需写一句自然语言指令——“每天早上8点访问购物网站,找到‘iPhone 17 Pro’的商品价格,以JSON格式保存到本地”——剩下的全部交给AI。
Müller对TechCrunch解释了Browser Use的核心优势:“许多代理使用基于视觉的系统,通过截图尝试导航网站,这常常导致问题。我们将网站转换为代理能够理解的形式,使我们能够以更低的成本重复运行相同的任务。”
三、技术架构拆解:两个学生的降维打击
扒开Browser Use的技术外壳,它的核心竞争力其实很清晰。
3.1 “视觉+代码”双模态输入
传统AI操作网页的做法主要是靠截屏——Anthropic的Computer Use、OpenAI的Operator都是把截图丢给多模态大模型,让模型输出要点击的坐标位置。这个方案的问题很突出:成本高(每次调用都消耗大量视觉token)、精度低(像素级别的坐标很容易偏)。
Browser Use走了一条完全不同且更巧妙的路径。它通过Playwright控制真实浏览器,同时获取截图和DOM树,形成“视觉+代码”双模态输入。更精妙的是,它会对DOM树进行结构化处理——找出页面上所有可交互元素,给它们打上标记(如[1]、[2]),然后转换成一种“类文本”格式,让大语言模型能“看”懂网页布局。
举个例子,Google首页经过Browser Use处理后会变成这样:
text[Start of page] [1] Gmail/> [2] 图片/> [3] 搜索框> [4] 搜索按钮> [5] 手气不错> [End of page]
模型看到的是这个极简的文本结构,而非庞大复杂的HTML源码。当任务需要执行搜索时,模型可以轻松判断搜索框是索引为[3]的元素,Agent只需要把索引对应的XPath拿出来执行操作即可。
换句话说,Browser Use的核心策略就是——把网页“翻译”成AI最擅长的阅读理解题,而不是逼着AI做眼力测试。
这套方法的优势非常明显:
-
成本更低:不依赖昂贵的多模态模型,DeepSeek等纯文本模型也能跑起来
-
更精准:操作基于DOM元素,而不是像素坐标
-
更稳定:结构化文本不含Script和Style等噪音信息,Token消耗大幅降低
3.2 核心分层架构
Browser Use采用分层设计,将AI推理与浏览器执行解耦:
-
Agent(代理层) :负责执行核心的“感知-思考-行动”循环,协调LLM调用与动作调度
-
Message Manager(消息管理层) :管理对话历史、状态剪枝与提示词组装
-
Browser Session(浏览器会话层) :通过事件驱动方式管理浏览器生命周期
-
DOM Service(DOM服务层) :通过Chrome DevTools Protocol提取DOM树、可访问性树与快照树
-
Tools Registry(工具注册中心) :通过Pydantic模型注册并执行点击、输入等浏览器动作
整个架构围绕一个闭环运行:观察当前页面→AI决策下一步动作→执行操作→再次截图验证→根据结果调整策略或继续推进。这个闭环的架构直接决定了Browser Use是一个真正的Agent框架,而不是普通的API封装——模型有“手”和“眼”,能主动调用工具、能自己选方案、能根据执行结果返回来再做决策。
3.3 Browser Harness:把控制权完全交给AI
如果说Browser Use是“给AI配了一双看懂网页的眼睛”,那么Browser Harness就是直接把方向盘交给了AI。
这个仅592行代码的实验性项目,不做任何预设,不给任何护栏。它直接基于Chrome DevTools Protocol直连浏览器,AI可以在任务执行过程中实时编写缺失的功能。执行完成后,AI还会自动把学到的操作路径沉淀为技能文件,保存到domain-skills目录下。项目里已经内置了GitHub、LinkedIn、Amazon等常见网站的现成技能,下次遇到同类任务可以直接复用,不用从头摸索。
这意味着:当AI在任务执行中遇到一个从未见过的网站布局时,它会自己“写代码”来解决问题,而不是像传统工具那样报错崩溃。页面布局变了没关系,AI边执行边适应。
四、融资1700万美元:两个学生凭什么值这个价?
2025年3月,Browser Use完成了一轮1700万美元的种子轮融资,由Felicis的Astasia Myers领投,Paul Graham、A Capital和Nexus Venture Partners参投。公司注册在旧金山,全职员工仅7人。
为什么两个学生的8000行代码能拿到这么高的估值?
第一,击中了AI Agent落地的核心瓶颈。 当前AI Agent要真正走向应用,最大的障碍就是“不能操作网页”——绝大多数Agent能回答问题,但做不了事。Browser Use填补了Agent“动手能力”的这个关键空白,被称为“AI Agent通往真实世界的桥梁”。
第二,独特的技术路线具备护城河。 DOM结构化处理相比纯粹的视觉方案,在成本、效率和稳定性上都有明显优势。这套方案在WebVoyager评测基准上跑出了89.1%的成功率,是目前AI网页自动化领域的行业标杆。
第三,恰逢Manus收购带来的开源窗口期。 2026年初,Meta豪掷20亿美元收购了号称“通用智能体”的Manus。大厂把明星产品收走了,开发者社区自然会疯狂寻找开源替代方案。Browser Use恰好出现在这个窗口期,被开发者称为“开源版Manus”,Star数一路飙升。
第四,商业模式已清晰验证。 虽然核心代码开源,但团队推出了云服务版本——提供隐身浏览器、代理轮换、验证码自动破解等企业级功能,已有超过20家YC冬季批次的公司在使用。
Felicis的Astasia Myers评价道:“我们相信网页AI代理是端到端自动化人类任务的下一个重大突破。网页AI代理作为动态桥梁,连接以文本为主的静态预训练模型与不断变化的数字环境。”
五、实测与竞品:谁才是浏览器自动化的王者?
把Browser Use放在整个AI浏览器自动化赛道里对比,可以更清晰地看出它的定位。
5.1 性能数据
根据官方benchmark数据,Browser Use在100个真实浏览器任务上的成功率达到89.1%。平均任务执行延迟约为800-1200毫秒(含页面加载),动态元素识别准确率达到92.7% (基于10万次实测)。
更令人惊喜的是,它的成本极低。非多模态的文本模型也能跑起来,这意味着你可以用DeepSeek等本地低成本模型完成大多数浏览器任务。
5.2 主流竞品对比
| 维度 | Browser Use | Skyvern | Midscene | Stagehand |
|---|---|---|---|---|
| 核心策略 | DOM结构化 | 计算机视觉 | 视觉LLM | MCP生态 |
| GitHub Stars | 94k+ | 22k+ | 持续增长 | 较新项目 |
| 优势 | 成本低、稳定、可本地 | 抗布局变化能力强 | 复杂表单填写 | AI工具链集成 |
| 劣势 | 复杂视觉场景需辅助 | Token消耗高 | 依赖多模态模型 | 社区规模较小 |
| 适用场景 | 通用网页自动化 | 千人千面恶劣环境 | 保险报价等复杂表单 | AI Agent工具链 |
最简单粗暴的判断方法: 如果你处理的是常规网页,追求低成本和高稳定性,选Browser Use;如果前端属性变化多端、极端环境恶劣,Skyvern的“高维暴力破解流”更合适。
六、风险透视:一张数据爬取引发的合规“牌桌”
Browser Use虽然技术强悍,但它天然涉及数据爬取与自动化操作,很容易触发法律风险。在使用之前,有几个“坑”必须提前知道。
6.1 数据爬取的法律红线
Browser Use默认配置依赖Playwright开启完整JavaScript引擎,直接向目标网站发送浏览器指纹、Cookies、真实请求。这意味着:
反爬机制。 大量自动化行为可能触发网站的反爬虫机制,导致IP被封、账号受限。有用户分享案例:某电商卖家使用Browser Use自动抓取竞争对手价格,反被平台风控系统识别,店铺被封30天,损失营业额20万元。
数据合规风险。 《个人信息保护法》规定,自动化决策需保证决策的透明度和结果公平、公正。AI自动化过程中可能截取登录态、Cookie等敏感信息。如果数据未经脱敏处理直接爬取、存储或转发,将引发《个人信息保护法》下的严格责任。特别是涉及批量采集时,可能触发“非法获取计算机信息系统数据罪”的刑事风险。
平台协议风险。 各类网络平台的用户协议明确禁止自动化访问,违反协议属于合同违约行为,可导致账号封禁与服务停用。据《2025年网络爬虫法律风险报告》(中国信通院发布),涉及爬虫的民事纠纷案件同比增长68%。
6.2 开源协议的“陷阱”
Browser Use采用MIT许可证,这是目前最宽松的开源协议之一。在目前的司法实践中,违反MIT协议可能导致授权终止,进而构成著作权侵权。
曾有法院判决明确认定“GPLv3开源协议具有合同性质”,虽然MIT比GPL宽松得多,但核心法律逻辑是一致的:开源不等于放弃著作权,违反协议照样是违法使用。
关键是什么?MIT协议虽然允许商用、允许闭源、允许修改代码,但它明确要求:使用者必须保留原始版权声明与许可证文本。很多企业的合规审查会忽略这个细节。在企业内部部署Browser Use时,如果未保留版权声明或篡改了许可证文本,也可能构成著作权侵权。
此外,如果企业将Browser Use整合进商业产品并对外分发,仍需确保所有依赖组件的许可证兼容。Browser Use依赖Playwright、LangChain等组件,它们的许可证也需要一并核查,避免“隐形传染”带来合规盲区。
6.3 企业使用合规清单
如果你的企业要使用Browser Use,以下是一份简要的合规清单:
-
数据采集范围审查:明确目标网站的服务条款,判断是否禁止自动化访问
-
个人信息脱敏:爬取涉及用户数据时,必须进行匿名化处理
-
IP策略与请求频率:使用代理轮换和限速机制,避免触发反爬阈值
-
遵守robots.txt:尊重目标网站的爬虫协议
-
保留开源许可证:在分发时保留原始版权声明与MIT许可证全文
-
咨询法律专业人士:如有争议,一定要咨询专业律师
七、谁适合用Browser Use?
✅ 推荐入手的三类人:
-
AI应用开发者:想让Agent真正“动手”做事的开发者,Browser Use是目前最成熟的开源方案
-
测试工程师:用自然语言替代繁琐的Playwright/Selenium脚本,大幅降低自动化测试的维护成本
-
数据采集/自动化运维人员:需要定时抓取、自动化录入、自动化监控的团队
⚠️ 需要谨慎的情况:
-
处理高度敏感数据的企业:建议使用云版本或私有化部署,避免API调用中的数据泄露
-
对合规有严格限制的金融机构:部署前应请法务团队审查数据采集与开源协议合规风险
-
需要极致实时性的场景:800-1200ms的延迟对部分高实时性场景可能不够快
八、结语
Browser Use的故事告诉我们,大模型应用层的创新门槛正在迅速降低。两位苏黎世的学生,用8000行代码,做出了一个风靡全球的开源项目,拿下了1700万美元融资。
它的核心竞争力不在于复杂的算法,而在于一个极简的洞察:把网页“翻译”成AI最擅长理解的形式,让AI像人类一样读懂和操作网页。这套思路不仅颠覆了传统的浏览器自动化,也为AI Agent的落地开辟了一条新路。
无论你是用它来自动抓取数据、做自动化测试,还是作为Agent的核心基础设施,Browser Use都值得一试。但请记住:能力越强,责任越大。技术是强大的武器,但用得好不好、合不合规,全看使用者的边界意识。
想上手试试?
bash# 1. 安装(Python >= 3.11) pip install browser-use # 2. 运行你的第一个Agent # 只需几行代码,AI就能自动操作浏览器
给技术爱好者的一句话: Browser Use目前91k+ Star的增长趋势仍在持续,加入社区、贡献代码、分享你的使用案例,也许下一个改变行业的故事,就在你的键盘之间。
——本文基于GitHub公开数据、官方文档与开发者社区实测信息撰写,不构成法律建议。商业使用请咨询专业律师进行合规审查。