
文 | 字母 AI
林俊旸夜深发文"告别"千问,在 AI 圈中引起山地风云,也让"周浩"这个名字参预公众视线。
2026 年 1 月,周浩低调加入阿里,第一站不是通义实验室,而是先挂靠在夸克。
在夸克顷然过渡之后,周浩当场转入通义实验室,接替同日辞职的后阅览施展东谈主郁博文,请教线胜仗拉到阿里云 CTO、通义实验室施展东谈主周靖东谈主。
周浩本科毕业于中国科学本领大学,2019 年在威斯康星大学麦迪逊分校得到机器学习与计较机视觉地点的博士学位,随后在 Meta 作念了一段 AI 基础征询,集会了大范围模子阅览的工程西宾。
的确让他成名的地方是 DeepMind。
自从加入 DeepMind 以后,周浩在那边一齐升至高等主任征询科学家(Senior Staff Research Scientist),这是谷歌征询体系中少许数东谈主能波及的级别。
同期周浩也成为了 Gemini 强化学习与自我立异(RL & Self-Improvement)团队的施展东谈主。
从 Gemini 1.5 到现如今的 Gemini 3 Pro,周浩参与了谷歌旗舰大模子中枢功能的研发责任。
那么周浩能为千问带来什么?
谜底藏在他往日几年在 DeepMind 里作念的事情里。
01 周浩有什么才略?
2023 年,在 Gemini 1.0 的本领讲述中,周浩担任" Gemini App Factuality Co-Lead "(Gemini APP 事实性衔接施展东谈主)这一职位,他的中枢职责是保险 Gemini 面向 C 端用户的输出事实准确性,输出的信息准确、可靠,不会"一册老成地瞎掰八谈"。
说白了即是让模子从后阅览到落地,统统进程里减少幻觉。
一个模子不错在学术 benchmark 上跑出漂亮的分数,但淌若它在回复"今天天气如何样"时诬捏数据,在法律问答时援用不存在的法条,那这个模子即是灾荒。
传统的作念法是过后检测。也即是让模子先生成谜底,然后用另一个系统去给如故生成好的谜底进行考据。
但这种措施资本高、延长大,并且很难覆盖扫数场景。
周浩和团队在 Gemini 上作念的事实性责任,是从模子阅览和强化学习的起源最先。
通过设想挑升的奖励函数和阅览策略,让模子在生成每一个 token 的时候,就内化了"事实准确性"这个敛迹。
这不是浅薄地让模子记取更多常识,而是让模子学会分辩"我知谈的事实"和"我不祥情的计算",在不祥情的时候主动裁减置信度,以致拒却回复,而不是硬着头皮瞎编。
{jz:field.toptypename/}这套事实性保险体系的效果,体现时了 Gemini 的践诺施展上。
本领讲述中指出,Gemini Ultra 在 MMLU(大范围多任务谈话意会)基准测试中得到了 90.04% 的准确率,成为首个超过东谈主类各人水平(89.8%)的 AI 模子。
MMLU 涵盖数学、物理、历史、法律、医学、伦理等 57 个学科范围,是商酌模子常识广度和准确性的泰斗基准。
更攻击的是,本领讲述相当强调 Gemini 模子在事实性关连任务上展现出" exceptionally strong performance on factuality "(在事实性方面施展额外刚劲),这胜仗考据了周浩团队在诓骗层面事实性保险责任的见效。
淌若说在 Gemini 1.0 时期,周浩处分的是"如何让 AI 领略到失实",那么到了 2024 年,周浩动作中枢孝敬者参与的 VideoPrism,它处分的即是"如何让 AI 看懂视频"。
这篇论文实质上是构建了一个视频基础编码器,或者处理从科学视频到监控摄像等各种视频内容。
以前的 AI "看视频",其实是把视频拆成一帧一帧的图片分别看,就像把一部电影剪成几千张截图然后逐张分析。它能认出画面里有什么,但根蒂不懂"前后发生了什么"。
VideoPrism 则是让 AI 意会视频里的时辰流动。比如看一段作念菜视频,它不仅知谈"这是一个厨房、有一个东谈主、有一口锅",还能意会"这个东谈主先切菜、然后热油、然后下锅炒"这个动作序列。
VideoPrism 的中枢念念路是将大范围视频 - 文本对数据与纯视频数据联接,通过两阶段阅览,让模子同期学会语义意会和视觉细节。

第一阶段用对比学习让模子学会匹配视频和文本描画,第二阶段用掩码自编码让模子学会预测视频中被遮掩的部分。
这个设想让 VideoPrism 或者从两种互补的信号中学习。文本描画提供语义信息,视频内容提供视觉动态信息。
在 33 个视频意会基准测试中,VideoPrism 在 31 个上达到了最优性能,并且用的是脱色个冻结模子,险些不需要针对不同任务作念适配。
这个责任被胜仗居品化参预谷歌的多模态体系,是 Gemini 视频意会才略的本领基石之一。
周浩相同亦然 Gemini 3.0 的要害孝敬者(Key Contributor)。在这个模子上,他具体施展的是多武艺强化学习(Multi-step RL),翻译成东谈主话,即是让模子在处分复杂问题时,或者进行多轮念念考、贪图、奉行、反念念的链式推理才略。
Gemini DeepThink(深度念念考模式)和 DeepResearch(深度征询)等功能即是因此而来的。
鄙俗的 AI 回复问题,是"想一步、说一步"。你问它一个复杂问题,它从新到尾生成一遍谜底就罢了,半途不会停驻来质疑我方。
周浩作念的事,是让 AI 学会"连气儿想好几步"。
AI 会先拆解问题、制定计算,然后一步步奉行,每走一步齐回头查验"这步走对了吗?下一步该如何走?"。
这么一来,Gemini 的 DeepResearch 功能就不错帮你自动搜索几十个网页,再概括搜索礼貌,给你写出一份有逻辑的征询讲述。而不是像其他大模子一样,把搜索礼貌连气儿"喷"出来,因为它确凿是在一步风物念念考和贪图。
周浩的征询道路启示有一端倪解的干线。
从最一运行让 AI 我方判辨什么是错的,再让 AI 领略到时辰序列这个抽象认识,终末通过多武艺强化学习让 AI 学会贪图和反念念。
跟着时辰的推移,AI 能意会的事物越来越复杂,也越来越能处分真实的用户需求。
有深嗜的是,这个发展轨迹,正好即是千问接下来要走的路。
02 千问刚刚完成一次本领跃迁
在我看来,周浩的征询地点,与 Qwen 3.5 如故走到的本领节点,酿成了高度精确的"卡槽对接"。
Qwen 3.5 在 2026 年 2 月发布,这是千问系列的最新旗舰版块。它遴选了混杂架构,联接了 Gated DeltaNet 和疏淡混杂各人(MoE)两种本领。
旗舰模子 Qwen3.5-397B-A17B 总参数目为 3970 亿,但每次推理只激活 170 亿参数,这么的设想或者让它在保握高性能的同期,资本裁减了 60%,蒙胧量进步了 8 倍。
虽说 Qwen 3.5 在架构和预阅览上如故作念到了寰宇级水准,开元棋牌app但它的后阅览阶段却不够出色。尤其是如何让模子的确学会推理、反念念、自我纠错,这恰是千问的短板。
早在 2025 年 5 月的 Qwen 3 本领讲述中,Qwen 团队就如故明确暗示,后来阅览阶段的强化学习"聚焦于数学和编程任务",并在瞻望部分坦承"计算增多强化学习算力,相当强调基于环境反应的 agent 强化学习系统"。
这个短板在 benchmark 上看得更明晰。
在多个最能体现深度推理和复杂任务才略的测试中,Qwen 3.5-397B 长期落伍于同期发布的 Gemini 3.1 Pro。
比如在 GPQA Diamond(科学常识推理)上,Gemini 3.1 Pro 得分是 94.3%,Qwen 3.5 只须 88.4%。在 SWE-bench Verified(代码任务)上,Gemini 3.1 Pro 达到 80.6%,Qwen 3.5 则是 76.4%。在 MMLU 系列测试中,Gemini 3.1 Pro 的多谈话版块得分 92.6%,Qwen 3.5 的 MMLU-Pro 是 87.8%。
两者的差距,就汇注在需要多步贪图、用具调用与自我纠错的复杂任务上。
周浩的征询效果刚好能补上了这个缺口。它不需要稀少的东谈主工标注数据,不需要给模子灌注更多常识,就能让模子领略到失实在哪。
并且周浩主导的多武艺强化学习,也弥补了 Qwen 在多步贪图上的不及。
另外,Qwen 3.5 如故具备了 agent 的基础才略。
2026 年 1 月,千问 App 全面接入淘宝、支付宝、高德舆图、飞猪,杀青了"一句话点外卖、订机票、叫出租"。用户不错说"帮我订一张未往来北京的机票,预算 2000 以内,带行李额",系统会自动比价、保举航班、跳转支付、完成出票。

但这些功能还比拟低级,更像是把多个 API 串起来调用,而不是的确的多武艺推理。
淌若航班取消了,AI 能不成我方发现问题并切换决策?淌若用户说"帮我安排一个周末去杭州的行程" , AI 能不成我方拆解成订票、订旅店、贪图道路、保举餐厅这一系列子任务,然后一步步奉行?这些齐需要更强的自我纠错和多武艺贪图才略。
此前在林俊旸的主导下,Qwen 3.5 还杀青了原生多模态。这是一种从预阅览阶段运行,就把文本、图像、视频 token 混在通盘进行阅览的模式。
它能处理最高 1344x1344 分辨率的图片,以及 60 秒的视频片断。
这套架构和周浩在 VideoPrism 上作念的事情高度一致,他们齐是通过早期交融让模子同期学会语义意会和视觉细节。周浩对这套措施论的深度意会,有望匡助千问在视频时序推理、动作意会等维度上杀青进一步冲突。
林俊旸期间,千问团队的中枢竞争力不仅仅本领,更是组织样子。预阅览、后阅览、多模态、基础设施全部在一个团队里面闭环,疏浚链路极短,一个本领判断不错本日落地实验。
但这种"一个东谈主的大脑"式的经管样子,在团队范围扩大到几百东谈主之后,运行出现瓶颈。
阿里启动了官方架构调遣,将原来闭环的团队拆分为预阅览、后阅览、文本、多模态等多个平行的水平单干模块,胜仗狡赖了原来的垂直整合模式。
团队的考核逻辑也因此发生鬈曲,中枢 KPI 从原来的模子性能、榜单名次、开源影响力,转向了模子对集团业务的提效效果、千问 App 的用户增长、买卖化 ROI。
周浩要接的,即是这么一个摊子。
本领上如故走到寰宇前哨,但有昭彰短板;组织上从"征询优先"变成了"计算驱动";策略上从开源模子转向 C 端超等进口,从本领品牌转向生涯助手。
03 千问的畴昔是?
虽然,千问团队持久处于"算力饥渴"情景。吴泳铭也在里面会议上公开谈歉,说"莫得更早知谈资源的问题"。
但这仅仅里面矛盾的一面,的确决定此次东谈主事变动的,是它发生的时辰节点。
如今的千问正处于策略大调遣,因此,底层模子的性能至关攻击。
2025 年 11 月,阿里将"通义" App 改名为"千问",吴泳铭切身拍板,并在财报分析师电话会上明确表态:"阿里巴巴必须要有一个 AI 原生的 C 端超等进口。"
3 月 2 日,就在林俊旸发一又友圈告别的前一天,千问 AI 眼镜在 MWC 巴塞罗那民众首秀,并于本日开启民众预约。
阿里里面东谈主士清楚,除 AI 眼镜以外,千问还会在年内赓续发布 AI 指环、AI 耳机等居品,全部面向民众市集发售。
"帮你功绩"和"陪你聊天",是统统不同的两件事,对模子来说亦然如斯。
帮用户订一张机票,听起来浅薄,践诺上需要模子完成一系列连贯动作:意会用户意图→调用高德 / 飞猪 API →处理复返礼貌→识别额外(比如航班取消)→主动忽视备选决策→恭候用户说明→完成支付。
任何一个要津出错,用户体验就会坍弛。
这不是一个聊天机器东谈主能作念到的,是以千问 App 会从"对话框居品"变成"任务完成居品"。
现时通达千问 App,中枢交互如故一个聊天框。但有了周浩的多武艺强化学习加握之后,不错预期千问会慢慢把"功绩"才略作念成寂然的居品模块。
不是你问它"帮我订机票",而是它主动在你说"未来要去北京开会"的时候,自动识别出这是一个需要订票、叫车、指示的复合任务,并一步步帮你完成,半途遭受航班取消还能我方切换决策。
这个居品口头,更接近一个" AI 通知"。
阿里的上风就在于产业链无缺,不错无缝接入各式阿里系生涯、购物居品,这亦然 Gemini 和 ChatGPT 现时齐还莫得作念到的。
同期我还以为,千问眼镜会成为一种具多情境感知才略的 AI 助手。
现时市面上大多量 AI 眼镜的中枢才略是"你问我答",实质上是把手机语音助手搬到了脸上。
千问眼镜淌若能把 VideoPrism 的视频时序意会才略的确落地,居品体验会有质的不同。
它不需要你启齿问,就能意会你正在作念什么、下一步可能需要什么。你走进超市,它知谈你在看货架。你在餐厅游移,它知谈你在对比菜单。
这种"主动感知、预判需求"的体验,才是 AI 眼镜相干于手机的确的各别化价值。
林俊旸把千问作念成了一个让民众竖立者尊敬的本领品牌,那么周浩的任务,即是让千问的确信得过,不仅仅贤人,还要稳、准、能把事办完。