谁也没想到,金山办公居然是国内第一个将大语言模型(LLM)应用在办公软件领域,并真正交付了可用产品的公司。
毕竟,比起全方位集成 ChatGPT 的微软 Office,以及宣称开发出自己的类似微软 " 智能办公副驾 "Copilot 功能的钉钉和飞书,金山办公并不是一个通常处在风口上和聚光灯下的玩家,它看上去有些另类,安静不聒噪。但是,人们不能忽略的是:金山办公的 WPS 是国内市场份额最高的办公软件产品,迄今已经有 35 年的历史。
(资料图)
毫无疑问,一款 35 年的办公软件要完成一次基于大语言模型的人工智能革命,是一个充满挑战的、困难的,但又波澜壮阔的历程。毕竟,我们都清楚一件事情——任何一家传统业务做得越深越强的公司,要实现迅速转向并非一件易事。
目前,金山办公这个基于大语言模型的人工智能应用,被称作 WPS AI,已经展现了类 Notion AI 的能力。
WPS AI 确定的三个战略方向分别是:让 AIGC 辅助用户生产更优质的文章;让阅读理解为用户提供个性化知识库检索和信息生成;以及通过人机交互,让办公软件可以 " 听懂 " 用户的任意需求,完成自动操作。值得一提的是,至少在目前,金山办公没有独立研发大语言模型,它选择当 " 甲方 ",使用大语言模型开发方如百度、MiniMax,开发自己的 WPS AI。在众声喧哗的 " 百模大战 " 之侧,它显得多少有些另类。
不仅如此,在与金山办公 CEO 章庆元的访谈中,品玩听到了诸多 " 另类 " 的," 反传统思维 " 的观点。
比如,章庆元认为,跟大语言模型聊天的场景,就像是移动互联网早期的汤姆猫和愤怒的小鸟,或者是水果忍者,是非常初级的应用,未来大语言模型的核心场景,肯定不在聊天上。
比如,章庆元相信,大语言模型开发和实现的算力成本,未来会出现明显的下降,现在拼命砸钱 " 烧显卡 " 的现象会被终结。
比如,章庆元预估,大概再过一年,人们就可以用 "100 块钱一个月请一个全能 Office 助手 " 的方式,实现对办公软件全新的掌控,任何复杂的表单、表格和计算等工具栏都会从办公软件上消失,用 " 订阅 " 的方式根本改变办公软件的商业模式。
这些 " 反传统思维 " 的办公软件变革思路,正在很大程度上决定着中国最老牌的办公软件未来的走向。
就像五年前人们还不相信微软会在人工智能的 " 圣杯之战 " 中彻底翻盘取得对 Google 的优势地位那样,对同样老牌、脱胎于桌面办公软件时代的金山办公,我们也需要有一些 " 反传统思维 " 的期待。
以下是品玩与金山办公 CEO章庆元的对话实录:对话人:骆轶航 申远
受访人:章庆元
问答部分经过整理编辑
我们过去解决的问题,现在看来索然无味
品玩:一开始看到 GPT,您的第一个想法是什么?
章庆元:这个世界变了。用了一下之后我就感觉,人类好像要被颠覆了(笑)。因为我是程序员出身的,我发现它会自己写代码,这是一件很震撼的事情。
品玩:什么时候决定在 WPS 里面集成大模型。
章庆元:春节过后我们就开始折腾了。
品玩:但那个时候感觉很多人都还没理解发生了什么。
章庆元:在我看来大模型对软件业是一个完全的颠覆性改变。今天我回头去看,我们过去解决的东西可以说索然无味。比如过去我们一个团队干一个季度,就是为了把打印预览给改个版。大模型出现后,这些东西都没有任何意义了,现在团队所要做的不是自己闭门造车想用户的需求,而是如何把软件本身和 AI 能力做结合,大模型变成了统一的解决方案。
品玩:就办公软件这个赛道来说,大模型的革命性体现在哪儿,它能做什么?章庆元:Office 类软件为什么做的这么复杂、这么难用?我做了 20 年办公软件,我一直都觉得办公软件非常难用。为什么呢,因为用户的需求太多了、太复杂了,所以我们的单元格属性、文字、字体、排版,它们统统都集成了太多的功能,WPS 的 API 接口就有几千个,一方面这说明了我们的功能强大,但另一方面这也让普通用户上手非常困难,谁没事去翻底层那么多的功能怎么用啊?我们很多功能,用户根本都不知道有这个功能。
但大模型出来之后,这些复杂功能都变成了 API 的一个调用。用户只需要和它对话就能实现任意功能,也就是说,用户的需求直达我们产品功能的底层,这是革命性的。
品玩:所以办公软件是最适合被大模型革命的?
章庆元:美图秀秀和 Photoshop 两个东西我们都很熟悉,不考虑价格,在大模型价值上你觉得它们谁更优秀?我认为是 Photoshop。因为过去它太复杂了,它是个专业软件,一般人根本上手不了,而美图秀秀非常简洁。但有了大模型一切都变了,用户只需要问问题就行,有了思维链能力的大模型,能够针对性解答问题,再把解答编写成脚本来调用对应的 API,这会让包括 Photoshop 在内的所有复杂软件都变得非常简单易用。
所以大模型对效率的提升并不局限在办公领域。只要软件底层能力足够强大,软件的复杂度对用户来说不再是问题,这对任何软件来说都适用。
品玩:一个人自己在一个办公文档上做复杂的操作,变成用一个对话机器人来进行操作,这还是同一个产品吗,文档的界面是不是跟过去长的都不一样了?
章庆元:文档产品本质还是用来表达思想的,这些需求永远不会消失。所以未来的软件应该既有输入界面,也有和大模型的交互界面,它们是并存的,只是软件本身变得非常简洁,你看微软的 Copilot 视频,它的工具栏只有短短一行。
大模型的出现会让很多东西消失,比如 BI 直接就给干掉了。大模型加电子表格就是一个最好的低代码平台,你需要什么就对大模型说,它直接就帮你做出来了。
品玩:过去几年,关于 " 怎么办公 " 的话语权很大程度上被钉钉和飞书垄断了。现在大模型的出现,是不是意味着这个赛道出现了全新的机会?更直接点说,是不是对金山办公是个新的机会?章庆元:我们倒没想着要颠覆谁,我们只是觉得这玩意对我们来说是一个从燃油车升级到电车,甚至是比这个还大的一个升级。
WPS 所谓的办公软件更多是从微软 office 这个传统层面上讲的,钉钉飞书包括企业微信,单就文档能力来说,我们有自己的优势。大模型确实会带来重新洗牌的机会,但对我们来说,首要考虑的是如何升级我们自己的产品,这就回到了文档产品表达思想的本质。
我们公司的使命是 " 简单创作、轻松表达、实现价值的连接 "。有时对用户来说,从一张白纸开始画画是很难的,但如果给你一个填色卡,那我相信谁都可以画出一幅很棒的画来,所以我们过去推出了模板商店稻壳,现在又在轻文档上集成了 AIGC(人工智能生成内容——编者注)的能力,它和 Notion AI 一样可以帮你起草、润色、修改文章,其实等于是用大模型搭框架帮助你去表达。
你放心,将来再也不会有人看类似《21 天 Word 从入门到精通》这样的书了,因为大模型解放了人表达和创造的能力。
品玩:WPS AI 要做的三个方向:AIGC、阅读理解和人机交互,它们的关系是什么?有没有哪一个是真正在人工智能时代有决定性影响的?
章庆元:最重要的应该是后面两个,阅读理解和人机交互。AIGC 我认为是比较简单的。
我们的轻文档已经用上了 AIGC 的能力。我觉得用户在创作和表达的时候,AIGC 赋能的过程其实只占一小步,它现在的作用其实和模板商店差不多,只不过大模型会自动把内容填进模板里而已。最重要的还是后面两个。
首先是阅读理解,或者说内容分析,那就是构建用户的知识库。我们有 2000 多亿个文档储存在云上,在大模型出现前这些数据都是死的,大模型相当于给每个用户提供了一个私人 New Bing(微软的搜索引擎——编者注),它能理解你沉淀的个人文档数据。举个例子,比如我是公司老板,我想要知道过去几天我们公司软件的卸载率是多少,不需要再让下属加班整理资料了,直接问大模型,它就会自动生成出来。
大模型不是仅仅提取我的内容,而是理解并从中分析出新的知识和信息来,这对效率的提升是巨大的,过去企业很痛苦的一件事情,就是如何处理非结构化数据,现在靠大模型就能解决了。
品玩:它会从根本上改变 WPS 的商业模式么?章庆元:这个能力想象空间就非常大了。人机交互也就是微软的 Copilot 能力,这个很好理解,它对用户的影响,包括对我们商业模式的影响将是非常巨大的。我问你,你愿不愿意一个月花 100 块钱请一个 7x24 小时随时在线,速度飞快不出错的 Office 高手来帮你工作?它不仅懂你说什么,而且对软件的所有复杂功能了如指掌,你愿不愿意用?
答案是显而易见的,我们未来的商业模式可能就建立在这个基础上。
品玩:那这几个战略方向有具体的时间表吗?
章庆元:未来几个月内,我们的产品上就会逐渐上线这些功能,当然国内和海外版有所区别。因为海外版可以直接使用 OpenAI 的接口,这样在人机交互方面表现可能会更好一些。而国内在知识库构建上可能会更快一点,因为海外大家基本上不做什么私有化部署。总的来说,我们的节奏应该比微软快很多。
我们的定位是做一个好甲方。
品玩:为什么金山办公没有自己做大模型?
章庆元:举个例子,现在国内就连大厂都很难搞到足够的 GPU,另外一个是成本,现在的算力成本还是非常高的,说实话,你真要指望靠自研大模型商业化,那现阶段基本上肯定是亏的。
金山办公做人工智能很多年了,不是因为有了 ChatGPT 才瞄准这个赛道的。这也是我们为什么能这么快推出 WPS AI 的原因。当我们回顾更早期人工智能发展就会发现,算力成本过一段时间后就会大幅下降,所以何必现在这个时候花很大的代价去抢卡呢?
品玩:但其实现在依然有很多创业公司在做大模型啊?
章庆元:我们现在回头看,早年我们做一个 CV(计算机视觉——编者注)模型都很难的。但过几年后你就发现算力的成本大幅下降了。现在我们有自己的 CV 模型,就是做文档扫描这种工作,效果我说实话我们内部测评应该是行业里面最好的。因为我们现在做其实成本很低,要是三年前做的话成本是非常非常高的。
成本居高不下,效率就会很低,除了算力,在人才储备上现在也不是个好的时间点,但 " 百模大战 " 之后市场环境可能大不一样,那个时候不管是投资也好,甚至直接去收一支团队,都会是个更好的选择。
品玩:金山办公为什么选择跟 MiniMax 合作做大模型的应用?章庆元:其实我们每一家都接触了,但大家做得有快有慢,MiniMax 在大模型领域投入比较早,它们是有现成的模型可以用的,以及非常重要的一点,出于合规、监管等方面的考虑,我们的大模型必须能够实现私有化部署,像 MiniMax 本身就是做 to B 服务的,因此在私有化、包括个性需求方面能够比较好满足我们的要求。
特别要说的是,其实我们自己的整体大模型策略不是只用一家的产品,也不是只用一个模型。实际上像百度这样大厂的大模型在通用能力上,比如翻译、润色文章或者写一首诗上肯定是有优势的,所以未来我们会根据不同的场景做一系列模型。
品玩:比如自己做个中模型或者小模型?
章庆元:这就像医院的分诊台一样,需求来了,思维链做的特别好的大模型就可以用来对标开发微软 Copilot 的人机交互功能;需要通用能力的地方,比如写首诗、写个提纲之类的,我们会接入大厂大模型;而对文档内容的抽取,则会利用 MiniMax 给我们提供的能够私有化部署的大模型。
这样不仅能更好地充分利用不同大模型之间的能力,而且从成本角度讲也是合算的。比如 Copilot,它本身对思维链的要求很高,一定要有专用模型,如果用大模型从头去做的话成本哪怕一年、两年之后都太贵了。
品玩:所以金山办公还是总有一天会做自己的大模型的?
章庆元:我们称之为 " 自主可控大模型 ",这当然是一定的。但自主可控有很多方式,自研是一种,外部提供的专门定制优化的大模型同样也可以称之为自主可控。
其实大家都很愿意和金山办公合作,因为办公是一个很重要的场景,而金山办公在中国是绝对的第一,所以我为什么不选择当一个很好的甲方而非要自己去做一个未必有很好效果又很费钱的大模型呢?
现在的大模型应用还处在 " 汤姆猫 " 和 " 愤怒的小鸟 " 阶段
品玩:前面说的那种花 100 块钱就能请一个全天候 Office 助手这么好的事,金山办公需要花多久实现?
章庆元:可能要久一点,还得一年吧。
品玩:这中间还需要几个产品化的升级步骤?
章庆元:就差一个吧,就是国内的大模型有了很好的 Codex 能力(Codex 是一种预先训练过的、基于转换的编码器 - 解码器模型,它可以学习自然语言和编程语言之间的代表性上下文,进而做出合理的答复——编者注)
品玩:那您怎么看美国的 Notion AI,它是完全长在 ChatGPT 上的,它是金山办公的对标么?
章庆元:NotionAI 和我们的轻文档做的东西差不多,但是 WPS 的底层能力比它强多了。这其实回到了我们最开始谈到的 AIGC 问题,用户并不需要你每天帮它生成五个提纲,这不是最常见的场景。我自己觉得,现在跟 10 来年前移动互联网刚开始的时候很像,那时候大家在做什么?汤姆猫、愤怒的小鸟和忍者切水果。
我认为大模型应用发展同样处于这个汤姆猫的阶段,未来一两年应该有很多新的应用场景出现。
品玩:那在您看来实现大模型应用发展的突破,告别汤姆猫,需要什么条件?
章庆元:第一是你的工程能力,因为它决定了你对 GPU 利用效率的高低。训练大模型说实话,算法大家用的都是同一套,关键看如何发挥 GPU 的能力,上万张卡啊,那么庞大的集群没有出色的工程能力,算力是没法很好发挥的。
第二点很重要,你是不是上辈子做了一些好事,运气特别好?(大笑)因为今天为止没有任何一个人能说清楚我训练出来的东西为什么就是这样的。所以现在 " 百模大战 " 也是个好事,混战之下说不定就训练出来几个智商特别高的大模型出来,是有这个可能的。我觉得中国的 AI 应用最后会跑在美国前面。
品玩:您说金山办公要有 " 自主可控的大模型 ",这对中国的办公软件事业有什么意义?
章庆元:意义当然很大。因为 WPS 在自主可控上已经做了很多年了,我从 2001 年开始就在做相关的事了,大模型加进来后,对中国自己产品的竞争力一定是个比较大的帮助,想要做最懂 Office 的大模型,需要我们和模型方一起联合开发,这区别于通用大模型的能力。