在中文问答语料最为丰富的社区知乎,有一个越来越重要的角色,它有一点那么不请自来,但是确实在意料之中。


(相关资料图)

这个角色就是AI。

在日前举办的“2023知乎发现大会”现场,知乎创始人、董事长兼CEO周源与知乎合伙人、CTO李大海,共同宣布了知乎与面壁智能在AI大模型上的最新合作与应用,正式发布了“知海图AI”中文大模型。

这是知乎首个大语言模型,应用至知乎热榜。它以“热榜摘要”的形式呈现,利用其语言理解能力,对知乎热榜上的问题回答进行抓取、整理和聚合,并把回答梗概展现给用户,给大家直观清晰的回答,目前已经开启内测。

面壁智能联合创始人、CTO曾国洋在大会演讲中表示,经过测试,在知乎热榜的应用场景下,知乎与面壁合作自研的大模型与GPT-4相比,达到了持平的效果。未来,“知海图AI”的能力还将逐步应用在对创作的赋能、对讨论场的赋能和对信息获取的赋能。

面壁智能联合创始人、CTO曾国洋

知乎为何要做大模型?

ChatGPT一夜之间全球爆火,让AIGC成为一种潮流,围绕着人工智能的话题,再度成为大众的讨论的焦点。

从移动互联网时代行至 AI 时代,知乎以问答形式为主,搭建了一个专业、多元、有价值的“讨论场”。

之所以决心下场参与大模型领域,周源告诉钛媒体APP,公司在做业务时,首先应该思考自己的价值,能够给用户提供的价值,以及自己的定位是什么,在这个基础上,再与商业社会产生一个交集。

知乎本身是一个场景,场景代表的是用户需求。在周源看来,知乎最核心场景是“讨论”:用户通过“讨论”的方式,去交换信息,分享知识、经验和见解。

讨论也会形成一些目前用户熟悉的功能。比如说,内容热度由讨论而产生,最后聚集在某个地方,又有更多的用户看到它。这其中,AI可以自动生成“热榜摘要”的场景和功能,以提升用户体验。

事实上,早在十年前,知乎有一个产品功能是“回答总结”,类似于现在与面壁智能合作的“热榜摘要”。当时,知乎将此项功能开放给了所有用户,用户可以像维基百科那样编辑,把大家所有的回答做一个总结。

但后来,周源发现,这个事情太困难了。因为回答数量多了以后,人工编辑的成本非常高,而且实现的效果并不好。现在,有了AI的方式,当用户想要加入一个讨论时,可以通过“热榜摘要”迅速地了解某个事件的梗概,然后,再去阅读所有的讨论中,他认为相对有价值的内容。

找到自己想要的解答,这就意味着,可以收获到知乎所倡导的“获得感”,因为获得感也是因人而异的。

周源认为,在一个技术快速迭代的时代,反而更应该关注人,关注那些独特的个体,关注他们是否会因此而受益。

人才储备是入局大模型另一个重要的入场券。李大海对钛媒体APP说,大模型本身不是横空出世,忽然蹦出来的,而是在这之前,有非常多技术累积,这个过程并没有那么突兀。所以,知乎的工程师也可以迅速地去学习、消化、吸收,变成大模型领域的开发者、从业者。

知乎合伙人、CTO李大海

李大海认为,在这方面,人类工程师都是非常聪明的。事实证明,知乎与面壁智能只花了一个多月的时间,就做出了非常多肉眼可见、很可喜的进展。也可以说,知乎在大模型上的人才储备是足够的。

知乎已经有了一个完整的算法中台来支撑整个公司的业务,知乎也早已经成为了一个技术驱动型的公司。并且,他们很早就提出了“智能社区”的概念,将AI应用在了社区内容的生产、流通、消费和治理等环节。

邀请AI加入“讨论场”,在周源看来,AI时代的生产力要素,可以从上至下分为三层:应用场景、专有数据、基础模型。

在基础模型层,以GPT为代表的大模型迭代速度非常快,性能不断地提升,同时,其成本也在不断下降。今天中国的AI生态才刚刚起步,对于中国的公司来说,可以先在应用层和数据层两方面夯实独特的优势,同时,也要在基础模型层去成为新生产力的开发者。

知乎基于问答的讨论场是天然的应用层场景,并且每天都有不断新增的优质内容,用户和用户之间,用户和内容之间进行的互动,构成了独一无二的专有数据。

“知海图AI”怎么炼成的?

以Chat-GPT为代表的大语言模型给世界带来了惊喜,但落地至中文互联网,大家发现,主流的大模型英文语言能力往往比中文语言能力更好、更快。

李大海对钛媒体APP表示,这其中主要有两个原因:第一,中文确实比英文要更复杂;第二,开放的英文语料相对于开放的中文语料来说质量更高,内容也更多。这也就意味着,开放的英文语料里面蕴含的知识更多,更容易被大模型学到。

这两个技术问题是客观存在的。中文的问题,中国的科技公司应该更有能力去解决。知乎拥有整个中文互联网最优质的讨论和回答。

数据显示,2022年第四季度月平均订阅会员数达到1300万,同比增长112.5%,2022年的平均MAU(月活用户)达到1.01亿。成立十年以来,知乎已经积累了超过4400万个问题和2.4亿个回答。

之所以选择与面壁智能合作,李大海坦言,除了公司开发模型强大之外,也看中了其背后,清华大学计算机自然语言处理和社会人文计算实验室在中文大语言模型领域有很深的积累。

从2020年开始,面壁智能就发布了全中文互联网首个中文大语言模型CPM-1,在后续的三年,又陆续发布了CPM-2,CPM-3和CPM-Ant等多个开源的模型,这些模型都可以在网上免费获得。

它们最新的大语言模型CPM-Bee,是李大海他们发现的最好的中文大语言模型之一。知乎还投资了面壁智能,很快,双方团队展开了大语言模型的深度共建的过程。

在研发业务中,双方团队利用了CPM大模型强大的内容理解能力,对知乎热榜问题中所有的回答进行要素抽取、观点梳理和内容聚合,最终在问题页面下,将知友们的所有回答的梗概呈现给用户,让大家能更快、更全面地了解热门讨论的热点与焦点,更好的参与到讨论中来。

不过,在开展工作的过程中,团队也面临一些困难。比如说,作为一个非常开放的社区,知乎用户的创造力、表达力很强,很多有趣的、专业的回答,即便是知乎资深的运营人员,也要花很长时间才能准确无误地梳理出核心观点。

而在调教大模型的过程中,在热榜问题下,需要把所有知友的回答观点抽取聚合。在这个具体场景里会涉及到难点是,一方面,对和问题相关的知友观点的抽取是否准确,另一方面,这些观点抽取以后聚合是否合适。而且,在知乎的答主的产出的内容千奇百怪,甚至有时候会有其他的观点呈现,而这个观点跟提问没有关系。

这些因素都训练整个大模型产生了很大的挑战。曾国洋对钛媒体APP说,团队做了很多的工作,花了不少的时间来调教大模型,让它在算法工程师的陪伴下,阅读了大量知乎中的优秀回答,最终才取得了不错的成果。

最近一个令他们欣喜的成绩是,在知乎特定的场景内,开发者选取了41个热门的话题,将“知海图AI”与OpenAI最新的GPT-4进行了一个横向对比,结果发现,目前知乎的大模型已经达到了和GPT-4持平的效果。

以AI辅助创作

在AIGC蓬勃发展的趋势之下,一个值得思考的问题在于,作为一个以人的问答交互为核心的社区,知乎在引入AI之后,是否会对原来的真人创作内容以及创作者形成冲击?而此前知乎上“抖机灵”式特色回答又是否会消失?

针对这一议题,周源对钛媒体APP表示,社区一定是人为本,知乎本质是人与人之间的讨论和分享,它的起点是人,它的终点也是人。但是AI不是人,而是一个环节,AI服务的对象主体是人,人是知乎社区里面的每一份子。

AI可以帮助社区中的创作者,提升他们的创造力,提升效率和质量,从而能够让更多的社区用户能够获得帮助,开阔眼界,产生共鸣,而这恰恰也是知乎提倡的“获得感”的内容价值观。

这是知乎一个非常重要的原则,他们也正按照这样的方式,在考虑产品迭代优化上,始终考虑最后的价值点落在哪里。只要清楚地坚持这个原因,AI创作与人类创作,并不会产生真正的冲突。

在周源看来,虽然不是所有人都有需求去写一篇图文并茂的文章,但有这个需求的人,一定会希望以更高效的方式,去产生出更好的内容。某种意义上来说,知乎的专业用户聚集度较高,他们会研究怎么用AI生成的图片,或者用大模型生成一段文字。

所以,知乎在今年初还上线了AI辅助创作的功能,其核心是想表达,用这样的工具创作,是没有问题的,因为这是一个大趋势。

在此次大会发布的“海盐计划5.0”中,知乎锚定职人创作者群体提升权重,最高可获得5倍流量及涨粉加权,并配合多渠道助力职人创作者变现。

作为有专业的教育背景以及专业的职业身份,精通某项领域某种技能的群体,目前我国潜在的职人群体超过3亿,这些职人群体与知乎的用户群体高度吻合,他们很多都是活跃在一二线城市的职业工作者,在工作领域和兴趣爱好方面有着丰富的经验。

周源相信,每个人都有专业的一面。因为非常坚定定位,才能明确地把价值做深。从去年增长快速的会员业务(会员其实是从社区平台上再长出来比较深入的业务),以及围绕职业人群“职人”开展的职业教育业务,都是围绕社区把内容链做得更深、做得更坚实的过程。

社区以人为先,这是知乎在12年前出发点,现在,知乎有机会在技术助力之下,把这件事情做得更好。从去年开始,知乎开始深耕“生态第一”战略后,社区的数据增长,包括用户的留存、市场拓展,创作者数量和品类,这都来自于知乎非常清楚地坚守了自己的定位:专业讨论。

至于AI会如何识别文本是一本正经的专业讨论,还是属于抖机灵式回答,曾国洋对钛媒体APP说,“大家不要太小看大模型的能力。人能知道它在抖机灵,大模型也知道。”

推荐内容