机器新闻写作:一场正在发生的革命

作 者:

作者简介:
金兼斌,清华大学新闻与传播学院教授

原文出处:
新闻与写作

内容提要:

聚焦于新闻内容生产的自动化趋势,即基于算法的新闻内容生产和编辑、出版。通过追溯谷歌新闻开启的机器自动选编和推荐新闻的做法,重点介绍了机器新闻目前的发展现状、工作原理和应用前景,并探讨了新闻生产自动化对新闻业、新闻学科以及新闻从业人员的素养要求带来的深远影响。


期刊代号:G6
分类名称:新闻与传播
复印期号:2014 年 12 期

字号:

       [中图分类号]G20 [文献标识码]A

       对于不断追求创新和效率的人类而言,内容生产行业无论是出版、报业,还是影视和新闻网站中的内容提供的自动化,并不仅仅是梦想而已。虽然包括文字、音频、视频、动画等多种媒体为载体的内容的生产,不同于衣物鞋帽和各类机电产品的生产,但在后者早已实现大批量自动化生产的今天,在各类自动化手段,从设计、生产到质量检测的各个工艺环节普遍应用的今天,内容生产是否具有机器不可替代的独特性,是值得存疑的。在传统蓝领工种所从事的工作大量被“自动化”后,传统白领工种所从事的工作,很多方面也在逐渐被“自动化”。事实上,从“内容创作”到“内容生产”,这种措辞上的改变,已经传递出某种让“写作”走下神坛的意味。

       一、新闻的自动选编

       就新闻行业的这种自动化浪潮而言,影响最大的早期实践大概要算“Google News”了①。2001年,Google当时的首席科学家克里希纳-巴拉特开发出一个与Google搜索核心技术PageRank算法相关的算法StoryRank,可用于新闻的推荐排序,此即“Google News”的前身。“Google News”在不同的国家和地区提供不同的版本,其本质上是一款Web新闻聚合器,其首页更新和新闻推荐都不依赖于人工操作,而是由后台的聚合算法实现。时至今日,在中文“Google新闻”页面的下方,仍有“所有新闻的选择、排序、分类和搜索均由电脑程序自动决定”的说明。而在其“关于Google新闻”说明中②,有以下3段意味深长的话:

       Google新闻是一个由计算机生成的新闻网站。它汇集了来自中国大陆超过1000多个中文新闻源的新闻资源,并将相似的报道组合在一起,根据读者的个人喜好进行显示。

       一直以来,新闻读者都是先挑选一种出版物,然后再寻找所关注的标题。为了向读者提供更加个性化的选项以及更加多样化的视点供其选择,我们采取的方式略有不同。在Google新闻中,我们为每项报道提供了指向多篇文章的链接,因此您可以先确定感兴趣的主题,然后再选择要阅读每项报道的具体发布者的网页。点击您感兴趣的标题,然后您就可以直接进入发布该报道的网站。

       我们的文章是由计算机进行选择和排名的,它们会评估某项报道在线显示的频率和所显示的网站及其他因素。因此,对于任何给定的报道都有多样化的视点供您选择。我们将继续添加新闻来源,优化技术,不断改进Google新闻,并努力向更多地区的读者提供这一产品。

       显然,Google新闻所开创的是新闻的机器选编,还不是本文所要着重探讨的新闻的机器写作。但写作和编辑同为新闻内容生产的两个关键环节。在上述“Google新闻”的自动选编推荐中,关键是以下几点:

       1.新闻来源:来自我国大陆1000多个中文新闻源。新闻来源的选择和把关,在很大程度上决定了聚合推荐的新闻的丰富和多样性程度;这实际上是“Google新闻”选择和推荐的样本框,决定了哪些新闻有机会被推荐。

       2.推荐逻辑:即其算法(algorithm)。值得指出的是,StoryRank和PageRank类似,其对一篇报道的推荐和选择,并不是仅仅通过分析报道本身的内容,而是着重分析报道在网上的受关注程度:被哪些网站发布、转发的多少和频率、在网站的什么位置发布等,以此来“计算”有关新闻的价值或重要程度。

       3.推荐而不提供:从新闻作品版权等角度考虑,“Google新闻”只是提供各种新闻不同的新闻来源,有点“述而不作”的味道,具体的新闻则仍需要到各来源网站去阅读。Google新闻的这一做法最大限度地让它避免了各种版权纠纷,换言之,它把自己定位为自己所定义的众多新闻源的精华索引页。

       作为机器编辑肇始的“Google News”,其所开创的基于所选择的样本框进行新闻自动选择和推荐、排序的方法,对各大新闻网站、新闻门户和其他搜索引擎带来了很大的冲击和影响,包括百度新闻等跟风者不少。值得指出的是,在“Google News”最初推出之时,还是Web1.0时代。10年过去,互联网特别是移动互联的发展,使得新闻生产和消费的格局又有了很大的变化。这其中最大的变化就是社会化媒体的兴起,以及基于消费端的用户偏好,被纳入到新闻推荐的算法考虑中,从而可以为用户推荐更加个性化、定制化、动态化的新闻产品和内容。事实上,以“今日头条”等为代表的新闻客户端,都是当初“Google News”所开创的机器新闻编辑产品的变种和升级。

       无论是“Google News”也好,“今日头条”也好,这类产品的出现和风行,揭示了这样一种趋势,即机器学习、深度学习正在改变包括新闻生产在内的诸多之前依赖人力、脑力密集的产业和行业的生态和业态。从工业革命开始,人类的自动化梦想就一直在加速膨胀,试图在一切有可能把人力解放出来的领域,代之以无论是硬件还是软件意义上的“机器”的协助甚至完全自动化。一些前沿创新公司,如Google和百度,都在不约而同地研究无人或者自动驾驶汽车③;而在自然语言处理、自动翻译等领域,近年来所取得的进展也是令人侧目的。Google的自动翻译近年来在准确性方面有很大提升,相信随着其每时每刻的海量语料的学习,辅之以群智形式的修正反馈④,其翻译的水平终将接近或达到专业同步翻译的水准。而百度则在2012年启动了其深度学习研究工作,并于2013年成立深度学习研究院,在2014年聘请人工智能领域的顶级学者吴恩达担任公司首席科学家,负责百度研究院尤其是其“百度大脑”计划。2013年底,百度创始人李彦宏出现在江苏卫视《最强大脑》第一期现场,并对此节目有自己的关注点:“《最强大脑》讲的是人脑,我想的是电脑能不能做。如果你能做到的事情,我通过研究后用电脑也能做到,甚至做得更好,那不是很有意义的一件事吗?”⑤可以预见,在不远的将来,一台连接到特定云端支持网络如百度大脑系统的计算机,在包括人际互动、问题解答等方面达到与“人”几乎一致,并不是不可能的。2014年6月8日,一台计算机成功让人类相信它是一个13岁的男孩,成为有史以来首台通过图灵测试⑥的计算机。这被认为是人工智能发展的一个里程碑事件,也进一步验证了图灵的信念,即假以时日,在一定程度上机器是可以有人一样的智能和思维的。

相关文章: