个性化新闻资讯推送服务当前算法的局限及其改进

2017-09-25 17:27:07 来源：人民网-传媒频道作者：宋建武

近日，人民网连续刊载了三篇评论，对个性化新闻资讯推送服务中出现的乱象，做了切中时弊的分析。这三篇文章，引导我们对算法技术的本质特征，及其对传播方式的影响，做出冷静而深入的思考。

通过研究以今日头条为代表的“个性化资讯分发平台”，我们得出了一些关于现有算法的局限及其改进方法的认识和判断。

其一，内容杂芜。资讯平台为最大规模地占有内容资源，在发展的特定阶段，往往不加甄别地扩充所谓“自媒体”的内容，以致于内容数据库中鱼目混珠，虚假和低俗信息乘虚而入。平台上大量低品质内容的供给，大规模地“创造”着对低俗内容的需求。而资讯平台对此缺少管理手段，有些平台甚至在主观上还企图借此提高“流量”和“用户数”。

其二，算法单一。目前的各类“个性化资讯分发平台”，基本上都是根据用户信息点击的历史数据判断其信息偏好，据此推送更多同类内容。点击量高的内容和内容类别会作为初始设定，被推给更多用户。考虑到用户使用移动终端的场景近乎个人独处，具有私密化特征，此种状态下表现出来的信息需求，常常会对猎奇和低俗内容较为敏感，这类低质量信息往往点击量较高。

其三，取值偏差。资讯分发平台把对特定资讯的个人点击量和整体点击量（即所谓热度）作为算法的主要甚至是唯一取值标准，使之成为机器通过算法进行推送的依据。而客观全面地分析“热度”，我们发现，这个指标更多地反映了用户对于特定信息感兴趣的程度，可以映射新闻信息的“趣味性”，但无法反映特定信息对于用户个人和社会的选择和决策行为的真正价值，即新闻信息的“重要性”。反映在平台运营方的观念上，就是他们误把用户对特定信息的“关注度”，当成了“重要性”。殊不知，从新闻信息本身的特性看，这种“关注度”，在移动终端上，往往体现的是用户对特定信息的“兴趣度”，而不是信息本身的“重要性”。

尽管基于海量信息聚合并以算法驱动精准分发的个性化资讯服务存在这些局限，而且商业性质的资讯平台还容易受到逐利动机的影响，从而加剧这些问题。但不可否认的是，算法技术推动了信息传播方式的显著进步。

在移动互联网时代，移动新闻客户端成为公众接收新闻信息的主要渠道。移动终端的个人化特点增强了个性化的信息需求，其便携性促进了场景化的信息使用，而信息交互让用户成为传播主体。同时，从PC互联网时代开始，内容生产和传播的门槛降低，社交媒体的兴盛使传播环境进一步开放，社会普遍信息化大大扩展了公共信息的规模。这些因素交织在一起，构成了移动传播的特殊矛盾——如何实现海量信息资源与个性化信息需求的高效匹配。我们认为，对于这一问题的解决，基于大数据并运用算法而形成的人工智能是最有效的工具。算法技术对传播方式进步的贡献在于，它能够以较高的效率和较低的成本，在社会普遍信息化所产生的海量信息供给中，为个性化需求寻得精准匹配结果，这是人工智能在信息传播领域的应用，是技术进步的体现。

正如邓小平同志倡导的，科学技术是第一生产力。我们不能站在技术进步的对立面，而应该更加积极主动地拥抱技术进步，在实践中完善技术，利用技术获得更大的进步。我们要看到，创新技术的应用和推广，通常需要经历漫长的适应调整期，探索过程中的困难和不足不应成为否认或质疑技术进步总体方向的理由。

具体而言，要想恰当解决在当前算法应用中出现的问题，不仅需要改进算法，还需要完善甄别信息真伪和优劣的手段，以及丰富信息价值的评判维度。

如何甄别信息？

算法的核心优势在于对海量信息与个性需求的精准匹配，而高效匹配的前提是对信息的真伪和优劣的准确甄别。

对信息真伪的鉴别，国外的脸谱和谷歌、国内的微信和微博大多采用第三方核查的方式，然而，这些方式都属于事后应对，未能形成预警机制，难以提前防范虚假信息的发布和传播。随着各类传播平台的用户规模不断扩大，虚假信息一旦被广泛传播，信息源的资质审查和事后惩罚都难以补偿负面舆情效果。因此，传播之前的拦截具有重要意义。目前互联网信息传播平台普遍采用的办法是借助技术手段进行事先核查。包括今日头条在内的一些网站以“人工机器”的模式构建防火墙，对敏感词、“标题党”和虚假信息进行拦截，也借助人工智能技术，模仿人脑机制，对低俗图片进行拦截。目前，今日头条等大型资讯类平台都建立了储量超过5000条的谣言数据库用于筛查虚假信息，但面对数量巨大且层出不穷的虚假信息，与其建立谣言数据库，不如建立常识数据库，因为错误可以花样百出，而常识则是相对稳定的。

对于信息优劣的鉴别，与评判标准有关，更与内容数据库的来源结构有关。资讯平台应当建立其甄别体系，对信息源进行有效甄别。目前互联网资讯平台已广泛采取对优质自媒体内容的奖励机制，并开始联手一些深耕特定内容领域多年的传统媒体，以加大优质内容的供给。

如何改进算法？

既然人工智能在海量信息和个性需求的精准匹配上具有明显优势，那么匹配的具体规则即算法应该如何制定，才能既满足个性需求又促进优质信息传播？实际上，这个问题含有一个深层矛盾，那就是个人与社会对信息的价值判断在多大程度上能够达成一致？假设这个一致可以达成，又该如何把个人和社会对信息的价值判断体现在算法规则中？

算法规则体现着新闻信息生产和分发机构的价值观。商业性的大型资讯分发平台以追求商业利益为经营目的，在算法设计中往往倾向于迎合用户需求，以获得尽可能多的点击量。即便如此，作为一个公共信息分发平台，其基本的社会责任也要求它，不能偏废“重要性”这一最本质的新闻价值维度。对于正打算采用算法技术，落实移动优先战略，以提升传播力和影响力的主流媒体来说，他们的社会功能和历史使命决定了，他们不能照搬商业平台以点击量为主导的算法规则，而必须更全面地考虑用户个人更本质的信息需求，尤其是个人在社会化过程中用于建立其个人与社会的一致性的信息需求，以有效地帮助其降低选择和决策的“不确定性”。因此，主流媒体的算法规则设计应该在吸取现有算法运用的经验和教训的基础上，着力于体现新闻的“重要性”。

如何丰富取值？

目前资讯分发平台普遍使用的信息价值评判标准是点击量，点击量越大的信息，传播范围越广。对于新闻信息而言，这样的取值虽然可以使新闻供给趋近于所谓“公众兴趣的最大公约数”，但对于使用移动终端的用户而言，受兴趣牵引的点击会偏向于娱乐性和猎奇性较强的信息，而主要基于点击量取值的算法规则，又会把这类信息推送到更大范围，在商业资讯平台上色情低俗信息的大量传播就是典型例子。由此可见，信息价值评判的取值方法对基于算法的个性化资讯服务影响重大。目前以点击量为主的取值方式，维度单一，导致了推送的内容过于娱乐化，而缺乏对信息重要性的真正体现。

在新闻传播学科内，新闻价值的内涵有普遍接受的定性描述——接近性、时效性、显著性、趣味性和重要性。前两个价值要素分别指的是新闻事件发生的地点和时间，显著性指的是新闻事件涉及的重要人物和组织。这三个要素实际上都是场景性指标，具有量化特定价值判断的作用。在我们的实际考察中发现，发生在移动终端上的点击量主要体现了趣味性要素。最后，重要性要素是新闻价值中最难以通过量化标准来体现的，而它恰恰是新闻信息价值判断的核心，它既需要在个人价值判断与社会整体价值判断的统一中寻找，还体现着浅表的事件描述与深层的数据分析的区别，通常也反映着业余的信息贡献者与专业的内容生产者的差异。目前的实践尚未探索出恰当体现新闻“重要性”的取值方法及与之匹配的算法规则，对于这一问题的理论研究也刚刚起步。

从操作层面来看，主流媒体生产的内容通常有专业水平的保障，也自然趋向于与社会主流价值观相一致；而自媒体生产的内容，则受到成本投入和运营水平的限制，也难免因逐利动机而标新立异、哗众取宠。因此，在更为细致的算法规则研发成功之前，按照信源类型对信息价值赋值，也许是具有较高可行性的策略。

（宋建武作者是中国人民大学新闻学院教授、博士生导师）