作者:闫泽华
先抛出个人的结论:编辑(中心人工主导)分发、算法(机器主导)分发、社交(离散人工主导)分发各有千秋。内容分发服务追求的是分发所能触及的远景,为了达成远景,就需要探寻每一种分发更合适的应用场景,而不是要在“剑宗”和“气宗”里争个高下。
本节试图探讨的,就是每种分发方式适应的场景和它们在内容分发系统里的应用。
从纸质报纸杂志到广播电视,再到门户网站,尽管信息传播的载体发生了变化,但是内容传播始终保持着中心化分发,展示位有限、千人一面的状态,信息传播的决策权始终握在编辑手中。
编辑分发的优势在于,借由专业背景知识完成了从海量内容到有限展示位置的过滤和筛选,经过筛选的内容,其平均质量是相对较高的。然而,基于专家的判断难免会出现偏差,为了降低“叫好不叫座”或单个编辑偏差的情况,内容分发方也上线了相应的策略。比如传统纸媒会有编委会投票机制,通过多人判断选题,又如门户网站分时段上首页,点击率一定时间不达标自动下架等措施。
引入了机器推荐算法的分发系统,由于达到了千人千面的效果,展示位数量得到了大量的扩展。在筛选人力不足以匹配展示位数量的情况下,编辑又起到怎样的作用呢?
首先,人工同机器一定不是对立的,不然,今日头条也不会吸引到如此多资深的传媒背景从业者。 我和组内的同事不止一次的真心赞美吴达(时任头条号运营总监):“我们的运营团队都是豪华高配的文化人。我跟吴达老师聊天,是要带字典的orz”。
编辑能够帮助推荐系统更好的理解内容,也能帮助我们更好的理解站在内容背后的创作者群体。
在内容层面,编辑和审核团队是能够决定什么样的内容是低质的,不应被系统收录和推荐的。编辑和审核评估团队就像是内容推荐系统的门神一样,对于不OK的内容Say NO,对于低质背后的做号者Say NO。
作为最大的信息和社交分发平台,Facebook也在事实甄别和低质内容管理上强依赖编辑和审核的人工工作。
2016 年 12 月 16 日,Facebook上线了Fact-Checking(事实审核)机制,将用户举报过多的信息交付机构记者来判断。如果记者判断这则内容是假新闻,就会将内容标记为存在争议,一方面会在前端页面提示给用户此内容可能失实,另一方面会从分发量的角度进行控制。
2017 年 5 月,扎克伯格发帖称Facebook会再招聘 3000 名内容审查员,在此次招聘后将会达到 7500 人。审查员会过滤社交媒体上的不适当内容,如恋童癖、身体暴露、种族仇恨等内容。
除了Say NO之外,编辑同样会对什么样的内容特别值得推荐Say Yes。
以推送场景为例,作为强打断的场景,被推送的内容需要被审慎的筛选出来,以保证打断用户是值得的。在新闻客户端上,一贯强调筛选出“Breaking News”,当重点新闻发生时,编辑一定是 24 小时值守的,验证真实性、确定推送范围和推送级别,只为了不错过每一条值得用户关注的内容,让用户能够更准确快速的获得最新的消息。在这一过程中,技术能够辅助更快速的构建新闻候选集,比如追踪社交媒体、追踪重点网站的发布情况(如气象局、交通局)等,但人工才是做出最终裁决的角色。
当然,为了保证系统的可扩展性和有效性,我们希望在日常推荐中尽量避免人工的直接干预,如对内容进行调权、对展示量进行干预等等。但是,不直接干预并不代表缺位,编辑始终在扮演一个“纠偏”的角色,当发现主观觉得好的内容没有得到应有推荐量的时候,当发现主观觉得差的内容得到过高推荐量的时候,都会给产品和技术做出反馈。在这种情况下,产品、技术、编辑(内容运营)会坐下来探讨:其一,这是不是一个问题,如果是问题的话,是不是一个频发的问题,以此来确定解决与否和优先级;其二,探讨更系统性的解决方案,让这一类而不是这一个问题得到更系统性的解决。
在创作者体系层面。我们常说,做产品要有用户视角。作为平台方,你在面对了亿万用户的同时,也在面对万量级的作者。作者同样是内容分发系统的用户。编辑会更理解创作者的语境,成为创作者和作品的代言人,来影响系统的迭代。与此同时,他们也能够以创作者更可理解的方式去传递平台的规则,帮助不同阶段的创作者在平台更好的成长。
题外话,我发现吴达老师的案头摆了本《python数据分析》了:文化人懂技术,谁都挡不住,笑。
在Facebook、微博、微信覆盖了越来越多的用户之后,内容的分发逐步去中心化:每个人都可以创作内容从而成长为自媒体,每个人都可以借由社交关系评论、转发从而完成传播。信息的传播权从传统的精英编辑让渡到每个普通人受众,相当于每个人都成为了编辑,成为了内容分发的中心。
社交分发首次让信息的传播变成了“千人千面”。每个用户都有了个性化的内容消。 2010 年,Facebook主页访问量超过Google访问量,意味着“社交分发”已经成为了主流的分发方式。援引皮尤研究中心此前的调查,美国成年人中有62%通过社交媒体获取新闻,18%高度依赖该平台,通过Facebook阅读新闻的人数占比高达44%。
当然,社交分发也带来了新的问题:
一方面,进入稳定期后,流量出现了新的垄断:一些大V由于拥有海量的粉丝、保持了高频的发布量,事实上掌握了平台的流量分配权。比如,微博上大部分流量被营销号和大V所占据,新的内容生产者获取流量的成本剧增。
另一方面,随着社交关系的不断扩张,微博微信已经成为了线上名片,用户关注了越来越多的来源,基于社交分发的内容质量也逐步下跌。朋友圈中盛行的养生文、微商、晒娃等等就是最好的例证。
社交分发让人们免于信息匮乏,却同样带了信息过载的问题。为了优化用户的信息消费体验,Facebook率先在自己的News Feed中应用算法进行排序。
Facebook最初的排序方式,称之为边际排名算法(Edge Rank Algorithm)。
算法的核心计算公式为:
E = uwd
解析:
u:用户与内容发布者之间的亲密度分数,互动越高的关系分数越高
w:不同反馈动作具有不同的权重,如展示、评论、点赞等。比如评论动作的权重就会显著高于点赞。
d:基于时间的衰减,越新的内容权重越高
借由上面的公式不难看出,亲密度和动作的引入,极大的抑制了大V和营销号刷屏的情况。此前,企业账号一旦获得了粉丝就相当于获得了稳定的广告位,所有新广告以几乎 0 成本的形式展现在这些粉丝的信息流中。但此后,没有互动的粉丝就只是停留在页面上的一个数字而已,企业账号必须同时下力气来维护自己的粉丝群体。
在随后的日子里,Facebook致力于借由机器学习方式改进排序算法,除了最初的 3 个EdgeRank因素之外,不断追加新的特征和排序方式,如Story Bumping(系统对用户错过的信息中进行二次判断,如果判断为重要,则会跳过时间序进行置顶展示),Last Actor(系统根据用户最近频繁互动的 50 人,进行信息排序的调权,放大短期兴趣的影响)等等。
无独有偶,在国内,微博也逐步意识到自己的流量被大V和营销号所挟持的问题,开始越来越多在信息流之上应用推荐算法,将原有的时间排序调整为智能排序,以控制刷屏、广告泛滥等问题,优化用户的使用体验。如果你有关注过微信朋友圈的分发,就会注意到,某些被疑似过度传播的内容(微商广告、转发集赞)是被微信降频过滤的。
微博、Facebook将关注关系作为筛选因素,将用户的点击、评论行为作为调权因素,是在“关注关系产出内容”的候选集上进行算法排序。相较起来,头条将关注关系也弱化为调权因素,从而获得了一个更广泛的候选集范围(用户相当于在头条上关注了所有的头条号),在此之上进行的排序能够有更高的效率匹配性和更好的可扩展性。
某种角度来看,算法分发或许可以被称之为终极解决方案。
为什么这么说呢?因为推荐算法是个筐,什么都能往里装。它是基于我们对现实世界理解进行的抽象和建模,所有我们关心的因素(编辑分发、社交分发)都可以转化为算法推荐的参考因素。
如果我们化简这个问题,将推荐的因素收敛到编辑因素、社交因素、模型因素三个部分,那么,一个内容在系统中的得分可以表示为下列公式:
内容得分= a编辑因素 + b社交因素 + c*模型因素
a,b,c分别为三个因素的权重。如果我们把某个因素的权重置为1,其他因素的权重置为0,那么算法分发就能够等同于编辑分发或社交分发。
各种权重的调节,则完全是以平台的价值感导向所决定的。以FaceBook为例,其认为来自真实好友关系的生活记录内容更重要,在分发过程中就会加强真实好友生活记录内容的权重,而弱化他们转发内容的权重,进一步弱化媒体所发布内容的权重等等。
事实上,我们所熟悉的各类内容分发产品,无论起步如何,如今都走上了一条多元素融合的道路上:依赖中心化编辑引导和干预,依赖去中心化用户生产传播,应用机器学习提升效率。新版的微博也在关注频道的旁边放置了热门频道,提供了不依赖于订阅关系的内容推荐服务,微信都上线了实验室功能“看一看”。
沉迷气宗剑宗之争的看官们,还是散了吧。
建站咨询热线
135-1615-8738