当前位置:
网络安全 > “网络爬虫+相似度矩阵”技术运作流程
“网络爬虫+相似度矩阵”技术运作流程
今日头条等信息聚合平台基于数据挖掘技术对新闻进行过滤和推荐:“向用户推荐有价值、个性化的信息,提供人与信息之间的连接。服务是国内移动互联网领域增长最快的产品和服务之一。”自2012年3月创建以来,今日头条已累计激活用户3.1亿,日活跃用户超过3000万。
本文尝试从技术角度分析今日头条的通信机制及相关原理。
网络爬虫:爬取新闻的基础技术
今日头条是一个典型的数据新闻平台。除合作伙伴媒体外,其新闻来源很大一部分来自于搜索引擎网络爬虫。
什么是网络爬虫?
STEP 1:收集互联网各个角落的信息;
STEP 2:总结新闻信息;
STEP 3:基于机器学习对汇总信息进行分类整理,对每一时刻的热点新闻进行分类。
作为一个数据新闻平台,今日头条与一般数据新闻的不同之处在于,它提供的是一个媒体平台,展示聚合信息而不是一条信息。
网络爬虫如何工作?
网络爬虫的工作机制依赖于互联互联网上的超链接网络。
互联网上的大多数网页都有超链接。这些超链接将各个网页链接起来,形成一个巨大的网络,这就是超链接网络。作为一种网络程序,爬虫从一些网页开始,保存网页内容,寻找网页中的超链接,然后访问这些超链接,不断重复上述过程。这个过程可以继续下去。如图所示:
如何计算“今日头条”:“网络爬虫+相似度矩阵”技术操作流程
STEP 1:爬虫从种子节点0开始爬取网页内容。
STEP 2:爬取时发现两个超链接,爬取一级节点。
STEP 3:从一级节点开始,发现二级节点,并继续这个过程。
这个过程中有两种策略:
1、只有当一个级别的所有页面都爬完后,才会抓取下一个级别。这种策略称为“广度优先”;
2.发现超链接后,立即开始抓取网页并继续深入挖掘。这个过程称为“深度优先”。
附加说明:
上图是一个树形网络。真正的网络并没有那么简单。它充满了“循环”,即新发现的网页中的超链接指向已爬取的旧节点。这时候就需要识别哪些网页已经被成功抓取。举个栗子——
以今日头条为例,说明网络爬虫在新闻爬取中的工作流程:
STEP 1:工作人员首先要在后台建立一个新闻源词典,比如“网易新闻”、“新浪新闻”、“凤凰新闻”、“浙江新闻”等。
步骤2:通过这些词典,网络爬虫将锁定这些网站的超链接并从中抓取新闻。
附加说明:
如果这条新闻是这些新闻平台相关博客中的内容,而不是新闻平台本身的新闻,那么网络爬虫就无法抓取到它。
聚合媒体的概念并不那么简单。除了聚合来自不同媒体的内容之外,聚合媒体更重要的特征是对不同的信息进行分类和排序,得到信息聚合接口(aggregator)。这种信息聚合常常表现为某种排序列表。这种排名列表在传播机制上满足了网络科学中所谓的“优先链接机制”,即用户的注意力更容易被引导到排名靠前的信息上。这个过程可以通过经典的传播学研究发现:“乐队车效应”。这个发现起源于美国选举过程。候选人会站在乐队花车上拉票,支持者会站在他的车上。该研究研究发现,人们倾向于登上载满人的花车,而不是只有少数人的花车。
推荐系统:个性化定制新闻的技术逻辑
个性化推荐在今日头条中发挥着重要作用。
今日头条的用户登录非常人性化。作为后起之秀,今日头条非常有策略地允许用户使用微博、QQ 等社交账号登录。这个过程实际上让今日头条能够挖掘个人社交网络的基本信息。因此,可以方便地获取用户的个性化信息,例如用户的兴趣、用户属性等。使用得越多,就会越了解用户,从而可以做出精准的阅读内容推荐。
个性化推荐的基础是构建推荐系统
推荐系统广泛应用于用户没有明确需求的场景。从算法上来说,推荐系统可以分为:
社交推荐(例如向朋友寻求建议);
基于内容的推荐(基于内容的过滤,比如根据用户看过的电影推荐其他类似的电影);
基于协同过滤的推荐(协同过滤,比如查看排名,或者找到与自己兴趣相似的用户,看看他们最近看了哪些电影)。
因此,可用于构建推荐系统的信息也分为三类:好友信息、历史兴趣信息、注册信息。
推荐系统是一种可以将用户与项目关联起来的自动化工具。除了这些信息之外,还可以在推荐系统的构建中添加时间、地点等信息。如今,推荐系统已广泛应用于新闻推荐、书籍推荐、音乐推荐、电影推荐、好友推荐等领域。作为人工智能的一种形式,它极大地便利了人们的生活和互动。
推荐系统算法的基础是构造相似度矩阵
这个相似度矩阵可以是物体之间的相似度,比如书籍之间的相似度,音乐之间的相似度。下面以基于项目的协同过滤算法(item-based Collaborative Filtering,ItemCF)为例。基于项目的协同过滤算法可以利用用户的历史行为,从而使推荐结果具有高度的可解释性。例如,您可以向喜欢阅读足球新闻的用户推荐其他类似的新闻。基于项目的协同过滤算法主要分为两个步骤:
步骤1:计算项目之间的相似度。
STEP 2:根据用户的历史行为生成用户的推荐列表。
假设有四个用户:
用户1在今日头条的浏览记录为[a,b,d],
用户2的浏览历史是[b,c],
用户3的浏览历史是[c,d],
用户4的浏览历史为[b,c,d];
这四人的浏览行为可以表示为以下四项矩阵:
将单个用户的条目矩阵相加可以归纳为所有新闻矩阵M,其中M[i][j]表示新闻i和新闻j被多人同时阅读的次数。如下:
矩阵逻辑
如果两条新闻同时被多人观看,则可以说它们更加相似。
通过对上面的矩阵进行归一化,可以对矩阵进行操作,计算新闻之间的相似度,比如相关相似度或者余弦相似度。
基于物品之间的相似度,如果一个新用户进入系统,他阅读了新闻c,ItemCF算法可以快速给出与新闻c相似度最高的新闻(b和d),并将其推荐给新用户。用户。
在推荐过程中,推荐系统可以根据用户的行为不断优化相似度矩阵,使得推荐越来越准确。
或者,如果用户可以手动标记每条新闻的兴趣(例如喜欢或不喜欢),则可以使推荐更加准确。
本质上,以上两张图就是热点新闻和个人定制新闻的基本原理。它分两步完成:
STEP 1:首先找出新闻的热点和相似之处
STEP 2:向用户推送热门新闻和相似新闻。举个栗子——
假设在抗战胜利70周年之际,有4个人同时浏览今日头条新闻。
A是一位女性读者。她点开了秋天糖水的做法、养孩子要注意的五件事、阅兵、新武器等新闻。
B是一位中年上班族。他点开了阅兵、中国最新武器谱等新闻。
C是一位年纪较大的男士,他点击了有关医疗保健、阅兵、新武器等方面的新闻。
D是一名刚毕业的男大学生。他点开了英雄联盟攻略、好莱坞旅游攻略、阅兵、新武器等新闻。
热点及相似度的产生过程:
STEP 1:这四个人同时点击阅兵和新武器,系统算法会根据点击和停留时间计算出阅兵和新武器是当天的热门话题。
STEP 2:阅兵和新武器被多人同时点击,这意味着它们是相似的。
STEP 3:当新用户点击新闻时,今日头条会尽快分析他点击的内容,并在已查看的热点新闻中匹配他感兴趣的相关内容,引导他阅读热点话题。
这一系列动作都是由计算机自动完成的。
机制缺陷
上面的例子说明了定制新闻是基于泛热点新闻完成的。这就导致了一个问题,就是当一个人关注的新闻不是热门话题时,系统无法获取到相关热点,就会被收录到新闻中。寻找其他信息进行重新匹配,让匹配到的新闻在现有信息的基础上最大程度地匹配用户的兴趣,但不一定会推送当天最热门的新闻。要实现长尾理论所设想的定制化服务,关键是对新闻进行细分。只有将不同的主题细分为各个子主题,再细分底层内容,才能实现真正的个性化定制。要实现这一点,现实不再是机械的,而是在于人们对事物本质的认识和把握。正如法国社会学家福柯在《知识考古学》中所说,分类是区分一事物与其他事物的基础。分类归根到底是人的主观能动性的体现;系统中积累的用户行为越多,分类就越准确,自动化私人定制也就越贴近用户需求。
聚合媒体:国际新闻业的趋势
聚合媒体在国外的应用也非常广泛。聚合媒体数据新闻平台信息的展示可以是传统搜索引擎的平面展示,也可以是视觉展示。后者如日本的新闻地图网站(http://www.sychzs.cn)。日本的新闻地图项目是基于谷歌新闻的。它使用不同的颜色来区分新闻类别。例如,红色代表“世界”,黄色代表“国家”。用户可以通过查看页面底部的类别栏进行过滤。您可以在页面顶部按国家和地区进行过滤。网站后台算法根据相关新闻信息的数量、重要性、点击量自动调整各个新闻区域的大小。
一个非常有趣的聚合新闻网站是GDELT。 GDELT 项目 (http://www.sychzs.cn/) 监控世界各地 100 多种语言的实时广播、印刷和在线新闻,识别人物、地点、组织、数量、主题、来源、情绪和新闻时间。基于此,GDELT推出了全球新闻情绪地图,数据每小时更新。绿色代表快乐,黄色代表悲伤。数据密度反映了新闻的大小,见下图:
另一个很好的例子是社交新闻网站,主要是Digg、Reddit等。这类网站允许用户注册、互相关注、提交新闻、对新闻进行评分。其中,得分高的新闻将进入热门新闻页面。在这个过程中,每个用户都充当了新闻的把关人,这种信息把关的方式称为群组把关。
但群控的意义主要是把新闻推送到热门新闻的网页上,即向公众推送。这个阶段之后,大众信息的传播就更像传统媒体的新闻传播方式。事实上,这种基于用户过滤的新闻聚合很常见,比如新浪微博上的“热门话题”、Twitter上的“热门话题”等。根据笔者对Digg上的新闻扩散情况分析,这类新闻聚合对信息传播的影响更大。对于那些传播广泛的Digg新闻来说,70%以上的信息曝光是Digg用户通过热门新闻看到的。
主流新闻展望与人工智能
从媒体控制到群体控制是进步,但从群体控制到计算机或算法控制是隐患。
过去由编辑承担的内容选择工作现在由计算机来处理。其信息控制机制发生了根本性变化。在这个过程中,受影响最大的就是传统的新闻生产逻辑。新闻业的传统观点注重公共利益,报道具有长期后果的事件并提供见解。将这些任务交给机器和算法将带来前所未有的挑战:
首先,算法根据用户表现出的“兴趣”对信息进行分类推荐,往往很容易向用户推荐一些用户短期内喜欢的低质量信息。
其次,持续接触低质量信息会降低个人的新闻素养。过多依赖机器帮助我们控制信息,很容易导致视野越来越狭隘,不再关注社会整体利益,也容易导致犬儒主义。
第三,主流的新闻运作方式保证了记者在面对政治、军事、社会力量时的独立性和冷静。推荐算法从信息和用户出发,对国家和社会整体关注不够。这种新闻推送机制的偏见很容易招致批评。
未来新闻业将走向人机融合时代
从未来新闻的角度思考新闻行业的变革,让我们认识到回归新闻本质的重要性。
未来的新闻业将不仅仅提供有限的案例采访,而是系统地获取、积累和分析数据,挖掘隐藏在其中的信息。在注意力经济时代,为用户提供这种专业的信息和专业的评论是媒体的责任。迅速兴起的数据新闻正在朝这个方向发展,但现阶段它更注重视觉表达。聚合媒体实现了信息过滤的自动化,体现了未来新闻的特征。基于个性化推荐,聚合媒体进一步将人工智能的新闻整合功能带入我们的生活,提供了很多便利。但不可忽视的是,过度依赖机器和算法所隐藏的危险:算法或计算机控制会损害新闻的价值。
新闻业的未来将走向人机融合的时代。