社交网络分析的意义（社交网络关系）

社交网络分析的意义，原文标题：社交网络分析：谁会是你的好朋友？。

点击上方关注，All in AI中国

介绍

友谊对于我们每一个人来说都非常重要。孩提时代拥有好的朋友可以增加你成年后幸福的机会。然而在生活中，我们受到的关于友谊的教导并不是很多，友谊是由于环境和机会而形成，并且凭直觉发展起来。那么，我们的朋友们是生活中偶遇而来的么？显然不是，有很多事情必须落实到友谊的实际形成，如你们会做同样的运动或拥有相同的喜爱的音乐、音乐家。然而，早在所有这些因素发挥作用之前，就必须满足一个基本要求：你必须遇到那个人。我们似乎可以通过各种各样的方式去认识不同的人，至少在友谊的情况下，大多数这些方式都会涉及某种社交网络，或者你会在生日聚会上见到他们，无论是哪种方式，都算不上是真正的偶遇。

社交网络分析

社交网络分析是“研究社会结构的策略”（Otte和Rousseau，2002），社交网络分析对许多公司都很有价值。与您根据名称所假设的情况相反，社交网络分析不仅对Facebook等社交网络有价值，而且对航班航线或金融网络等移动网络的分析也有价值。让我向您介绍一个示例，具体展示我要说明的情况。

让我们想象一个小的朋友网络。其中一些人互相认识，而其他人则不认识。使用Python，可以使用名为NetworkX的包来可视化社交网络：

想象一下这个网络是你和你朋友的网络。红点被称为节点，它们之间的线条象征着两个人认识彼此，这些线被称为边。真实的社交网络更大、更复杂，但出于演示目的，我们会把这个网络设小一些。在查看社交网络时，应该看一些基本数字。例如，该网络由11个人和14个连接组成，而每个人平均会连接到大约2.5个其他人。

现在，鉴于这个网络，最有可能形成哪些新连接？更具体地说，给定两个人，描述他们形成连接的概率的措施是什么？让我们来看看回答这些问题的五种可能方式。

措施1：共同邻居

最直观和最简单的衡量方法是计算个人A和个人B所连接的个人数量。 Jack和Liz有多少常见的邻居？

答案是两个：Mike和Cindy。现在剩下要做的就是计算所有不存在的连接的公共邻居数量，并将它们从最高到最低排序。

措施2：Jaccard系数

Jaccard系数与常见邻居的数量非常相似，不同之处在于，在度量1中检索的数量被归一化。为此，需要使用共同邻居的数量，并将其除以邻居的总数。换句话说，A和B的交点除以它们的并集:

在Liz和Jack的案例中，我们已经确定共同邻居的数量是两个。 Liz和Jack总共有多少邻居？

Liz和Jack共有五个邻居。结果，他们的Jaccard系数是2除以5或0.4。至于措施一，现在必须为所有不存在的连接计算Jaccard系数，并进行比较。

措施3：资源配置指标

不要被这个名字弄糊涂。该措施类似于Jaccard系数，因为它使用邻居的总数进行归一化。然而，这一次，我们正在关注我们感兴趣的人的共同邻居。数学上表达，资源分配如下所示：

所有这些意味着我们想要计算感兴趣的个体的每个共同邻居的总邻居数的总和。针对这个，让我们计算下Elle和Ronald的资源分配指数。

Elle和Ronald有一个共同的邻居，Steve。Steve本人有三个关系。因此，应用上面的公式得到1/3。因为Elle和Ronald只有一个共同的邻居，所以我们不需要做任何其他事情。如果他们有另一个邻居，我们会为Steve做同样的事情并添加这两个数字。

措施4：Adamic-Adar指数

Adamic-Adar索引几乎等同于资源分配索引，除了事实上除了除以邻居总数之外，还除以邻居总数的对数。数学上表达：

措施5：优先连接分数

优先连接模型试图创建许多社交网络基本结构的蓝图。它假设具有许多连接（高度）的个体（节点）比具有较少连接的个体获得更多新连接（邻居）。换句话说，如果你已经有很多朋友，那么你将会遇到更多新朋友。

要计算优先连接得分，可以简单地将感兴趣的个体彼此的连接数相乘。这种计算最好直观地解释。还记得Liz和Jack吗？我们简单的复习下：

如你所见，Liz和Jack都有三个邻居。因此，他们的优先连接得分是3 * 3 = 9。

谁最有可能是你的下一个朋友？

既然我们已经收集了所有必要的措施，我们终于可以回答初期的问题。选择其中一个措施，计算得分，然后比较结果。但是，由于我想避免在这个项目中引入任何偏见，我决定计算所有的分数，将它们标准化并取平均分。这样，我避免必须在它们之间进行选择，也可以得到范围在0和1之间的结果分数。

假设我们想知道Jack最有可能接下来与谁联系。你能猜出它是谁吗？在这一点上，Liz得分为0.96。让我们再做一次：Mark最有可能与谁联系？答案是Liz。现在，看看我们的社交网络的结构，你觉得有什么东西会对这个结果产生挑战？

再看看这个社交网络，似乎有两个社区内部关系比一个其他社区的更强大。在计算某人最有可能与之联系的概率时，不注意社区结构肯定会导致偏见的结果。在一个更紧密的社区中，人们应该更有可能与来自不同社区的人会面。

为了解释社交网络中社区结构的因素，我将介绍两个新措施，这些措施是Soundarajan和Hopcroft（2012）引入的前面讨论的措施的扩展。

适应共同邻居

适应共同邻居不是简单地计算两个人的共同邻居的数量，而是首先计算共同邻居的数量，然后计算这些共同邻居中有多少与个人A和B在同一社区中。最后，这两个数字相加。

在我们的例子中，让我们来看看Ronald和Elle：

Ronald和Elle有一个共同的邻居，Steve。Steve是Elle和Ronald的同一社区的一员。因此，适应的共同邻居得分是1 1 = 2。

调整资源分配

同样，这个与上面介绍的措施非常相似。唯一的区别是Soundarajan和Hopcroft（2012）提出的资源分配分数只考虑与两个感兴趣的人在同一网络中的个人。

如上所述，当个体与X和Y不在同一网络中时f（u）= 0，并且当它们在同一网络中时f（u）= 1。该公式使得该措施看起来比实际更复杂。Steve和Pete的资源配置得分是什么？

他们有一个共同的邻居，Elle。但是，由于它们都在不同的社区，因此f（u）= 0。因此，由于没有其他共同邻居可以考虑，他们适应的资源分配得分也是零。

让我们再次尝试找到Mark最有可能的下一个连接。使用我刚刚介绍的措施，我们发现Mark最有可能的下一个连接实际上是Elle！鉴于我们已将两者归为同一社区的一部分，因此这一结果似乎更有意义。

结论

社交网络分析是一个值得探索的迷人话题。除了仅评估节点之间的边缘之外，还可以给定一组标签，在监督机器学习中将这些措施用作特征本身。除此之外，如果每个节点有更多数据可用，例如他们的兴趣、年龄、性别等，那么谁最终成为好朋友的建模也可能更准确。

如果您对用于进行此分析的代码感兴趣，戳下方：

https://github.com/lksfr/TowardsDataScience

编译出品

来源：https://towardsdatascience.com/predicting-friendship-a82bc7bbdf11

作者：Lukas Frei

本文《社交网络分析的意义（社交网络关系）》由网赚联盟（ wangzhuan.org.cn ）整理或原创，感谢您的阅读。

随机文章

SEO小小课堂网
站长导航
搜素引擎算法
网站内容优化
SEO小小课堂网
SEO教程
站长导航
关键词排名优化

百度搜索“网赚联盟”即可找到本站，微信搜索“小小课堂网”关注小小课堂网公众号。网赚联盟（ wangzhuan.org.cn ）欢迎用户投稿，发布者：AI中国，文章版权归作者所有，投稿文章不代表网赚联盟立场，中二少年发布为网赚联盟原创文章，转载请注明出处：https://wangzhuan.org.cn/781121.html

社交网络分析的意义（社交网络关系）

随机文章

发表评论