发布于 

基于链接内容的社区发现算法(二)

Robust Detection of Link Communities in Large Social Network by Exploiting Link Semantics

这一部分没什么难点,ppt里写的都很清楚了。。

三、试验

1.数据集

我们选择了两个数据集,包括美国安然能源公司内部的邮件内容(安然公司丑闻,加州能源危机)和Reddit新闻网站三天的的三个论坛的内容。如果用户A对用户B的帖子进行评论,就产生了一条从A到B的链接,链接内容为评论的内容。

2.1

那么如何判断我们社区发现的结果是正确的呢?
对于第一个数据集,伯克利大学的学生已经将这些用户节点分成了11个用户社区,我们可以直接将社区发现的结果与这十一个社区比对。对于第二个数据集,我们可以直接将发现的社区和三个论坛内容相比较。

2.2

2.对比的方法

我们采取了8种最先进的社区发现算法,包括利用拓扑结构的、利用结点内容的、利用链接内容的、可重叠的、不可重叠的(可重叠的意思就是可以将一个用户结点放进多个社区里)等,如图:

2.3

3.测评参数

F-score和Jaccard similarity,用于测评相似度的两个参数,结果两个参数越大,说明社区发现的结果越好。

2.4

4.结果

2.5

2.6

5.个例研究

我们选择了Reddit网站2012年8月27号的数据集进行分析,与我们的方法对比的是SCI

SCI方法的结果如下:

2.7

我们的方法:
2.8

2.9

我们的方法还有一个好处,就是可以通过fai和Y找到社区的词云:

2.10

我们方法的应用建议:

2.11

四、结论

2.12

这是文章的标题,下面我们对标题的关键词进行讨论和总结。
Robust:健壮性。在传统的方法中,当网络拓朴和话题群聚不重合的时候,方法的效率就会变得很低,而我们的方法将网络拓朴和话题群聚分开来讨论,具有一定的健壮性。

Detection of Link Communities:本论文的主要内容——社区发现。

Exploiting Link Semantics: 基于链接语义。