【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记（5. 社交媒体安全）

【相关链接】

【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记（1. 绪论）

【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记（2. 信息隐藏与数字水印）

【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记（3. 文本安全）

【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记（4. 多媒体安全）

【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记（6. 大数据安全）

【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记（7. 网络信息内容监控）

5. 社交媒体安全

5.1. 社交媒体基本概念

图的表示: G(N, E)邻接矩阵: 关于主对角线对称平均路径长度

两节点间的距离: 连接两者的最短路径的边的数目网络的直径: 任意两点间的最大距离网络的平均路径长度l: 则是所有节点对之间距离的平均值小世界效应: 绝大多数大规模真实网络的平均路径长度比想象的小得多

具体地说，一个网络称为是具有小世界效应的，如果对于恒定的网络节点平均度，平均路径长度L的增加速度至多与网络规模N的对数成正比聚类系数

Ci=2Ei/(Ki(Ki-1))整个网络的聚类系数C就是所有节点i的聚类系数Ci的平均值社交网络模型

规则网络复杂网络

小世界网络

兼具小世界性和高聚集性的网络模型: 较小的平均路径长度和较大的聚集系数通过将规则网络中的每条边以概率 p 随机连接到网络中的一个新节点上, 构造出一种介于规则网络和随机网络之间的网络

5.2. 舆情分析

舆情分析技术架构: P25

舆情规划: 将不同信息进行管理: 关键词管理, URL管理舆情采集: 使用舆情采集技术(正文抽取, 自然语言处理, 关键词抽取), 通过关键词, URL到搜索引擎, 各大论坛搜集数据舆情数据: 将采集后的数据进行存储舆情展示: 舆情报告, 舆情分析功能架构

从下往上看数据: HTML数据等等互联网舆情管理系统: 搜索引擎, 检索, 文本挖掘等技术采集数据.网络舆情采集, 加工(过滤,转码, 分类,摘要), 分析(热词分析, 舆情走势分析), 检索(简单检索, 高级检索, 热点词检索)系统: 将采集的数据进行…分析出来的结果用于常规检测, 突发事件应急响应, 舆论导向指导核心技术

采集(爬虫, 元数据搜索, 信息智能提取)->处理(自然语言处理, 自动分词, 自动分类)->检索(智能检索) 舆情分析建设思路

技术和内容的结合

技术: 文本分类等等内容: 语料库专家和系统

人机结合

5.3. 隐私保护

数据使用方式

真实数据: 要求最高脱敏数据: 我们只需使用经过处理后的数据非敏数据: 我们只需使用不太牵扯到隐私的数据社交网络隐私攻击方式(PPT上没有, 不知道老师怎么讲的)

节点及节点间关系识别攻击隶属关系攻击概率攻击隐私保护方式

基于泛化和隐匿技术

K匿名

链式攻击: 数据库里两张表通过主键关联，得到更多的信息k -匿名通过概括和隐匿技术，发布精度较低的数据，使得每条记录至少与数据表中其他k－1 条记录具有完全相同的准标识符属性值，从而减少链接攻击所导致的隐私泄露一些概念

属性: 表中的某些列显示标志(EID): 可以唯一确定一个人身份的标志准标志(QID): 可以潜在标志身份: 性别, 年龄隐私: 敏感属性: 爱好, 社会关系非隐 L多样化

为了抵制同质性攻击和背景知识攻击要求每个等价类中敏感属性值都必须包含l个不同的元素定义

L-多样化: 直观理解就是表中的某个属性是敏感属性, 这个敏感属性至少有L个取值匿名化: 就是对表进行变换, 使得这个表满足匿名规则AR 匿名算法: 匿名化主要有泛化和隐匿、划分、聚类等思想方法实现

聚类K匿名

K-匿名问题: 聚类问题: 将数据分为若干簇, 同一簇中的对象具有很高的相似度, 不同簇中的对象之间具有高度相异性定义1

将一共n条记录划分为一系列簇, 每个簇至少包含k条记录, 簇内间距总和最小.四个条件:

e表示簇, 不同簇之间没有相同元素所有簇包含所有所有对象(这两条保证簇是S的一个"划分")一个簇中包含的对象个数大于KΣ (第L个簇中对象个数 * 这个簇中最大数据点距离) 是最小的定义2(数值型数据间的距离)

某两个数据间的距离 / 最大距离定义3(分类型数据间的距离)

两个元素最小公共祖先为根的子树的高度 / 树的高度定义4(记录间的距离)

准标志(QID): 可以潜在标志身份: 性别, 年龄r1, r2两条记录之间的距离 = r1r2数值型属性的距离之和 + r1r2分类型属性的距离之和定义5(信息损失)

MaxNi - MINNi = 某个簇中数值型属性Ni的最大值最小值之差|Ni|为所有数值的最大值最小值之差尖(Ci)就是某个簇的分类型属性的最小公共祖先为根的子树TCj是总高度定义6(总计信息损失): 对所有簇的信息损失求和 (L,K)匿名聚类算法

定义:

每条记录至少与数据表中其他k－1 条记录具有完全相同的准标识符属性值每个等价类中敏感属性值都必须包含l个不同的元素算法原理:

if(|S| <= K)

return S

end if

r = 随机从S中取出一个记录

while(|S| >= K)

r = 选取S中的一个最远记录r #最远意味着信息损失小

S = S - {r}

c = {r}

while(|C| < K) #找到与r最为相近的K个元素, 形成C

#与C最为接近的记录

r = 找到最佳记录(S, C)

S = S - {r}

C = C 并 {r}

end while

result = result 并 {C}

end while

#集合中还有元素, 且元素不足K个, 将这些元素放到最佳簇中

while(|S| != 0)

r = 随机选取一个S中记录

S = S-{r}

C = 找到最佳簇(result, r)#分别计算r与每个聚类的信息损失, 找到最小的那个

C = C 并 {r}

end while

return result

P53: 两种对于准标识符属性泛化的方法:

对于分类属性, 将一个簇的取值泛化为这个簇的共同祖先对于数值属性, 泛化为一个区间[簇中最小值, 簇中最大值]对于P52中的邮编继承分类树, 满足2-多样性泛化属性值: 也就是说, 对于邮编这个准标志符有2个不同取值空间匿名

将一个准确位置泛化为一个区域采用K匿名思想, 这个区域包含其他K-1个移动用户, 攻击者无法确定具体位置时空匿名

延迟响应时间, 在这段时间中可以出现更多用户, 提出更多查询示例

返回概率位置K匿名模型

描述: 把某一用户的真实位置点扩大为一个模糊的位置范围，使得该范围覆盖k个用户的位置，此时无法将该用户与其他（k-1）个用户相区别，称此位置满足位置k-匿名

5.3.1. 差分隐私算法

差分隐私攻击: 医院发布信息有10个人患AIDS，现在攻击者知道其中9个人的信息，通过和医院发布的信息进行比对就可以知道最后一个人是否患AIDS差分隐私保护: 如果查询9个人的信息和查询10个人的信息结果一致，那么攻击者就没有办法确定第10个人的信息集中式差分隐私保护:

定义: 对于只有一条记录差别的两个数据集，如果查询它们的概率非常非常的接近，那么它们满足差分隐私保护在攻击者向可信第三方查询的时候, 这个中心节点将数据加入拉普拉斯噪声, 然后返回给攻击者, 攻击者不能实现差分攻击相关资料

有两个数据集分别为D和D’，D和D’之间只有一条记录是不同的，其他记录都是相同的。数学描述为|D△D’|=1。使用差分隐私技术，即向D和D’中添加符合拉普拉斯分布的噪声。然后对D和D’两个数据集进行查询操作，比如操作1为查询D中99个用户的记录，操作2为查询D’中100个用户的记录，如果操作1返回的结果和操作2返回的结果一模一样（一模一样是理想状态，实际上只要接近就好，具体实施的时候会有一个隐私预算，只要低于某个阈值就ok），那么就是完美的保护了用户隐私。这句话的意思其实是说，既然查询99个人的记录和查询100个人的记录返回的结果一致，那么第100个人就很乐意的奉献自己的隐私数据，反正有我没我攻击者查询得到的结果都是一样的。这里还需要注意的是，一般查询返回的结果都是统计查询，比如查询99个人的年龄总和，查询100个人的年龄总和等。如果不进行差分隐私保护的，那么攻击者只要对两次查询做减法，就知道第100个人的具体年龄，这就是差分攻击本地差分隐私保护:

就是数据收集者直接从用户端收集数据, 攻击者不能进行差分攻击

好文阅读

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

金钥匙

【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记（5. 社交媒体安全）

开发语言 R语言聚类分析

k-中心聚类（k-medoids）算法——附MATLAB代码

发表评论取消回复

金钥匙

【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记（5. 社交媒体安全）

开发语言 R语言聚类分析

k-中心聚类（k-medoids）算法——附MATLAB代码

相关文章

发表评论取消回复