基于数据挖掘
日志数据挖掘 11.1概述 传统的日志分析需要专业的1知识,通过数据挖掘,它们能够发现日志文件中与安全相关的有趣模式,而不需要确切知道我们所要找的。11.2数据挖掘简介 在数据库和计算机科学中也称为知识发现,是发现大量数据中有趣以及有用模式和关系的过程,该邻域结合了统计和人工智能的工具以及数据库管理,以分析大的数据集。 发现数据库中隐...
日志数据挖掘
11.1概述
传统的日志分析需要专业的1知识,通过数据挖掘,它们能够发现日志文件中与安全相关的有趣模式,而不需要确切知道我们所要找的。
11.2数据挖掘简介
在数据库和计算机科学中也称为知识发现,是发现大量数据中有趣以及有用模式和关系的过程,该邻域结合了统计和人工智能的工具以及数据库管理,以分析大的数据集。
发现数据库中隐藏的事实为目标的信息提取活动。
特点:
数据可能非常大。
它是结构化的数据。
可以用数据导致我们做出一些有趣的结论,但是也可以无法得出结论。
需要搜索或者分析数据。
一般来说数据挖掘有两种:1.预测性的方法 2.描述性的方法
常用的数据挖掘技术
集群:组合具备共同爱好的人
关联规则发现:发现数据中与其他人相关的参数
常见项目集发现:寻找出现在不同组别的对象
序列模式发现:寻找特定序列出现的对象
分类:将数据分为各种类别
回归:预测数据集与正在挖掘的类似的行为
偏差检测:了解数据点是否与之前挖掘的模式相符
数据挖掘的过程
- 获取数据相关邻域的主题专业知识—“知道你在数据挖掘中将要做什么”很关键
- 定义目标
- 规划收集
- 为了使DM过程高效,往往需要进行数据预处理和清理。
- 数据整理和转换,旨在通过删除数据集的某些部分使数据更容易管理的算法。
- 选择要应用的方法。
- 选择具体的算法。
- 运行挖掘软件
- 找出结果的真正含义。
兴趣度
11.3日志数据挖掘简介
1.改进日志分析的质量,提供更好的答案和预测能力
2.提出不需要少有且昂贵的专业的高级和有效方法
日志分析面临的挑战:
- 过多的数据
- 没有足够的数据
- 各种各样的数据
- 假警报
- 重复数据
- 难以获得数据
- 减少对高技能的分析人员的依赖
- 处理其他较为常规的方法无法有效的分析稀疏数据
- 检测其他方法无法发现的隐藏事实。
- 将结论生成的负担转移到机器上
- 尝试预测问题
11.4日志数据挖掘的需求
1)数据集中化
2) 规范化
3)关系存储
常见字段包括
时间
来源
目标
协议
端口
用户名
事件/攻击类型
交换字节数
其他
11.5挖掘什么
1.受感染的系统传播恶意软件
2.遭到入侵的系统
3.成功的攻击
4.内部人员违规使用知识产权窃取
5.隐蔽通道/隐藏后门通信
6.探查增加
7.系统崩溃
探查:人们应该了解探查,但是不可能花费资源去寻找它们。
常见的失败攻击:如果你的安全架构很稳固,你就能够预测到失败的攻击,这些攻击的发生有各种原因,和探查类似,人们应该了解它们,但是不会花费资源去寻找它们
正常消息:日志充满了表明某些例行过程完成和其他正常的事件的消息,但是这些记录是用于审计和其他目的的,但是变化很重要,常规的消息停止出现,或者开始表现出较高或者较低的频率,这可能令人感兴趣。
被阻止的攻击:这和失败的攻击类似,如果你的安全措施阻止了攻击,即使这种攻击是你所没有想到的有趣攻击,也不需要立即采取行动,
系统状态更新:系统状态更新再某些不寻常的时候发生可能令人感兴趣。
11.6深入感兴趣的邻域
1.罕见的事物:由于某种原因,这并不寻常,如果发现之前没有发生过的事件,它很可能是恶意的,因此罕见的事件是我们挖掘的主要候选,罕见的攻击,罕见的系统消息,几乎从不登录的用户
2.不同的事物:虽然我们不提出“日志恐惧症”,但表现的“不相称”的日志记录必须加以挖掘。因为它们很可能包含有趣的信息。
3.古怪的事物: 如DNS系统连接到packet storm。Com 自动下载攻击工具,不需要任何基线和预先的数据收集工作
4.向不寻常的方向发展的事物:分析人员和管理人员可能发现,有些日志记录完全改变了正常的通信方向,
5.最寻常的事件:但是“X大事件”对于寻找有趣的日志记录及其模式仍然是有用的
6.最不寻常的事件
7.无趣事件的奇怪组合
8.其他无趣事件的计数
会话指:
源,目标,协议,源端口,目标端口
如果我们按照会话组织数据库中收集的事件,并记录每个会话记录中独特的事件数量,我们就有办法区分真正的攻击和合法流量及假警报,这种日志挖掘的方法使用一种通用的模式以获得潜在破坏性的特定及有趣结果,
更多推荐
所有评论(0)