由于网友的要求和关注,本人计划以实现IDS内容恢复和内容检测为目标,写一下协议恢复的编程实现,开发环境 linux。由于本人技术能力和时间有限,其内容在以后逐步编写发布,内容有错误等,请大家指正。
大家对此有什么要求和看法,均可提出。
目录
1、协议恢复接收数据部分
2、如何处理接收到的数据
3、处理保存的数据
4、内容检测
5、需要的知识
1、协议恢复接收数据部分
软件环境:linux+mysql
硬件环境:网卡
设置网卡为混杂模式,这样网卡就可以监听网络上的数据。
本文对于接收网络数据是通过接收mmap io输入的原始数据包,经过一系列的处理,产生用于内容恢复、连接审计、实时监控的输出。本文只介绍内容恢复(包括内容检测),其他部分雷同。
如下图所示:
第一步:打开原始socket,为了接收数据。
if ((fd = socket(PF_PACKET, SOCK_RAW, htons(ETH_P_ALL))) < 0) {
perror("socket()");
return 1;
}
第二步:设置MMAP BUF大小等。
req.tp_block_size = BLOCK_SIZE;
req.tp_block_nr = BLOCK_NR;
req.tp_frame_size = FRAME_SIZE;
req.tp_frame_nr = FRAME_NR;
setsockopt(fd, SOL_PACKET, PACKET_RX_RING, (char *)&req, sizeof(req))
关于packet mmap的使用见http://pusa.uv.es/~ulisses/packet_mmap/packet_mmap.txt
所说的:
From the system calls stand point, the use of PACKET_MMAP involves
the following process:
[setup] socket() -------> creation of the capture socket
setsockopt() ---> allocation of the circular buffer (ring)
mmap() ---------> maping of the allocated buffer to the
user process
[capture] poll() ---------> to wait for incoming packets
[shutdown] close() --------> destruction of the capture socket and
deallocation of all associated
resources.
http://pusa.uv.es/~ulisses/packet_mmap/tmp/RFCDocumentation%20PACKET_MMAP%20memory%20allocation_new.txt
3、处理保存的数据 我们保存的数据可以是以IP,PORT,时间等关键字来保存,对于TCP协议来说,一个文件就是一个完整的TCP连接了,那么现在就可以读取文件来恢复数据了。 一般我们可以按照PORT来划分协议,比如21端口是FTP,23端口是TELNET,80端口是HTTP等,但有写协议可能以其他端口出现,例如HTTP,可以是8000,8080等等,可以根据数据内容来判断协议。 假如是HTTP协议,HTTP:根据客户端“GET、HEAD、POST”和服务端“200 OK”来判断是否是一个完整的请求,同时获取URL;
根据“Host:”来获取域名;
根据“Content-Type:”来判断文件类型;
根据“Content-Encoding: gzip”来判断GZIP;
根据“Transfer-Encoding: chunked”来判断是否以chunked方式编码传输。
例如SMTP协议,先根据“EHLO”或“HELO”获取用户名,如果有认证,就根据“AUTH PLAIN”或“AUTH LOGIN”信息来获取用户名,它们都是以BASE64编码(AUTH FOOBAR、AUTH CRA-MD5、AUTH DIGEST-MD5等);
根据“MAIL FROM:”,“SEND FROM:”,“SOML FROM:”来获取发件人;
根据“RCPT TO:”来获取收件人,这里收件人会是多个;
邮件的主体在“DATA”后面,邮件的主题从邮件里获取“Subject:”;
根据“Content-type: multipart/mixed;”来判断是否有附件,注意有的附件是以“begin”开始,“end”结束的。
根据服务端返回“250”来判断邮件结束,后面如果还有DATA,那就继续分析一个新的邮件。
这里对协议分析,我就简单介绍一下,其他协议也一样。根据自己的情况来增加所需要的协议。
4、内容检测 内容检测是在内容恢复的基础上进行的,我们上面已经对数据进行协议恢复,那么就可以根据我们设置的关键字进行检测了,对于一些数据是进行编码的,那么我们就需要解码后进行检测,例如SMTP,POP3等很多是mime编码后的数据,例如HTTP数据有的是GZIP编码,有的加了CHUNKED等等。 我这里只是提一下,大家可以根据自己的想法,发挥想象能力,做出更好的内容来。
5、需要的知识
A、基础知识,包括C,linux操作,socket等。
B、packet mmap io知识
C、算法 ,如AVL,hash,qsort,bm等,好的算法,提高处理效率。
D、编码知识,如BASE64,QP,GZIP,HZ,BIG5等。
E、协议知识,大量RFC等协议实现。
F、其他经典程序,如snort,tcpdump等都有此类似功能。