近日,据《法制日报》调查,有一些简历大数据公司利用爬虫“偷”简历、推送垃圾广告等;今年1月,界面新闻也曾报道超过2亿求职者简历信息被泄露。
不法分子或竞争对手,通过非法手段获取求职人员的家庭住址、手机号码、邮箱、婚育状况、教育背景等信息,再根据市场的不同需求,倒卖相关信息。例如,很多人会莫名收到婚恋网站、教育机构、房产中介机构等的电话、邮件信息,这让包括应聘者在内的所有人不得不担心个人信息安全问题,但普通人却对这种行为束手无策。
而这些所谓的简历大数据公司或第三方平台是如何轻易地“偷”走成千上万份简历的呢?
信息泄露的多数情况是由于不法分子通过大量低频爬虫,非法收集数据,而这种爬虫的访问频率甚至低至每小时几次,平台难以识别异常。另外则很大程度上来自竞争对手动用大量IP池,快速爬取平台简历信息。
一般而言,成功爬出简历上的详细信息,需要三个步骤:
1、确定目标平台,设置好爬虫参数以及解析模式后,爬虫会自动寻找并收集目标页面。
2、爬虫对目标页面进行解析,抽取有意义的信息。
3、将信息保存到本地数据库,用于数据变现。
更为细思极恐的是,数据公司向不法分子或竞争对手直接提供爬虫工具,有的爬虫工具可以追踪到每份简历修改了哪些地方,比如哪个版本修改了教育经历,哪个版本修改了工作经历,以及哪个版本修改了电话号码、住址等。
目前由于使用爬虫技术爬取简历的操作一直处于法律灰色地带,所以不法分子更加肆无忌惮,这也是多数招聘公司和个人感到无能为力的地方。
当前很多工具反爬效果不佳,解决方案又因定制成本高,接入复杂,过度依赖规则、情报中心等而导致误报率高,无法识别真正的安全问题及未知威胁,多数企业依然承受着平台数据被“爬”的痛苦。
在上述背景下,白山云科技(下称“白山”)旗下的云安全产品——ATD(深度威胁识别)打破了传统安全产品局限性。
ATD产品通过实时流式大数据分析技术,基于无监督学习,利用动态行为建模、多源低频威胁识别等大数据和人工智能技术,帮助平台精准识别爬虫、CC攻击、撞库、暴力破解、薅羊毛等各种攻击。
ATD实时数据展示
ATD统计数据展示
同时,ATD的大数据离线UEBA(用户行为分析),能让平台完全摆脱由于人工配置而导致的安全威胁容易遗漏、系统定制成本高、可维护性差的问题。在人工智能技术的基础上,ATD内集成了SOAR(安全编排自动化响应)平台,帮助企业实现任意的威胁处理逻辑。
此外,不少企业苦于接入第三方产品后,内部信息安全性无法保证,直接拒绝了使用除公司内部以外的安全产品,但ATD特有的旁路部署功能,无需嵌入业务内部系统,更无需企业修改代码、配置等,就能有效发挥作用。
国内某著名招聘公司对安全问题高度重视,主动防范爬虫风险。
该招聘平台接入ATD产品后,ATD帮助其精准识别了非法爬虫和撞库问题,每天识别恶意爬取行为超过1亿次,撞库IP超过1万个。借助地理信息,成功识别竞争对手来源,同时帮助该平台排除了低频爬虫隐患,每月帮助企业避免数据损失超过500万。
ATD数据分析架构图
由于ATD特殊的软件架构,其除了适用于招聘平台外,在游戏、航空、金融、医疗、电商、家电、教育、出版业等领域相关场景下同样得到了广泛应用。