“大数据”正在改变我们观察许多问题的方式。Julian Assange的Wikileaks网站所发布的文件正是来自各种各样的分类资源。该网站负责这些突然公开信息的编程人员现在已经从7.7万个涉及阿富汗战争的事件报告中剥离出了日期和地址,编织了一幅暴力地图。这个项目用了一个晚上,而让人惊讶的是,只是根据一个模型,研究人员就可以在很高的准确度下预测出接踵而至的军事事件。
这个方法被用于分析2010年的事件,结果甚至在相对平静的阿富汗北部省份也显示出相当的准确性,尽管那里的数据点比较少。我们所看到的就好像是科幻小说家Isaac Asimov在《基地》中所描述的“心理历史”。这个“心理历史”就是通过对历史、社会学和统计数据的组合的分析来预测未来事件。大数据有能力前所未有地存储更多的信息,而且计算机的计算能力在提高。结果就是:我们可以处理那些一直以来看起来在我们的统计和量化分析范围之外的问题,甚至这正在发生在我们的个人电脑上。
一个早期的开拓者就是谷歌。该公司已经为1800年至2000年所有印刷出来的书籍中的4%编制了索引,并且在这个图书库中发布了包含每一个词的数据库。对我们来说,“电视”这个词在电视机发明以前不应该出现,但是在谷歌的数据库中,我们可以看到这个词早在1900年以前就出现过几次了,而且从20世纪20年代早期开始便持续出现。仔细观察这个网站,你会发现很多意思的事情。你可以插入几个单词,然后绘制出它们相对于其他单词的使用情况。
商业机会
在你寻找商业机会的时候,应该好好看看大数据趋势。一个确定会发生的情况就是智能手机的存储不断提高,相机技术更加普及。许多未来学家已经在展望所谓的“生活日志”。它们是下一代设备--我们将在未来几年内一直携带的那种东西--的结果,也就是说,这些设备将不仅记录我们在哪里,还将记录我们所看到的和听到的。你可以想象,你可以用这种技术来持续跟踪你自己的习惯,标识出你最经常消费的地方,帮助你回忆出你可能已经忘记的地方和名字。
现在,大数据正在用于带来各种好奇的和未决的结果。斯坦福大学教授Jure Leskovec跟踪网络行为的数据,使用像Facebook这样的社交网络,他不是用于跟踪朋友和家庭的信息,而是挖掘其中的统计信息。Leskovec发现正确的方法可以预测哪个联系用户将会添加为“好友”--在他所研究的一半的案例中,这个方法显示出相当的准确性。他研究了MSN的信息,发现了用户之间的距离,同时他也研究了如何在任意两台计算机之间创造最短的路径,这样可以为互联网提高效率。
终极解决方案
但是如果你想让这股趋势朝向真正有用的地方,你可以考虑其他斯坦福研究者的成果。他们开发出了针对整个生物组织的首个软件模拟。目前它还只是一个单细胞细菌,但是模型中已经涉及525个基因以及28类分子的互动,使得我们可以观察和分析细胞的最基本构建单位。计算机生物学将大数据引入了计算机化实验,可以建模并测试那些针对生命最糟糕问题的解决方案:比如像癌症和阿尔茨海默病。
我们还只是处于这股潮流的开端。当人们开始自愿提供他们自己的数据的时候--想想社交网络--他们将帮助从执法到人力资源的每个人构建出统计模型以方便预测未来行为。下次你发送一条Tweet信息的后,要记住你是在为数据仓库增加数据量(康奈尔大学的科学家已经在研究Twitter使用情况)然后想想公司企业将如何在未来利用这些大数据。