非结构化数据对人工智能系统的发展至关重要。人工智能系统与用户的沟通越好,就越能自主学习,因此,它的效率也就越高。这一点很重要,因为如果一个人工智能系统只要求用户以结构化的格式进行交互,那么它的组件将受到极大的限制。为了让人工智能成功,它必须理解杂乱的信息。
在这种情况下,需要深入了解非结构化数据是如何发挥作用的。
非结构化数据的挑战
在人类的世界里,当人们进行对话时,如果不按礼仪说话。可能任何东西都会出现在我们的脑海中,以某种可能遵循或可能不遵循惯例的配置。人们可能使用俚语,讽刺和开玩笑。人们把日常语言和希望传达的信息组织成整齐的列和行是不自然的。语言本身就是非结构化的。
如果人们曾经与亚马逊公司的Alexa进行过互动,那么就会知道虽然Echo系统通常非常熟练地理解自由格式命令,但缺乏定义的协议有时会导致问题,或者至少在Alexa尝试回答时会产生幽默的回应查询不适合模具。亚马逊公司已投入大量资源和数百万美元用于创建和永久性地改进算法,使这种类似人类的语音能够响应命令,但正如Echo熟练解读自由流动语言一样,Alexa仍然存在缺陷。
Alexa示例强调了一种非结构化数据的复杂性。人工智能系统处理和创建与文本等效的数字的能力也是一项很高的要求,特别是当企业考虑细微差别和场景的重要性时。想象一台机器试图“理解”家庭度假中那张照片中发生的事情,或者是一部关于印象派的艺术史教科书中的图像。
与处理非结构化数据相关的复杂性可能是企业中人工智能的最大障碍。然而,它们并不是不可逾越的。
专业知识的重要性
非结构化数据本身就是噪声。因此,它需要大量的专业知识来突破、梳理和检测模式,然后开发识别这些模式的模型。数据科学家正在积极推动人工智能系统的改进,最大的成功表明人类的本能和经验是必需的。这通常发生在团队专注于非常狭窄的人工智能应用时。
以工作人员的赔偿索赔程序为例,对声明有深入了解的数据科学家团队可以根据他们发现的关键指标创建预测模型。它们包含非结构化数据,如诊断、药物信息、索赔记录等。这样做,人工智能系统评估早期指标,并确定某个索赔可能被拒绝。然后它可以向用户提供警报。索赔代表可以找出如何干预和给予特定索赔更小心,以防止索赔人的律师参与(通常被拒绝的索赔最终涉及律师,这会变得非常昂贵,需要很长时间才能解决)。
在这种情况下,很容易看出人工智能系统是如何为用户提供帮助的,而且当合并非结构化数据时,与单独依赖结构化数据相比,还大大提高了准确性。在非结构化数据(例如,关于共病的信息)中,有一个信息和洞察力的金矿,它无法一致地找到进入结构化数据的方法。每增加一条信息,人工智能系统就会变得更智能,结果也会得到改善。这将提高效率并降低索赔成本。
这只是将非结构化数据合并到企业人工智能系统中的一个好处示例。破解代码需要时间和努力,但回报正在获得前所未有的洞察力——与几天或几周相比,只需几分钟或几小时就可以获得。
非结构化数据是关键
展望未来,很明显每个人工智能系统都需要以自然的方式与用户交互。各组织必须对此高度重视。事实上,如果非结构化数据分析不是路线图的一部分,那么公司的产品存在巨大的差距。
尽管非结构化数据具有挑战性,但亚马逊、谷歌、苹果和其他公司为人工智能应用提供了许多机会。人们可以利用这些进步,并将它们应用到企业应用程序中,在这些应用程序中它们具有巨大的业务影响。
通过花时间应用专业知识和声音数据科学,人们可以取得重大突破。人们不仅要通过非结构化数据提高数据分析的准确性,还要在未来实现基本的新思维、沟通和利用信息的方式。