云技术对现代企业来说变得比以往任何时候都更加重要。94%的企业投资于云基础设施,因为它提供的好处。
据估计,使用云的公司中有87%依赖于混合云环境。但是,一些公司使用其他云解决方案,这也需要讨论。
如今,大多数公司的云生态系统包括基础设施、合规性、安全性和其他方面。这些基础架构可以位于混合云或多云中。此外,多云系统根据组织需求从不同供应商处采购云基础设施。
混合云战略有很多好处,但也应该讨论多云基础架构的好处。多云基础架构意味着当您从不同供应商处获得技术时,这些供应商可以是私有的,也可以是公共的。混合云系统是结合不同云类型的云部署模型,同时使用本地硬件解决方案和公共云。
您可以安全地使用ApacheKafka集群,使用各种云服务(如Amazon的S3等)将数据从本地硬件解决方案无缝移动到数据湖。但请记住一件事,您必须在云集群中复制主题,或者您必须开发一个自定义连接器来从云读取和复制到应用程
不同ApacheKafka架构的五个主要比较
1.Kafka和ETL处理
可能将ApacheKafka用于高性能数据管道、流式传输各种分析数据或使用Kafka运行公司关键资产,但您是否知道您也可以使用Kafka集群在多个系统之间移动数据.
这是因为您通常会看到Kafka生产者发布数据或将其推送到Kafka主题,以便应用程序可以使用数据。但是Kafka消费者通常是定制的应用程序,它们将数据馈送到目标应用程序中。因此,您可以使用您的云提供商的工具,这些工具可以让您创建将提取和转换数据的作业,同时还为您提供加载ETL数据的优势。
Amazon的AWSGlue就是这样一种工具,它允许使用来自ApacheKafka的数据和Amazon管理的ApacheKafka(MSK)流。它将使您能够快速转换数据结果并将其加载到AmazonS3数据湖或JDBC数据存储中。
2.架构设计
在大多数系统案例中,第一步通常是构建一个响应迅速且可管理的ApacheKafka架构,以便用户可以快速查看这些数据。例如-如果您应该处理和记录具有许多关键数据集的文件,例如员工保险单表格。然后,您可以使用各种云工具来提取数据以进行进一步处理。
您还可以配置AWSGlue等基于云的工具,以连接您的本地云硬件并建立安全连接。三步ETL框架作业应该可以解决问题。如果您不确定这些步骤,那么它们是:步骤1:创建工具与本地ApacheKafka数据存储源的连接。步骤2:创建数据目录表。第3步:创建ETL作业并将该数据保存到数据湖。
3.连接
使用预定义的Kafka连接,您可以使用AWS胶水等各种云工具在数据目录中创建安全的安全套接字层(SSL)连接。此外,您应该知道这些连接始终需要自签名SSL证书。
此外,您可以采取多个步骤从信息中获得更多价值。例如,您可以使用QuickSight等各种商业智能工具将数据嵌入到内部Kafka仪表板中。然后另一个团队成员可以使用事件驱动架构来通知管理员并执行各种下游操作。尽管在处理特定数据类型时都应该这样做,但这里的可能性是无穷无尽的。
4.安全组
当您需要像AWSGlue这样的云工具在其组件之间来回通信时,您需要为所有传输控制协议(TCP)端口指定一个具有自引用入站规则的安全组。它将使您能够将数据源限制在同一个安全组;从本质上讲,它们都可以为所有流量预先配置一个自引用入站规则。然后,您需要设置ApacheKafka主题,引用这个新创建的连接,并使用模式检测功能。
5.数据处理
完成ApacheKafka连接并创建作业后,您可以格式化源数据,稍后您将需要这些数据。您还可以使用各种转换工具来处理您的数据库。对于此数据处理,请借助您之前创建的ETL脚本,遵循上述三个步骤。
结论
ApacheKafka是一种开源数据处理软件,在不同的应用程序中有多种用途。使用上述指南确定适合您的存储类型。