数据不再难处理–简化工作流编排

为了进一步扩大吸引力,各大云计算供应商推出丰富完整的数据服务,涵盖数据摄取、存储、处理和分析。大部分新的数据驱动应用从一开始就是采用云技术开发的,Amazon EMR、Azure HDinsight和其他基于云的数据服务器等解决方案正在变得非常流行。
 
  我们来谈谈数据。现在,我们知道数据有不同形状和格式,这是我们从未经历过的。更重要的是,我们现在意识到数据的重要性。知识就是力量。数据已成为您和您的企业蓬勃发展和成功的强大动力。
 
  然而,成功不是仅仅取决于收集的数据量,甚至不是其质量决定的。葡萄酒制造商知道,如果不了解如何生产优质葡萄酒,再好的葡萄园也没有任何意义。因此,您可能守着最好的“葡萄园”采摘的数千“桶”数据,却仍然得不到预期结果–业务洞察。
 
  另一个重要方面当然是有得力的工具。大数据项目意味着借助并充分利用整个技术网络来帮助收集、存储、处理数据,最后进行分析。这是每一个大数据项目涉及的四个主要步骤,每个步骤都增加了复杂程度。
 
  这种复杂性随着云计算的引入只会增加。数字时代产生大量数据,需要的自然是更加经济的方案,而不是不断购买越来越多的硬件。
 
  为了进一步扩大吸引力,各大云计算供应商推出丰富完整的数据服务,涵盖数据摄取、存储、处理和分析。大部分新的数据驱动应用从一开始就是采用云技术开发的,Amazon EMR、Azure HDinsight和其他基于云的数据服务器等解决方案正在变得非常流行。
 
  工具和处理元素越来越多,需要很好地关联并协调运行,以确保数据管道不会中断。
 
  如何实现?简化工作流编排。
 
  您可以试着用脚本来解决这种复杂性。许多企业花费大量时间和资源编写维护脚本把一切搞定。但是,您总不会希望拿着高薪的数据工程师将时间用在运行管道上?这种解决方案如何扩展?您真的能够保证脚本与数据管道统一吗?
 
  通过与很多客户交谈,我了解到采用脚本没有想的那么好。不仅费用高,甚至会出现更为严重的后果–风险。企业真正需要的是可以协调整个数据管道的可靠产品–无论使用哪种技术。谁也不想要自动化孤岛,而是需要跨不同数据源端到端可视的数据管道。
 
  而且,正如我们所知,唯一不变的是变化,数据驱动项目更是如此。数据管道的各种元素经常发生变化,您需要利用编排解决方案为这种变化做好随机应变的准备。

本文来自信息化观察者网,转载请注明出处。

 

注:除标明原创外,均为网友或机构投稿分享,如有宣发需求请联系dongxizhiku@163.com。