拯救你的存储与算力,AI+ NAS还能这样玩?

随着大数据时代的到来,人们每天会产生大量的图片、视频、音频、文字等信息,如何让这些海量的信息给人们的生活带来便利,如何让存储的数据更安全,让数据更智能,是每个企业需要考虑的重要内容。如何用 AI 赋能存储,也是许多企业探索的热门方向。这篇文章,InfoQ 就将带大家深入挖掘 AI 技术如何为海量的企业数据赋能。

拯救你的存储与算力,AI+ NAS还能这样玩?

在 InfoQ 此前的多期文章中已提到过 NAS 技术,今天我们要讨论的是,当 NAS 应用越来越普及时,该如何借助 AI 使其变得更智能化,更切合于办公需求或家用需求。试想,如果小 A 可以通过语音指令控制 NAS;通过 NAS 一键实现对照片色调的精准调整或自动辨识重复照片;甚至在开发场景下,还能通过 NAS 预测每一颗硬盘的损坏趋势报告……会释放出使用者更加多的劳动力,使其集中在更高效的事务中。今天,这项技术正在发生。

随着大数据时代的到来,人们每天会产生大量的图片、视频、音频、文字等信息,如何让这些海量的信息给人们的生活带来便利,如何让存储的数据更安全,让数据更智能,是每个企业需要考虑的重要内容。如何用 AI 赋能存储,也是许多企业探索的热门方向。这篇文章,InfoQ 就将带大家深入挖掘 AI 技术如何为海量的企业数据赋能。

数据从产生到存储到加工,再到利用 AI 技术提供智能服务的过程,是一个数据生态的闭环。企业用户通常会将数据存储在云端,而随着数据的积累,保证用户数据的安全性是企业重点思考的方向。磁盘故障导致数据丢失、损坏,对企业和用户的利益都受不同程度的影响。下面介绍通过几个场景案例来介绍 AI 技术如何为企业数据赋能。首先,介绍智能磁盘故障预警;其次,介绍公共安全方向,智能视频监控和影像深度分析;最后,介绍 AI 技术在生活和办公方面的应用。

智能磁盘故障预警

早在上个世纪九十年代,人们就意识到数据的宝贵性胜于硬盘自身价值,渴望有种技术能对硬盘故障进行预测并实现相对安全的数据保护,因此 S.M.A.R.T 技术应运而生。其原理是通过侦测硬盘各属性,如数据吞吐性能、马达起动时间、寻道错误率等属性值和标准值进行比较分析,推断硬盘的故障情况并给出提示信息,帮助用户避免数据损失。但使用该项技术的劣势在于用户只有可能在硬盘状况较差时才能感知异样,所存数据依然有丢失风险。因此硬盘损坏预测技术就是为了达到提前预警的效果,在发生问题前提早备份或更换硬盘,达到 0 数据丢失。

而对于运维工程师来说,处理磁盘故障是日常工作中常见的任务。一旦磁盘发生故障会对业务造成很大程度的影响,甚至造成数据丢失等更为严重的后果,从而为企业带来较大的经济损失。为防患于未然,利用 AI 技术学习历史磁盘故障的数据信息,能够有效预测出即将产生故障的磁盘,在问题发生前期提早做出告警并及时解决问题,或将数据进行迁移拯救重要的数据资料,以减少数据丢失给企业带来的损失。

目前,大多数企业的数据都是在云上存储。但面对云存储新技术,政策动向为市场的前景蒙上一层薄雾。面对近来“云上数据”事故频发,管制愈来愈趋紧的网盘产品,从企业到个体,都在为自己的数据去处捏上一把汗。尤其是对于很多中小企业而言,更需要性价比高且安全高效的工具解决其数据存储问题。其中有买硬盘的、有升级网盘的、也有买 NAS(Network Attached Storage,网络附属存储)的,不过相比于硬盘和网盘,NAS 的大众传播度可能没那么高。说白了,NAS 就是存储服务器,其最重要功能就是储存,形成家庭或者办公室的数据中心。

近期,国内 NAS 实践者——群晖基于自身多年的数据存储和 AI 技术经验,研发了自动(智能)监控磁盘故障系统,该项功能也即将推出上市并开放。自动(智能)监控磁盘故障系统可以提前预警磁盘是否可能存在重大故障。它们用超过 300 万颗磁盘的数据进行机器学习训练,训练出一套可靠的损坏预测模型。模型中考量了两百多个因素,主要为 S.M.A.R.T. 相关的数值、核心错误、以及硬盘的 metadata,如温度、硬盘空间使用率等,因而能非常精准地预测磁盘发生故障的时间以及损坏的重要程度。

在系统的使用界面中,会显示每颗硬盘分别的损坏预测记录图,借由读取到的硬盘资料每天产生出一个损坏可能值,用户能将损坏可能值和图中的临界线一并查看,从而推断是否需要更换硬盘。如果损坏情况超过规定临界线,则代表此硬盘在近期内有大概率可能损坏。经过群晖内部技术专家的实际测试和验证,一旦预测值超过警戒线,硬盘在近期内会损坏的概率达到了近 90%,这也意味着,由该系统损坏模型分析出来的准确率能高达 90%。

为了让运维工程师更方便地管理磁盘,该系统内部也集成了可视化的界面,让工程师可以实时观察到磁盘的预测情况。处于高风险状态的磁盘,会给出红色预警的警戒线。实际监控中的截图请见下图,经过多轮优化,群晖磁盘故障预警系统目前预测判断出高风险磁盘的准确率达到 90%。

拯救你的存储与算力,AI+ NAS还能这样玩?

图解:将判断结果转换成图表,让用户能在界面上清晰地看到每一颗硬盘的预测状况。图标走势超过警戒线变红,代表这颗硬盘处于高风险状态

随着企业业务的发展和数据的积累,构建更智能服务需要存储大量的数据。基于机器学习的智能监控,是每个企业都在积极探索和发力的方向。对于大企业而言相关的人才和资金都有较大支持,但对于中小企业而言,为了节约成本,可借助第三方积累的专业经验获得更好的监控。

智能监控 & 深度影像分析

除硬盘故障预判这一应用场景外,群晖还发布了智能监控(Surveillance Station,Deep Video Analytics (DVA))方案,其主要采用图像处理、模式识别和计算机视觉技术等,通过在监控系统中增加智能视频分析模块,并借助强大的云计算能力,实现对不同物体的自动识别。另外,通过分析抽取视频源中的关键及有用信息,能帮助用户快速准确地定位事故现场,判断监控画面中的异常情况、触发警报。智能影像分析的系统(DVA)结合群晖自身研发的深度学习网络结构,能够非常快速且精准地识别物体。

智能监控系统当前在安防领域应用非常广泛。国内多家企业都使用了比较成熟的解决方案。然而,群晖在探索监控识别的精准度层面做了更多的新尝试,借助多年积累的 NAS 经验,将自动识别的 AI 运算在 NAS 本地做计算,这样可以加大对视频影像的深度分析、挖掘。在非常复杂的干扰环境下,也可以很精准的识别物体。

例如,在街道上,想监控电瓶车、摩托车开到人行道上的危险情况,用一般的动作侦测,人或电瓶车只要经过都会列为「有东西经过」;但 DVA 就智能很多,它懂得分辨行人走过是正常行为,只会在电瓶车开上人行道上的时候才通报。

另外, DVA 还可以统计人流,统计有多少人次进出监控的门或区域,并可以自动生成人流报告;还可以设定禁止逗留的区域、侦测有哪些外来物件在环境里,或是有哪些东西丢失,非常适合超市、零售业和商场使用。这样大大提升了其应用场景的多样性,如在夜间的安防工作中实现对人流中可疑物体的跟踪统计。

AI 智能相册

智能手机的普及能让我们更方便地记录日常难忘的瞬间。但是,如果人工来处理图片的检索和分类会极其繁琐且耗时。现在,借助 AI 强大的能力,可帮助我们对图片做智能分类,国内外着名的互联网企业,如 Google、百度、腾讯、阿里等都提供云端的智能图片分类服务。但是,如果用户将自己的个人照片上传到公有云,让云端进行图片识别、分类,用户的照片可能被平台运用在深度学习优化或第三方其他用途。用户的隐私安全受到牺牲,也是大多数用户比较介意的。

为保护用户隐私,群晖借助自己的 NAS 存储的优势,自主研发了基于 NAS 上的智能相册功能,并嵌入到了 Moments 套件中。用户在自建私有网盘及下载 Moments 套件后,就可享受智能图像识别、图像分类等服务。

一方面,群晖智能相册,能够自动根据具体的拍摄场景和人物,实现自动分类,让用户从繁琐的图片分类任务中解放出来。另一方面,群晖研发团队最近又有新的探索——将智能的触角延伸到图像处理,一是推出了“智能校正”的功能,用户可以智能校正图片,一键修正拍摄照片的角度和自动调色。二是推出图片“去重”功能,主要用于对比照片和照片之间的特征,从而判断照片是否相同。为了能够加速整体运算速度,使使用者在 NAS 上存放的数以万计的照片,该功能内置的技术是先将图片做初步压缩,用离散余弦变换 (discrete cosine transform, DCT) 的方式,计算出属于该照片的一连串数字化特征。再基于每张照片分别计算出特征并进行快速比对、计算结果。只要结果的数值在内部调校得出的范围之内,就判断为相似的照片并归类在同一群组内,用户可自行决定是要保留或删除。

此外,在日常办公与邮件读取场景中,群晖也有一定的实践。借助其 NAS 经验和 AI 技术,群晖依托智能邮箱 MailPlus 应用落地实现了自动标注、自动分类邮件的功能。利用机器学习技术,学习用户历史的操作习惯和日常往来的重要人物,自动帮助用户标注重要邮件和自动回复重要的邮件。

AI+NAS,释放更大潜力

AI 技术在被应用的某些阶段或流程中,工作负载会表现出很大的差别,这对存储系统也提出了很高的要求。在深度学习的场景中,需要一个共享的存储空间来收集和存储数据。这不仅要支撑顺序读写的大块工作负载,也要支撑随机读写的小块 IO 的工作负载。因此,AI+NAS 技术在未来的多项应用场景中或将得到更进一步的突破进展。

例如,如何实现无人机能够自行躲避障碍物,甚至对工厂的管道自动识别裂缝并进行标记,以防止可意外情况的发生可能,是无人机 AI 技术应用场景中一项较为棘手的问题。面对数据模型、算法训练等多项工作,前端会有多台工作站进行学习,素材库的数据量会非常大,所以需要对大量文件的频繁存取,就可以使用群晖 NAS 保存数据。

随着问题规模的不断增大,数据量的不断增加,以及训练用的神经网络深度的深度的不断增加,AI(深度学习)技术未来将对存储和计算能力的需求越来越大。NAS 作为高可靠、高可用的存储设备,可以结合 AI 技术释放更大的潜力。

NAS 的未来一定不仅仅是“简单存储”

在 InfoQ 的观察中,NAS 的未来一定不仅仅是“简单存储”,而是基于 NAS 实现更多的创新,例如群晖的这些举措,本质上是在鼓励用户基于 NAS 托管和开发 IoT、AI 和机器学习解决方案,围绕存储向个人、家庭和企业用户提供亟需的解决方案能力。

同时从某种程度上说,NAS 盒子是 AI 应用程序的理想选择,因为训练模型时使用的相关数据一定需要强大的存储空间。但将 AI 技术应用于 NAS 的过程中,也依然需要保持 NAS 本身相关的易用性。因此,在 NAS 设备上加入包括对 AI 或 IoT 应用的支持,例如群晖利用 AI 技术在企业细分市场提供存储管理多重可能,也是在构建另一层技术壁垒。

本文来自信息化观察者网,转载请注明出处。