想体验无人商店,英特尔开源分布式深度学习库

作者: 科技传媒  发布:2019-08-13

原标题:想体验无人商店?去京东他们家直接刷脸!

图片 1

2018年1月,亚马逊在西雅图的无人超市对外营业,吸引北美媒体和市民众多眼球。不过他们不知道,2017年10月,中国的在线零售巨头京东的无人商店和无人超市已经对外开放了。更有趣的是,在京东的无人商店和无人超市里,当你选好自己要买的东西之后,只需“刷脸”就能完成支付过程,钱包什么的,完全不用拿出来啦。

出处 | AI前线说起英特尔,为人们所津津乐道的是其突出的“硬”表现,实际上,英特尔的“软”实力在全球也是排名前列。要让硬件充分发挥出性能潜力,必然需要进行软件上的优化,这方面的工作可谓关键且极具挑战。近日,InfoQ 记者有幸采访了英特尔公司架构图形与软件集团副总裁和数据分析技术总监马子雅,她所带领的 IAGS/SSP 部门负责的正是针对英特尔硬件的软件优化工作,致力于为合作伙伴和用户提供大数据分析和 AI 的最优体验。

近日,英特尔开源了一个运行在 Apache Spark 上的分布式深度学习库 BigDL,其可以利用已有的 Spark 集群来运行深度学习计算,并且还能简化从 Hadoop 的大数据集的数据加载。

在购物的整个过程中,结算环节是重点,更是难点。顾客选择的商品,品类多种多样,包装彼此不同,如何保证在尽量短的时间之内确定商品的具体品类和价格?除了扫描条码之外,还有其他方法吗?

在采访中,马子雅为我们解读了英特尔软硬件结合的全栈式人工智能解决方案,并重点分享了过去两年英特尔对外开源的重要项目 BigDL 和 Analytics Zoo 的最新变化和进展。马子雅表示,Spark 在英特尔的硬件上能够得到最好的优化,而 BigDL 和 Analytics Zoo 自开源以来得到了广泛关注,采用情况好于预期。加速人工智能落地,必须“软硬兼施”

开源地址>>>

当然有,京东选择了更神奇的方法:选好商品后,你可以把它们挨个放在智能结算台上,其中有集成摄像头,借助京东这些年积累的实拍数据,利用图像识别技术完成结算,当你走出结算通道后,人脸识别、智能摄像头等技术就会自动完成付款啦。

近年来,互联网数据飞速增长,据英特尔统计:目前全球有超过一半的数据是在过去两年内产生的,而这其中只有不到 2% 是真正经过分析并产生价值的。英特尔近日在全球多地召开的发布会上推出了一系列以数据为中心的产品组合,包括第二代至强可扩展处理器、傲腾数据中心内存和存储解决方案、Agilex FPGA、以太网 800 适配器。正是为了应对数据激增的变化,英特尔为数据传输、存储、计算和处理提供了一套完整的解决方案。而在这套解决方案里,硬件并非全部。

据介绍,在 Xeon 服务器上的测试表明,BigDL 相比于 Caffe、Torch 或 TensorFlow 等开源框架实现了显著的速度提升。其速度可与主流的 GPU 相媲美,而且 BigDL 也能扩展到多达数十个 Xeon 服务器。

图片 2

马子雅早前曾在采访中表示,英特尔致力于为客户提供最好的服务,而非单纯的硬件或软件。对于这一点,马子雅再次强调,英特尔是一家人工智能技术解决方案供应商,致力于为客户提供完整的全栈式人工智能解决方案。

图片 3

京东大数据平台部负责人,京东副总裁翁志介绍,“顾客的方便,来自于京东长期以来在AI和大数据方向的技术积累,集成各种传感器的智能货架、智能结算台、智能价签、智能摄像头等多种智能技术,贡献良多。”

在芯片层面,英特尔提供广泛的技术方案,包括通用型芯片到专用型芯片等,涵盖由边缘到数据中心的广泛领域。CPU、GPU、加速器、FPGA、内存 / 存储、互连以及安全硬件等都在英特尔的业务范畴之内。

BigDL 库支持 Spark 1.5、1.6 和 2.0,并且允许将深度学习嵌入到已有的基于 Spark 的程序中。其中包含了将 Spark RDD(Resilient Distributed Datasets,弹性分布式数据集)转换成 BigDL 定义的 Dataset 的方法,并且也可以直接运用到 Spark ML Pipelines 上。

分析图像,提取特征,还得靠通用架构

除此之外,英特尔还提供经过全面优化的软件,用以加速并简化 AI 技术的开发与部署,具体涵盖库、框架以及工具与解决方案等层面。

为了进行模型训练,BigDL 应用了一个同步小批量随机梯度下降(synchronous mini-batch SGD),该过程在跨多个执行器(executor)的单个 Spark 任务中执行。每一个执行器都执行一个多线程引擎并处理一部分微批量数据(micro-batch data)。在当前的版本中,所有的训练和验证数据都会加载到内存(memory)中。

京东公司成立二十年,在线商城已经运行了十四年。这么多年下来,京东积累了一个庞大的在售产品目录,产品图像多达数亿张。它们都保存在分布式大数据存储库 Apache HBase中,用Hadoop框架加以处理。为了满足客户在各种场景下的不同需求,京东希望可以匹配、提取不同产品图像中的特征。比如,客户逛街时发现一款自己喜欢的咖啡杯,只要拍下来,京东就可以根据照片为客户找到满足他要求的咖啡杯。对于京东自己来说,还可以利用图像识别和匹配功能,与其他网站上的产品进行匹配,京东就可以调整自己的定价策略,强化自己的竞争力。此外,京东还对外提供公共云服务,类似功能还可以提供给公共云的客户,帮助他们开发符合自己需求的全新图像分析应用云平台。现在,在京东对外开放的技术能力中,“图片质量检测”和“以图搜图”功能已经可以对外提供给其他开发团队使用了。

图片 4

BigDL 是用 Scala 实现的,并且模仿了 Torch。类似于 Torch,它也提供了一个 Tensor 类,其使用了 Intel MKL 库进行计算。Intel MKL 是英特尔的数学核心函数库(Math Kernel Library)的缩写,其中包含了一系列为计算优化过的历程,其中包括 FFT(快速傅立叶变换)和矩阵乘法等等,这些计算在深度学习模型训练中有广泛的应用。另外受到 Torch 的 nn 包( 借鉴了 Torch,提出了 Module 的概念,用于表示单个神经网络层、Table 和 Criterion。

京东的技术团队接下图像分析这个任务后,一开始,他们曾尝试使用图形处理单元(GPU)创建特征匹配应用,然而并不顺利,因为在扩展性上遇到很多问题,必须手工管理众多设备和系统,手工处理负载均衡和容错;而且在数据处理过程中还出现很多延迟,不足以支持生产环境需求。

在解决方案层面,英特尔能够开发、应用并共享完整的 AI 解决方案,从而加快客户从数据到洞察结论的推进过程。此外,英特尔还通过 ai.intel.com 网站发布案例研究成果、参考解决方案以及参考架构,以便客户能够在界定探索范围以及自行构建类似的 AI 解决方案时作为指导。

BigDL 还提供了一个 AWS EC2 镜像和一些案例,其中包括:文本分类(使用卷积神经网络)、图像分类、以及将 Torch 或 Caffe 中预训练的模型加载到 Spark 中用于预测计算的方法。目前社区讨论区上大多数用户请求 BigDL 支持 Python,以及开发 MKL-DNN(MKL 的深度学习扩展)。

图片 5

在平台层面,英特尔提供多种一站式、全堆栈且用户友好的系统方案,可由客户快速部署并加以使用。例如,英特尔 Deep Learning 云 / 系统(原名为 Nervana Platform with Nervana Cloud 以及 Nervana appliance)就是一套“一站式”系统,旨在缩短深度学习客户的开发周期。

以下是 BigDL GitHub 项目的 README.md 介绍:

后来,京东决定基于现有的服务器和通用处理器架构开展工作,而且取得了显著成效。他们的图像数据存储服务器基于英特尔至强处理器 E5 家族,技术团队使用 BigDL 深度学习库来部署 Caffe 模型,性能提升了3.83倍,这让京东将来可以更快捷地提供基于图片的全新服务。

在工具层面,英特尔提供大量生产力工具,用以加速数据科学家与开发人员的 AI 开发进程。包括:英特尔深度学习 Studio、英特尔深度学习开发套件、英特尔 OpenVINO 工具包、英特尔 Movidius 软件开发套件等。

BigDL:在 Apache Spark 上的分布式深度学习

在大数据分析领域,Apache Spark项目已经成为事实上的标准。该项目起始于加州大学伯克利分校,几个创始人后来成立了Databricks公司,成立五年来,专门提供大数据分析服务。在分布式机器学习领域,他们也选择了 BigDL 项目,与本身的原生Spark技术集成,提升Spark在模型训练,预测和调优方面的表现。

在框架层面,英特尔立足硬件对最流行的各类开源框架进行优化,同时推动其加速发展。客户能够根据自身情况任意选择最符合需求的单一或多种框架。

BigDL 是什么?

京东在基于英特尔至强处理器 E5-2650 v4 的服务器上运行 BigDL,完成深度学习提取图片特征过程。Big DL同时支持横向扩展,只要添加新的标准英特尔至强处理器服务器,就能够实现高效横向扩展,延展到数百乃至数千台服务器。京东使用了带有 1200 个逻辑内核的高度并行架构,大幅加快了从数据库中读取图像数据的流程,整体性能提高了 3.83 倍。性能的提升,也要归功于英特尔在核心算法层面的优化。BigDL 使用英特尔数学核心函数库MKL 和并行计算技术,充分发挥了至强处理器的性能。

在库层面,英特尔持续对各类库 / 基元(例如英特尔 MKL/MKL-DNN、clDNN、DAAL 以及英特尔 Python 发行版等)进行优化。另外还推出了 nGraph 编译器,旨在使各类框架能够在任意目标硬件之上实现最佳性能。

BigDL 是一个用于 Apache Spark 的分布式深度学习库。使用 BigDL,用户可以像编写标准 Spark 程序一样编写深度学习应用,并且可以直接将其运行在已有的 Spark 或 Hadoop 集群上。BigDL 有哪些优点呢?

借助 BigDL 框架,京东还在自己已有的通用硬件上使用 Caffe、Torch 和 TensorFlow 等框架中的预训练模型,这让他们以更快的速度测试和推出新服务,同时无需投入专用硬件。也就是说,不需要购买、运行独立的 GPU 集群。京东可以重复使用现有的硬件资源,从而降低了总体拥有成本。结合Apache Hadoop 和 Spark 框架来处理资源管理工作,未来能够更轻松地开发新应用,同时保持高效性能。

马子雅目前所在的 IAGS/SSP 部门,其主要职责就是为在英特尔平台上运行各类大数据分析与 AI 解决方案的客户提供最佳体验,让硬件性能更优。其中一项核心任务就是与整个生态系统合作,立足英特尔的硬件对大数据分析 /AI 堆栈进行优化,从而提供更出色的性能、安全性与可扩展性。

丰富的深度学习支持。类似 Torch,BigDL 提供了全面的深度学习支持,包括数值计算(通过 Tensor)和高层面的神经网络;此外,用户还可以使用 BigDL 将预训练的 Caffe 或 Torch 模型加载到 Spark 程序中。

家门口刷脸购物不是梦

以业界广泛使用的大数据框架 Apache Spark 为例,英特尔一直是 Spark 开源社区的活跃贡献者。在围绕 Spark 的大数据分析技术,比如实时流式分析、高级图分析、机器学习等方面,英特尔高级首席工程师、大数据技术全球 CTO 戴金权所领导的团队始终处在业界领先地位。他们为很多大型互联网公司提供了大数据分析的技术支持。比如 2012 年,戴金权团队帮助优酷使用 Spark 做分布式的大数据分析,使得其图分析的效率提高了 13 倍以上。他们还帮助腾讯在 Spark 上构建大规模稀疏机器学习模型,将模型规模的量级提高了十倍以上,模型的训练速度提高了四倍以上。

极高的性能。为了实现高性能,BigDL 在每一个 Spark 任务中都使用了 Intel MKL 和多线程编程。从而使得 BigDL 在单节点 Xeon(与主流 GPU 媲美)上能够实现比当前开源的 Caffe、Torch 或 TensorFlow 快几个数量级的表现。

毫无疑问,京东是中国零售领域的领军企业,技术上,京东同样具有前瞻性思维,前文提到的京东的无人商店和无人超市刷脸完成购物,就是一个很好的证明。

为了让更多的大数据用户、数据工程师、数据科学家、数据分析师能够更好地在已有大数据平台上使用人工智能技术,2016 年底,英特尔开源了基于 Spark 的分布式深度学习框架 BigDL,此后不久又在 Spark、TensorFlow、Keras 和 BigDL 之上构建了大数据分析 AI 平台 Analytics Zoo。通过这两个开源项目,英特尔正在推动先进的 AI 技术能更好地让广大用户使用。开源框架和平台:BigDL 与 Analytics Zoo

有效的扩展。BigDL 可以利用 Apache Spark(一种超快的分布式数据处理框架)以及同步 SGD 的有效实现和在 Spark 上的 all-reduce 通信来进行有效地扩展,从而可在「大数据规模」上执行数据分析。

图片 6

初衷:填补大数据分析与 AI 结合的空白点

为什么选择 BigDL?

《福布斯》专门撰文报道:京东希望使用当今最先进的技术创新开发新的解决方案,创建面向未来的零售运营体系;京东正在推动人工智能、大数据和机器人技术的发展,为第四次工业革命建立零售业的基础设施。到那一天,你在家门口的便利店和超市里面就能直接刷脸买东西啦。

近年来,许多公司都开始尝试在他们的分析流程中添加 AI 功能,但真正应用到生产环境却进展缓慢。实际上,深度学习模型的训练和推理只是整个流程的一部分,要构建和应用深度学习模型,还需要数据导入、数据清洗、特征提取、对整个集群资源的管理和各个应用之间的资源共享等,这些工作事实上占据了机器学习或者深度学习这样一个工业级生产应用开发大部分的时间和资源。而这样一套基础设施部署之后,再推倒重来是不现实的。

如果你满足以下条件,你就应该使用 BigDL 来编写你的深度学习程序:

在您的既有IT基础上,按需构建人工智能更高效。人工智能,从至强开始。点击搭乘至强特快专列,即刻开启您的人工智能之旅吧。返回搜狐,查看更多

Apache Spark 与 Apache Hadoop 等大数据平台如今已成为业内数据存储处理和分析的事实标准,英特尔的客户中有大量 Spark、Hadoop 用户,很多企业都已经在生产环境建立了一定规模的大数据集群。虽然市面上已经有主流的深度学习框架,但英特尔在这里看到了将大数据分析与人工智能结合起来的一个空白点,这也是两年前英特尔推出 BigDL 的初衷。

  • 你想在数据存储(比如以 HDFS、HBase、Hive 等方式)于的同一个大数据(Hadoop/Spark)集群上进行大量数据的分析。
  • 你想为你的大数据(Spark)程序和/或工作流添加深度学习功能(不管是训练还是预测)。
  • 你想使用已有的 Hadoop/Spark 集群来运行你的深度学习应用,然后将其动态地共享给其它工作负载(如 ETL、数据仓库、特征工程、经典机器学习、图分析等等)。

责任编辑:

图片 7

【编辑推荐】

本文由金沙国际唯一官网发布于科技传媒,转载请注明出处:想体验无人商店,英特尔开源分布式深度学习库

关键词: