您的位置：首页 > IT科技 >

HPC+图计算的未开发潜力

时间：2021-11-01 10:26:16 来源：

在过去的几年里，人工智能已经跨过了从炒作到现实的门槛。如今，非结构化数据在普通组织中以每年 23% 的速度增长，知识图谱和高性能计算 (HPC) 的结合使组织能够在海量数据集上利用 AI。

全面披露：在我谈论图计算 + HPC 将变得多么重要之前，我应该告诉你，我是一家图计算、人工智能和分析公司的 CEO，所以我在这里当然有既得利益和观点。但我还要告诉你，我们公司是这个领域的众多公司之一——例如，DGraph、MemGraph、TigerGraph、Neo4j、Amazon Neptune 和微软的 CosmosDB，都使用某种形式的 HPC + 图计算。还有许多其他图形公司和开源图形选项，包括 OrientDB、Titan、ArangoDB、Nebula Graph 和 JanusGraph。所以这里有一场更大的运动，这是你想知道的。

知识图从看似不同的来源组织数据以突出实体之间的关系。虽然知识图本身并不新鲜(Facebook、亚马逊和谷歌多年来在可以理解用户意图和偏好的知识图上投入了大量资金)，但它与 HPC 的结合使组织能够理解异常和其他模式以无与伦比的规模和速度提供数据。

这有两个主要原因。

首先，图表可能非常大：10-100TB 的数据大小并不少见。今天的组织可能拥有包含数十亿个节点和数千亿条边的图。此外，节点和边可以有很多与之相关的属性数据。使用 HPC 技术，知识图谱可以跨大型集群的机器进行分片并并行处理。

HPC 技术对于大规模图计算必不可少的第二个原因是许多应用领域需要快速分析和推理。我遇到的最早的用例之一是国防高级研究计划局 (DARPA)，它首先使用 HPC 增强的知识图在其计算机网络中进行实时入侵检测。该应用程序需要构建一种称为交互图的特定知识图，然后使用机器学习算法对其进行分析以识别异常。鉴于网络攻击可能会在数月内未被发现(最近 SolarWinds 漏洞中的黑客至少潜伏了9 个月)，很明显需要立即查明可疑模式。

今天，我看到许多其他快速增长的用例出现，它们与数据科学家高度相关且引人注目，包括以下内容。

金融服务——欺诈、风险管理和客户 360

数字支付越来越受到关注——美国超过四分之三的人使用某种形式的数字支付。然而，欺诈活动的数量也在增长。去年，企图欺诈的美元金额增长了 35%。许多金融机构仍然依赖基于规则的系统，欺诈者可以相对容易地绕过这些系统。由于每天发生大量交易，即使是那些确实依赖人工智能技术的机构通常也只能分析在短时间内收集的数据。因此，当前的缓解措施缺乏对数据的全局视图，无法充分解决日益严重的金融欺诈问题。

一个高性能的图计算平台可以通过一个机器集群有效地摄取对应于数十亿笔交易的数据，然后运行复杂的图分析管道，例如中心性指标和图 AI 算法，用于集群和节点分类等任务，通常使用Graph神经网络(GNN) 为图中的实体生成向量空间表示。这些使系统能够识别欺诈行为并更有效地防止反洗钱活动。GNN 计算是浮点密集型的，可以通过利用张量计算加速器来加速。

其次，HPC 和知识图谱与图 AI 相结合对于进行风险评估和监控至关重要，随着互联全球金融市场的规模和复杂性不断升级，这变得更具挑战性。建立在传统关系数据库上的风险管理系统不足以识别庞大的交易、账户和用户池中的隐藏风险，因为它们经常忽略实体之间的关系。相比之下，图形人工智能解决方案从连接数据中学习，不仅更准确地识别风险，而且解释了为什么它们被视为风险。解决方案必须利用 HPC 在风险变得更加严重之前及时揭示风险。

最后，金融服务组织可以聚合各种客户接触点，并将其集成到客户旅程的 360 度综合视图中。通过最终用户(以及跨不同银行分支机构)进行的数百万种不同的交易和互动，金融服务机构可以改进其客户参与策略，更好地识别信用风险，个性化产品，并实施保留策略。

制药行业——加速药物发现和精准医疗

2009 年至 2018 年间，美国生物制药公司花费约 10 亿美元将新药推向市场。这笔钱的很大一部分被浪费在实验室中探索最终没有成功的潜在治疗方法上。因此，完成药物发现和开发过程可能需要 12 年或更长时间。特别是，COVID-19 大流行使具有成本效益和快速发现药物的重要性成为人们关注的焦点。

高性能图计算平台可以让生物信息学和化学信息学的研究人员使用异构数据源存储、查询、挖掘和开发人工智能模型，以更快地揭示突破性见解。及时且可操作的见解不仅可以节省金钱和资源，还可以挽救人的生命。

这些数据和 AI 驱动的药物发现的挑战集中在三个主要因素上——摄取和整合复杂的生物数据网络的困难、在这些数据中建立关系的努力以及在大量数据中提取见解的复杂性以可扩展的方式。与金融领域一样，HPC 对于在合理的时间范围内解决这些问题至关重要。

各大制药公司正在积极研究的主要用例包括用于癌症治疗的药物假设生成和精准医学，使用异构数据源，如生物信息学和化学信息学知识图谱，以及基因表达、成像、患者临床数据和流行病学信息来训练图 AI 模型。虽然有很多算法可以解决这些问题，但一种流行的方法是使用图卷积网络 (GCN) 将节点嵌入到高维空间中，然后使用该空间中的几何来解决链接预测和节点分类等问题.

另一个重要方面是图 AI 模型的可解释性。AI 模型不能被视为制药行业的黑匣子，因为行动可能会产生可怕的后果。前沿的可解释性方法，如 GNNExplainer 和引导梯度 (GGD) 方法是非常计算密集型的，因此需要高性能的图计算平台。

底线

图技术正变得越来越流行，组织和行业正在学习如何有效地利用它们。虽然有多种使用知识图谱的方法，但将它们与高性能计算相结合正在改变这一领域，并为数据科学家提供充分利用企业数据的工具。

免责声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，并不代表本站赞同其观点和对其真实性负责。如有侵权行为，请第一时间联系我们修改或删除，多谢。