百度飞桨发布PGL,最“工业化”的图学习框架

  • 时间:
  • 浏览:2

近日,在「WAVE Summit+」2019 波特率学习开发者秋季峰会上,百度对外发布基于飞桨的图学习框架Paddle Graph Learning (PGL)。

近几年来,波特率神经网络的成功推动了人工智能的发展,然而,在实际场景中,有絮状的数据是在非欧式空间的,这限制了波特率神经网络的应用。而图神经网络在非底部形态化数据上有着出色的解决能力,使得最近一段时间图神经网络在学界与工业界上大放光彩。

百度顺应潮流发布的PGL充分利用飞桨独有的Lod Tensor底部形态,实现了波特率并行的图神经网络消息传递机制,在性能上超越了DGL等现有图学习框架13倍。依托于飞桨核心框架以及自研的分布式图引擎,PGL可支持十亿节点百亿边的巨图训练。此外,PGL原生支持异构图Meta Path采样以及Message Passing双模式,预置了13种业界主流图学习算法,方便开发者熟悉和使用图神经网络领域模型。下面让他们让他们让他们让他们 逐一揭秘PGL的技术特色。

1. 高效:通用消息聚合性能超越业内主流框架DGL 13倍

图神经网络模型的独特优势在于充分捕捉数据中的底部形态信息。PGL采用消息传递范式(Message Passing)构建图神经网络的接口,用户只须要简单地编写send和recv函数就不不可不可不可不可以轻松的实现有另两个简单的GCN网络:其中send函数被定义在节点之间的边上,负责将消息从源点发送到目标节点;recv函数则负责将什么消息聚合起来。

目前,PGL提供两套聚合法律法律法律依据,一套是Scatter-Gather用于解决常见如求和聚合的法律法律法律依据,而另外一套则是基于飞桨Lod Tensor底部形态实现的并行通用的消息聚合法律法律法律依据。

如下图左所示,为了适配用户通用聚合函数,许多主流框架如DGL是串行地进行消息聚合,波特率较慢;而下图右所示的PGL则将消息队列看作一组变长的序列Lod Tensor,许多 利用飞桨的Lod Tensor Layers进行快速并行的消息聚合。

下表为使用LSTM作为聚合函数下GraphSAGE性能对比,得益于并行的消息聚合能力,PGL的波特率不不可不可不可不可以达到DGL的13倍。

数据集

PGL波特率 (epoch time)

DGL 波特率 (epoch time)

加速比

Cora

0.0186s

0.1638s

8.100x

Pubmed

0.0388s

0.5275s

13.59x

Citeseer

0.0100s

0.1278s

8.52x

2. 规模:支持十亿节点百亿边的超大规模图训练

依托于分布式图引擎以及大规模参数服务器Paddle Fleet,PGL可不不可不可不可不可以轻松在MPI集群上搭建分布式超大规模图学习算法。

如上图所示,超大规模图会以切分形式在分布式图引擎中存储,此外还提供诸如图信息访问、子图采样、游走等操作算子。在此之上则是PGL构建的分布式图训练模块,该模块会与参数服务器Paddle Fleet进行联动训练,满足用户数十亿节点Embedding学习需求。

3. 易用:轻松搭建异构图学习算法

在工业应用中,许多的图网络是异构。PGL针对异构图含有多种节点类型和多种边类型的特点进行建模,旨在为用户提供方便易用的异构图框架,让用户可不不可不可不可不可以快速构建自定义的异构图模型。目前,PGL支持异构图的Meta Path采样以及异构图的Message Passing机制。

Meta Path采样

上图展示了“用户与商品”的异构图——节点和边指在不同的类型。PGL为用户提供了简单易用的元路径采样接口来解决原本的异构图,如指定路径为UPU(user-product-user),PGL即可采样出累似 图中右边的采样序列。

Message Passing消息传递

异构图指在不累似 型的节点和边,为了融入Message Passing机制,PGL可不不可不可不可不可以在异构图中分别对不累似 型的边进行消息传递。最后将同有另两个节点在不同边类型的表示融合在同去。下图展示了PGL异构图Message Passing的过程。

4. 丰沛 :预置13种业界主流图学习模型

为了便于用户熟悉和使用图神经网络领域的模型,PGL预置了13种主流的图学习模型。什么模型含有了同构与异构、图表示学习与图神经网络、分布式训练等样例,可不不可不可不可不可以赋能推荐系统、知识图谱、用户画像、金融风控、智能地图等多个场景。用户可不不可不可不可不可以方便地根据自己的须要选泽不同的样例进行复现、修改、上线等。

模型

特点

GCN

图卷积网络

GAT

基于Attention的图卷积网络

GraphSage

基于邻居采样的大规模图卷积网络

unSup-GraphSage

无监督学习的GraphSAGE

LINE

基于一阶、二阶邻居的表示学习

DeepWalk

DFS随机游走的表示学习

MetaPath2Vec

基于metapath的表示学习

Node2Vec

结合DFS及BFS的表示学习

Struct2Vec

基于底部形态累似 的表示学习

SGC

僵化 的图卷积网络

GES

加入节点底部形态的图表示学习法律法律法律依据

DGI

基于图卷积网络的无监督表示学习

GATNE

基于MessagePassing的异构图表示学习



综合来看,图学习框架PGL依托于飞桨,在高效、规模、易用、丰沛 等方面具有独特优势。基于此,PGL已在百度内部内部结构与内部内部结构企业落地多个项目,赋能各行各业,为人工智能产业化大生产贡献力量。