202411论文研读-Mobility Prediction via Rule-Enhanced Knowledge Graph

作者:QIAOHONG YU, HUANDONG WANG, YU LIU, DEPENG JIN, and YONG LI
单位:清华大学电子工程系,北京国家信息科学技术研究中心
来源:ACM Transactions on Knowledge Discovery from Data(TKDD)
发表时间:2024年10月

一、研究背景

现有数据驱动方法存在的问题:基于历史轨迹或完全连接的方式,无法有效捕捉轨迹的长期依赖关系,导致预测精度受限。
知识图谱技术的优势:(1)提取结构化知识: 从海量时空移动数据中提取结构化知识,更好地理解和建模用户的移动行为。(2)高效的推理路径: 从海量时空移动数据中提取结构化知识,更好地理解和建模用户的移动行为。

本文研究问题:
1、用户移动模式多样性: 如何在知识图谱框架下,统一建模不同用户多样化的时空移动模式。
2、关系事实依赖性: 如何提取并利用用户行为中不同类型关系事实之间的依赖关系。
本文提出的解决方案:
1、基于用户超平面的嵌入模型: 利用用户超平面捕捉不同用户移动模式的多样性。
逻辑规则提取与注入: 提取逻辑规则并注入知识图谱,协同学习不同类型的关系事实,更好地捕捉用户移动模式的语义信息。
2、用户相似访问关系: 定义用户相似访问关系,缓解数据不平衡问题,帮助数据稀疏的用户进行嵌入学习。

二、模型方法

系统工作流程

知识图谱构建

1、时空访问关系:用户在时刻t访问地点l,表示为(t,rv,l)
2、空间转移关系:用户在预定义的时间阈值Tmax内在位置l1和l2移动,表示为(l1,rT,l2)
3、时间紧密度关系:当且仅当两个时间单元t1和t2间隔小于Tmax且Δt=|t1-t2|,表示为(t1,rw(t2-t1),t2)
4、空间关联关系:当且仅当位置l1位于地区r1,表示为(l1,rL,r1)
5、空间类别关系:当且仅当任意位置l1的类别是类别c1时,表示为(l1,rC,c1)
6、相似访问关系:当且仅当用户u1和用户u2访问T个以上相同的POI或访问过的POI类别序列的余弦相似度大于θ,且一个用户的访问记录小于N,表示为(u1,rs,u2)

基于用户超平面的嵌入模型

首先,将每个实体(如地点、时间单元)和关系类型(如时空访问关系、空间转换关系等)映射到低维向量空间中。使用复数域评分函数来评估实体和关系的嵌入向量,从而衡量关系事实的可信度。
将每个用户视为一个不同的超平面,并使用该超平面的法向量来表示用户的个性化移动模式。并且计算每个实体和关系在用户超平面上的投影嵌入向量,以便更好地捕捉用户之间的差异。

在用户超平面上,使用复数域评分函数计算每个关系事实的可信度。该评分函数考虑了实体和关系的投影嵌入向量,并使用多线性点积来衡量它们之间的相似度。

逻辑规则提取

为了从知识图谱中获得可解释和隐含的规则,此论文利用Neural LP自动提取逻辑规则和相应的置信度,这克服了以往文献中使用固定规则的缺点。

1、Neural LP 通过最大化查询的得分来检索一个关系事实的排名列表。
2、Neural LP 通过学习参数来最大化查询得分,这些参数代表了规则和关系的置信度。
3、基于学习到的规则和关系,Neural LP 可以预测给定头实体的候选实体的得分。
4、通过优化参数,Neural LP 可以恢复出逻辑规则和置信度。

训练算法

移动预测

三、实验

数据集

1、北京地区用户通过应用请求定位服务时收集的真实移动的应用数据集。移动的应用程序数据集包含2016年9月17日至10月31日期间的用户轨迹。每个记录包括用户ID、时间戳和POI,即,用户请求微信的位置服务,如搜索、签到等。
2、来自纽约的公开Foursquare签到数据,从Foursquare API收集,从2012年4月3日到2013年2月16日。

基线模型

基于RNN的模型:DeepMove 、APHMP ;
基于自注意的模型:STAN;
基于GNN的模型:SACN、CompGCN;
基于KG模型:TNTComplEx、DE-Distmult、xERTE。

规则提取

位置预测

消融实验

-用户超平面意味着移除用户超平面的模块,即,没有用户信息。在实验中,我们定义路径表示向量为路径表示向量上所有实体和关系沿着的连接向量,以获得除两边的头实体和尾实体之外的路径表示向量。
-多层感知器(MLP)是指仅用路径上的沿着关系来表征路径表示,而放弃路径中的中间实体。
-规则是指去除提取的规则和对应的关系路径,并在不注入逻辑规则的情况下对定义的关系进行建模。

四、总结

该论文主要研究了如何利用知识图谱 (KG) 和逻辑规则来预测人类的移动行为。具体方法包括:
1、KG 构建: 定义了六种关系类型来表征用户的移动行为,包括时空访问关系、空间转换关系、时间邻近关系、空间归属关系、空间类别关系和相似访问关系。
2、基于用户超平面的嵌入模型: 使用用户超平面的概念来表征不同用户之间移动模式的差异。
3、逻辑规则提取: 利用 Neural LP 算法从 KG 中自动提取逻辑规则和对应的置信度。
4、注入逻辑规则: 将逻辑规则和对应的路径注入 KG 中,以协作学习不同类型的关系事实。
5、移动预测: 基于 KG 中的实体和关系嵌入向量,通过评估对应关系事实的可信度来预测用户的未来移动行为。

课题综合对齐思考

1、知识图谱的构建: 可以借鉴文章中构建知识图谱的方法,将文旅景点、区域、类别、时间等信息作为实体,并定义不同类型的关系(例如访问关系、转换关系、类别关系等)来描述游客的移动行为。
2、用户超平面的应用: 可以考虑使用用户超平面来区分不同游客群体的移动模式,例如根据游客的兴趣、年龄、出行目的等进行分组,并为每个群体构建个性化的 KG 模型。
3、逻辑规则提取: 可以利用文章中提到的逻辑规则提取方法,从 KG 中自动提取描述游客移动规律的规则。
4、基于知识图谱的嵌入模型: 可以参考文章中提出的基于用户超平面的嵌入模型,学习游客、景点、区域、时间等实体的嵌入向量,并利用这些向量来预测游客的下一个访问地点。