来源: 2024, CVPRW
作者: Congrui Hetang, Haoru Xue, Cindy Le
单位: Carnegie Mellon University
一、论文主要工作
为了预测图的拓扑结构,这篇文章设计了一种基于transformer的轻量级图神经网络,该网络利用SAM图像嵌入来估计顶点之间的边存在概率。
该方法可以直接预测大区域的图的顶点和边,而不需要昂贵和复杂的后处理启发式算法。
二、模型
编码器将图像分割成16×16个不重叠的块,然后将每个块编码成一个嵌入向量,产生一个(H_img/16,W_img/16,d_feat)张量。
解码器由4个转置的卷积层组成,它产生两个概率图作为(H_img,W_img,2)张量,大小与输入图像相同,表示交叉点和道路的存在概率。
使用相同的NMS算法从两个掩码中提取顶点。所有相交顶点的得分都高于任何道路顶点,再次对连接的集合进行NMS处理,以产生最终结果。
拓扑解码器基于目标的空间布局和图像上下文来预测源顶点是否应该与每个目标连接。
三、总结
课题综合对齐思考:
技术创新—数据拓扑标签计算:数据拓扑标签计算:这篇研究目的在于从图中发现顶点并构建拓扑结构,可以尝试将原始数据看作是图发现其中的拓扑结构。
技术目标—跨域知识结构对齐:这篇研究并不包含明显的跨域知识结构对齐。
场景功能—食养通:可以尝试通过其发现食物之间的拓扑关系。