202510 论文研读-Semantic-Driven Topic Modeling Using Transformer-Based Embeddings and Clustering Algorithms

来源: 2024,  ICCL

作者: Melkamu Abay Mersha, Mesay Gemeda yigezu, Jugal Kalita

单位:美国科罗拉多大学科罗拉多斯普林斯分校工程与应用科学学院

一、论文主要工作

这篇研究引入了一种创新的端到端语义驱动的主题建模技术,用于主题提取过程,利用高级单词和文档嵌入以及强大的聚类算法。它利用上下文语义信息来提取连贯和有意义的主题。模型使用预先训练的基于转换器的语言模型来生成文档嵌入,降低嵌入的维度,基于语义相似度对嵌入进行聚类,并为每个聚类生成连贯的主题。

二、模型

三、实验结果

四、总结

这篇研究引入了一种新的主题建模方法,该方法利用转换器模型提供的丰富上下文信息从文档集合中生成主题。该模型使用SBERT来获取句子嵌入,降低这些句子嵌入的维度,使用基于密度的聚类算法识别语义相似的密集句子向量空间,并提取代表这些语义密集区域或簇的连贯主题。