短文本建模的稀疏问题是短文本主题建模的主要问题, 文章提出基于词向量的短文本主题建模模型—语义词向量模型 (Semantics Word Embedding Modeling, SWEM)。采用半自动的方法对短文本信息进行扩充, 对短文本相应词语进行同义词林处理, 增加短文本集合中词共现信息, 丰富文档内容, 推理出较高质量的文本主题结构, 解决短文本的词共现信息不足的问题。实验表明, SWEM模型优于LDA、 BTM等传统模型。