崔凯
- 作品数:4 被引量:58H指数:2
- 供职机构:国防科学技术大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于LDA的主题演化研究与实现
- 随着互联网的迅猛发展,网络成为越来越多的民众表达想法和观点的平台,网络舆论对社会舆论的导向作用日益强大。及时掌握网络热点主题的变化趋势成为网络舆情监测的重要内容。为了通过海量的网络文本数据及时的掌握舆情的态势变化,需要进...
- 崔凯
- 关键词:网络舆情文本挖掘LDA参数估计GIBBS抽样
- 文献传递
- 一种基于LDA的在线主题演化挖掘模型被引量:34
- 2010年
- 基于文本内容的隐含语义分析建立在线主题演化计算模型,通过追踪不同时间片内主题的变化趋势进行主题演化分析。将Latent Dirichlet Allocation(LDA)模型扩展到在线文本流,建立并实现了在线LDA模型;利用前一时间片的后验概率影响当前时间片的先验概率来维持主题间的连续性;根据改进的增量Gibbs算法进行推理,获取主题-词和文档-主题的概率分布,利用Kullback Leibler(KL)相对熵来衡量主题之间的相似度,从而发现主题演化中的"主题遗传"和"主题变异"。实验结果表明,该模型能从互联网语料中找出主题的演化趋势,具有良好的效果。
- 崔凯周斌贾焰梁政
- 关键词:主题模型LDA舆情
- 倒排索引建立方法
- 本发明提供一种倒排索引建立方法,所述倒排索引包括抽取结果表,所述抽取结果表包括文档号以及与该文档号相对应的抽取结果记录,所述抽取结果记录包括有类型、内容以及位置信息项;该方法包括:对由字符串格式表示的文档做分词操作,从所...
- 黄九鸣周斌贾焰邹鹏吴泉源杨树强韩伟红李爱平梁政单大甫蒋子海崔凯韩毅
- 倒排索引建立方法
- 本发明提供一种倒排索引建立方法,所述倒排索引包括抽取结果表,所述抽取结果表包括文档号以及与该文档号相对应的抽取结果记录,所述抽取结果记录包括有类型、内容以及位置信息项;该方法包括:对由字符串格式表示的文档做分词操作,从所...
- 黄九鸣周斌贾焰邹鹏吴泉源杨树强韩伟红李爱平梁政单大甫蒋子海崔凯韩毅
- 文献传递