网络暴力识别与多维度分析对网络舆情态势感知和管控具有十分重要的意义,当前的网络暴力研究主要集中在用户负面情感分析、舆情危机治理及外部网络生态优化等方面,缺乏对网络暴力的定量分析研究,无法在复杂的网络环境中及时感知网络暴力发展态势和组成结构。通过分析网络暴力在文本中的存在形式和结构特征,提出了一种基于文本语义的网络暴力分析方法(text semantic based approach for cyber violence analysis,TSCA)。该方法首先运用互信息理论创建暴力领域情感词典,根据暴力领域情感词典和语义环境从评论语料库中生成负面情感词组集;然后,通过卡方检验对负面情感词组集进行暴力特征筛选,生词暴力词组集;最后,从文本和用户角度对网络暴力进行定量计算和多维度分析。在真实的网络热点事件评论文本数据集上与其他方法进行了对比,实验结果表明:该方法达到了良好的网络暴力特征识别效果。
目的:探讨基于条件随机场(conditional random field,CRF)与规则相结合的中文电子病历命名实体识别。方法:基于条件随机场和规则相结合的方法来识别实体,将语言、关键词、词典等作为特征,识别出的结果再利用规则进行优化。结果:与条件随机场的方法相比,条件随机场和规则相结合的方法识别准确率提高到78.98%,召回率和F值也提高到88.37%和83.41%。结论:基于条件随机场和规则相结合的方法来识别实体,准确率和召回率满足应用需求,为电子病历后续研究奠定了基础。