硬聚类计算的是硬分配——每个文档都恰好属于一个聚类。软聚类算法的分配是软的——文档的分配是所有聚类的分布。在软分配中,文档在多个聚类中具有部分成员资格。降维方法可以被视为软聚类的一个子类型;对于文档,这些方法包括潜在语义索引(对术语直方图进行截断奇异值分解)和主题模型
在实际应用中,文档聚类通常采取以下步骤:
1. 标记化
标记化是将文本数据 顶级电子邮件列表 解析为更小的单位(标记)(例如单词和短语)的过程。
2. 词干提取和词形还原
不同的词法单元可能包含类似的信息(例如,分词和分词)。你可以使用各种词干提取和词形还原词典,将所有词法单元还原为其基本形式,从而避免重复计算类似的信息。
3.删除停用词和标点符号
有些标记的重要性不如其他标记。例如,“the”本的本质特征帮助不大。因此,在进行进一步分析之前,通常最好先排除停用词和标点符号。
4. 计算词频或 tf-idf
文本数据预处理完成后,就 莫斯科天空的秘密 可以生成特征了。对于文档聚类,生成文档特征的最常用方法之一是计算所有词频。虽然这种方法并不完美,但这些词频通常可以提供一些关于文档主题的线索。
5. 聚类
然后,您可以根据已生 巴哈马商业指南成的特征对不同的文档进行聚类。
6. 评估与可视化
最后,聚类模型可以通过各种指标进行评估。有时,将聚类结果绘制到低维(二维)空间中有助于可视化结果。