文档讨论了MSN用户的聚类分析,介绍了如何使用k-means算法进行中文文本的分词和清理无用数据。重点在于利用k-means计算文本的相似度和分群,分析了优缺点以及停止条件。整体内容涉及中文处理、文本相似度计算及聚类方法的应用。