笔记（2）-文本挖掘与机器学习-C-编程技术-六狼论坛-IT论坛-计算机论坛

fuhao_987 发表于 2013-1-26 16:02:38

笔记（2）-文本挖掘与机器学习

结果评价：
常用的有准确率（P-precision）、召回率（R-recall）和它俩的调和平均。
其中准确率表示返回结果中正确的比例，召回率表示所有正确结果中返回的比例。
用图表示就是
正确不正确返回的结果 A B 未返回的结果 C D
准确率：A/(A+B)
召回率：A/(A+C)
文本聚类的5个步骤：
（1）模式表示，包括特征抽取与选择，把文本表示成可计算的形式；
（2）根据领域知识定义模式之间的距离测度公式；
（3）聚类或者分组
（4）数据抽象表达
（5）评价输出结果
-------------------------------------------------------------------------------
作者提出图表示模型（GSM：Graph-based Space Model）,采用一种简化的方法来刻画序关系。按照如下方法来构造：
（1）原始文本：一个term序列t1,t2,t3...tn(term可以是一个字、词，或者短语、句子等) （2）图表示：graph={N,E,W},其中N为结点集，E为边集，W是边的权重。
（3）构图方法：将每个term作为一个结点，每条边表示的term与term之间的邻接共现关系，边的权重表示两个term共现的频率（体现该边的重要程度），这样就把文本的语义信息附加到其边上了。

页: [1]

六狼论坛's Archiver

笔记（2）-文本挖掘与机器学习