fuhao_987 发表于 2013-1-26 16:02:38

笔记(2)-文本挖掘与机器学习

结果评价:
常用的有准确率(P-precision)、召回率(R-recall)和它俩的调和平均。
其中准确率表示返回结果中正确的比例,召回率表示所有正确结果中返回的比例。
用图表示就是
                           正确       不正确 返回的结果      A            B 未返回的结果    C         D
准确率:A/(A+B)
召回率:A/(A+C)
文本聚类的5个步骤:
(1)模式表示,包括特征抽取与选择,把文本表示成可计算的形式;
(2)根据领域知识定义模式之间的距离测度公式;
(3)聚类或者分组
(4)数据抽象表达
(5)评价输出结果
-------------------------------------------------------------------------------
作者提出图表示模型(GSM:Graph-based Space Model),采用一种简化的方法来刻画序关系。 按照如下方法来构造:
(1)原始文本:一个term序列t1,t2,t3...tn(term可以是一个字、词,或者短语、句子等) (2)图表示:graph={N,E,W},其中N为结点集,E为边集,W是边的权重。
(3)构图方法:将每个term作为一个结点,每条边表示的term与term之间的邻接共现关系,边的权重表示两个term共现的频率(体现该边的重要程度),这样就把文本的语义信息附加到其边上了。
页: [1]
查看完整版本: 笔记(2)-文本挖掘与机器学习