特征工程——文本

需要注意,大部分的机器学习算法不能很好的处理稀疏数据

词袋模型

划分和转换 (tokenization and transformation)

tokenization
拆分后每个分组称为n-grams. 2个组合bigrams, 3个组合trigrams是出了单个unigrams之外常用的组合
transformation
处理大小写,取词干(stemming)、自定义数字、标点符号和特征字符处理等

向量化

Tips:通常删除终止词的做法是,删除出现次数高于阈值的所有单词(典型选择是90%)

主题建模

词频逆向文件频率(tf-idf)

\(tf - idf(term, doc, docs) = count(term in doc)\frac{count(docs)}{count(docs with term)}\)

tf计次的常用方法有:

  • 单词在文档中出现的次数
  • 二进制版,出现记1,否则为0
  • 对数版 (\(1 + \log[tf]\))

潜在语义索引LSI (或称潜在语义分析LSA)

  1. 通过词袋计数,构建词语-文档模型,行为属于,列为文档
  2. tf-idf或其他标准化方法,避免高频词,获得最值得词语-文档矩阵\(A\)
  3. 奇异值分解(SVD),将词语-文档\(A\)分解为\(T\)术语-概念矩阵 \(S\)奇异值 \(D\)概念-文档矩阵
  4. 选择最顶端的\(N\)个奇异值,取\(D\)中对应的行产生\(N\)个特征

对于新文档, \(D = A^TTS^{-1}\)产生新的特征, 其中\(A^T\)为使用字典对新文档的单词计数(或tf-idf)

概率方法(probablilistic methods)

pLSA是用概率对LSA进行模拟,一个广泛使用的版本是潜在狄利克雷分析(LDA),它基于一个假设:文档可以由较小的主题集进行描述,以及任意术语(单词)都可以归结为一个主题。 在实际使用中对于各种数据集LDA都表现的很好。

内容拓展

跟踪链接

通过深入跟踪文本中的web链接构建更大的文本语料库

基于知识的拓展

检测文本中的命名实体,并利用在线的命名实体知识库来扩展原始文本信息。

文本元特征(meta-features)

如主题标签,收藏zhuan’fa’shu