CMU 11642 Search Engine - 垃圾网页检测

作者 QIFAN 日期 2017-04-29
CMU 11642 Search Engine - 垃圾网页检测

定义

通常 web spam 指的是垃圾广告网页,本文从其影响搜索引擎结果的角度出发定义为:web spam 指那些被设计成欺骗或操纵搜索引擎的网页。

有些 web spam 是为了误导爬虫,有些通过 inlink 和 outlink 来操纵 PageRank ,本文关注的重点是那些误导搜索结果(ranking)的那一类 web spam 。

检测 Web Spam

通常用机器学习来判断一个文件是否是 spam 。套路是:

  • 训练集:人工标记的文件
  • 机器学习算法
  • 文件 feature (重点讨论)

Popularity features

流量大的网页通常不会是 spam

URL features

  1. 被劫持与过期域名
    垃圾广告公司通过抢注域名或者获取那些快要过期的域名来混淆检测算法。
  2. 域名打包
    垃圾广告发送者为了省钱会把很多垃圾页面都放在同一个域名下
  3. url 长度
    url 越长,越有可能是 spam
  4. 权威域名
    有些域名申请严格如 edu gov org,所以不容易被用作 spam
  5. ip 地址
    包含 ip 地址的 url 更可能是 spam

基于内容的 feature

  1. 页面单词数
    页面长度越长,是 spam 的可能性越大。并不是很可靠。
  2. 标题单词数
    标题越长,越有可能是 spam 。比页面单词数要可靠一些。
  3. 平均单词长度
    平均长度越长越有可能是 spam 。垃圾页面通常充斥这很多用多个单词拼凑起来的长单词,为了匹配到用户的拼写错误。
  4. Manufactured Web Pages
    恶意广告的惯用伎俩,这类网页通过插入热门搜索词,再加上一些正常内容让页面看起来无害,用户一旦点击,就会被重定向到某个产品的页面。这类网页可以用基于语言统计的定理来检测,如 zipf 定理看网页 stopwords 的词汇与频率是否合理

web spam 数据集

WEBSPAM-UK2007, WEB SPAM CORPUS 2011
free, web, email, home, search 这些词是 web spam 中的高频词。