CMU 11642 Search Engine - 评估

如何评估文件的相关性

作者 QIFAN 日期 2017-03-08
CMU 11642 Search Engine - 评估

Cranfield Methodology

步骤:

  1. 获取一系列文本文件(documents)
  2. 获取一些信息需求(information needs)
  3. 获取相关结果集
  4. 用多种角度(人为)评判这些方法获取的结果集相关性
  5. 比较各个方法的效果和表现。

1. 获取文本文件(测试集)

这些文本文件应该满足无偏见,随机,较好的数据覆盖率。有一些标准的不同行业的测试集,如新闻类:NY Times, LA Times ;娱乐类:Tobacco litigation, patent 等等。但其实这些测试集或多或少都是不够客观的(biased)。

2. 获取信息需求

每个测试集测试十几个典型的查询。信息需求通过用户的查询展现,但搜索引擎永远也无法完全知道真正的需求。

4. 评估结果集相关性

一个结果文件是否相关取决于用户是否觉得有用。“相关性”是一个主观的概念,因为不同的用户对于同样的信息需求都会有不同理解和需要。

评估相关性的方式也有多种,一开始是对所有文件进行评估,但随着文件的增多,这样的方式显然不可行了。现在通常使用的是样本评估(pooling),方法是将多个不同 IR 系统的结果作为样本或者 “pool” ,只对 pool 里的文件进行评估。

5. 比较效果与表现(Metrics)

知道每个 Metrics 的适用情况。

Precision

返回结果中相关 / 返回文件数量

Recall

返回结果中相关 / 所有相关文件数量

P@n

排名前 n 的准确率

F-Measure

$F = \frac{1}{α\frac{1}{P}+(1-α)\frac{1}{R}}$

Average Results for Multiple Queries

  • Micro Average: 以文件为基准的平均结果,每个文件的权重一样。在 IR 中不常用。
  • Macro Average: 以查询语句为基准的平均结果,每个查询语句的权重一样。常用于 Ad-hoc

Mean Average Precision(MAP)

  • 计算每个相关文件在第 i 个查询的准确率 P
  • 每个查询上所有准确率的平均值

普及的原因:稳定,如果某个系统的 MAP 表现较好,那通常别的方法也表现好。

Mean Reciprocal Rank(MRR)

只关心最 relevant 的文件,常见。
RR = 1 / rank of first relevant document
MRR = 所有查询的 RR 平均值

Normalized Discounted Cumulative Grain(NDCG)

选取了多个方式来测量排名质量的统计结果。在搜索引擎中常用。

Rank Biased Precision(RBP)

选取了多个方式,并加入用户角度模型的测量排名质量的 Metrics 。

Cranfield@trec_eval

ad-hoc retrival 的一个标准评估工具。
返回下列数据:

  • 结果文件的基本信息:查询数,返回文件数,总相关文件数,返回的相关文件数
  • 统计信息:MAP,MRR 等等
  • 不同节点的结果质量(如不同 recall 节点)
  • 不同排名的准确率(P@n)

Cranfield@work

对于一些专业查询或者前沿的查询,普适性的测试集就不适用了,企业或者组织需要自己去搭建一个测试集。

Cranfield Methodology 评价

优点:实验条件清晰易实现,可重复实验
缺点:结果与测试集相关(适用范围比较窄),假设用户会看所有结果。

Interleaved Testing Methodology

Cranfield 适用于文本量不那么大的情况,但对于现在的海量文本,就显得不那么适用。
步骤:

  1. 输入由不同方式产生的两个查询结果排序
  2. 生成没有 bias 的由两个排序集合产生的新排序
  3. 把新排序返回,追踪用户点击,点击的更多的方法表示表现更好。

Balanced Interleaving

事先确定哪个 ranking 先走,如果碰到重复的往后跳一个

Team-Draft Interleaving

每次 random 确定哪个先走,如果碰到重复的就跳过