关于知识表示学习中链接预测的评测指标的说明

在知识表示学习领域，普遍采用链接预测实验对模型的效果进行评估。在链接预测预测任务中，我们需要将测试集中的每个三元组 (h, r, t) 中的头实体（h）或尾实体（t）依次替换为字典里的所有实体。这些替换后的三元组被称为 corrupted triplets，即损坏的三元组。然后我们通过模型的评分函数对这些 corrupted triplets 进行评分并降序排列。显然，由正确的实体构成的那个三元组的排名越靠前，说明模型对实体的预测能力就越强。

Mean Rank 和 Hits@10

对于链接预测任务，主要有 Mean Rank 和 Hits@10 这两项评测指标。在完成评分排名后，找到正确的那个三元组，取其排名，整个测试集的所有正确三元组的平均排名就作为 Mean Rank 这项指标。而 Hits@10 则指的是正确三元组排在前十名的概率，即排在前十的个数/总个数。

Raw 和 Filter

在我们根据测试集构造 corrupted triplets 时，有些构造出来的三元组恰好属于这个知识图谱中，所以这种三元组的评分排在靠前的位置就在情理之中了，但这会影响对模型效果评价的准确性。因此，我们可以考虑把训练集、验证集和测试集中的这种 corrupted triplets 剔除出去，从而保证评价的公平性。我们将不做上述过滤操作的评估称为 Raw ，经过过滤操作的评估称为 Filter 或 Filt.。因此我们可以看到，相比于 Raw，Filt. 的 Mean Rank 会更低，Hits@10 会更高。