在知识表示学习领域,普遍采用链接预测实验对模型的效果进行评估。在链接预测预测任务中,我们需要将测试集中的每个三元组 (h, r, t)
中的头实体(h
)或尾实体(t
)依次替换为字典里的所有实体。这些替换后的三元组被称为 corrupted triplets
,即损坏的三元组。然后我们通过模型的评分函数对这些 corrupted triplets
进行评分并降序排列。显然,由正确的实体构成的那个三元组的排名越靠前,说明模型对实体的预测能力就越强。
Mean Rank 和 Hits@10
对于链接预测任务,主要有 Mean Rank
和 Hits@10
这两项评测指标。在完成评分排名后,找到正确的那个三元组,取其排名,整个测试集的所有正确三元组的平均排名就作为 Mean Rank
这项指标。而 Hits@10
则指的是正确三元组排在前十名的概率,即排在前十的个数/总个数
。
Raw 和 Filter
在我们根据测试集构造 corrupted triplets
时,有些构造出来的三元组恰好属于这个知识图谱中,所以这种三元组的评分排在靠前的位置就在情理之中了,但这会影响对模型效果评价的准确性。因此,我们可以考虑把训练集、验证集和测试集中的这种 corrupted triplets
剔除出去,从而保证评价的公平性。我们将不做上述过滤操作的评估称为 Raw
,经过过滤操作的评估称为 Filter
或 Filt.
。因此我们可以看到,相比于 Raw
,Filt.
的 Mean Rank
会更低,Hits@10
会更高。