More Related Content
Similar to 项目描述(2).pdf (20)
项目描述(2).pdf
- 1. 项目目标:此项目的目标是让您实施多种神经信息检索方法,对其进行评估,并在多阶段排
序管道的背景下进行比较。
第 2 部分的具体目标包括:
1. 设置基础设施以索引文集并评估查询。
2. 实施神经信息检索模型(仅推断部分)
。
3. 检查在使用不同的神经模型时进行评估和分析的能力。
信息检索任务:网络段落排名
与项目的第 1 部分一样,
在第 2 部分中,
我们将考虑针对 Web 查询的开放域段落排名问题。
在这种情况下,用户向搜索引擎提出查询,并期望以段落的排序列表的形式获得答案(最多
检索 1000 个段落)
。
提供给您的内容包括:
来自实验课的文件。
从网页中提取的 880 万个文本段落的文集(collection.tsv - 在第 1 周提供)
。
用于 ANCE 模型的 PyTorch 文件(参考第 10 周的实验课)
。
标 准 DPR 模 型 , 使 用
BertModel.from_pretrained("ielabgroup/StandardBERT-DR").eval()来加载此模型。
项目的额外文件包括:
一个包含 30 个查询的查询开发文件,供您执行检索实验(data/dev_queries.tsv)
。
一个包含 30 个查询的查询开发文件(与之前的查询具有相同的查询标识,但查询文本中含
有拼写错误)
(data/dev_typo_queries.tsv)
。
一个包含可用于调整您的方法以适应开发查询的相关性判断的 qrel 文件
(data/dev.qrels)
。
- 2. 一 个 包 含 60 个 查 询 的 测 试 查 询 文 件 , 供 您 生 成 要 提 交 到 排 行 榜 的 运 行 文 件
(data/test_queries.tsv)
。
这个 Jupyter 笔记本,您将在其中包含您的实现、评估和报告。
一个包含文集的 TILDEv2 预先计算的术语权重的 HDF5 文件。从此链接下载。
拼 写 感 知 的 DPR 模 型 , 使 用
BertModel.from_pretrained("ielabgroup/StandardBERT-DR-aug").eval() 来 加 载 此 模
型。
将此笔记本和提供的文件放在同一目录下。
您需要完成以下工作:
1. 根据项目规格要求正确实现所需的方法。
2. 解释所使用的检索方法,包括表示您实现的模型的公式和实施该公式的代码,解释所遵
循的评估设置,并讨论研究结果。请参考评分表,了解每个要求的评分方式。
3. 您需要在此 Jupyter 笔记本中完成这两个任务。
在项目的第 2 部分中,您需要实现以下检索方法作为两阶段排序管道(bm25 + 一个密集
型检索器)
。所有实现都应该基于您的代码(除了 BM25,您可以使用 Pyserini 内置的
SimpleSearcher)
。
1. ANCE Dense Retriever:使用 ANCE 对 BM25 的前 k 个文档进行重新排名。请参考第
10 周的实验课获取背景信息。
2. Standard DPR Dense Retriever:使用标准 DPR 对 BM25 的前 k 个文档进行重新排名。
请参考第 10 周的实验课获取背景信息。
- 3. 3. Typo-aware DPR Dense Retriever:拼写感知的 DPR 是一种在训练样本中使用拼写错
误的增强的 DPR 模型,请使用提供的这个模型对 BM25 的前 k 个文档进行重新排名,推断
与标准 DPR Dense Retriever 相同。
4. TILDEv2:使用 TILDEv2 对 BM25 的前 k 个文档进行重新排名。请参考第 10 周的实验
课获取背景信息。对于 TILDEv2,与实验课中所做的不同,我们为整个文集提供了预先计算
的术语权重(有关更多详细信息,请参见“初始包和函数”单元格)
。这意味着您可以在
TILDEv2 的重新排名速度方面具有快速性能。利用这一优势,权衡排名管道的效果和效率。
您应该已经尝试了上述大部分实现,作为计算机实验课的一部分。
所需的评估任务:
在项目的第 2 部分中,您需要执行以下评估任务:我们考虑两种类型的查询,一种包含拼
写错误
(即排印错误,
如将"iformation"写成"information")
,
另一种已经纠正了拼写错误。
在项目中评估的一个重要方面是比较在具有拼写错误和没有拼写错误的查询上搜索方法的
检索行为(请注意,这与项目的第 1 部分相同)
。
1. 对 于 所 有 方 法 , 请 在 data/dev_typo_queries.tsv ( 带 有 拼 写 错 误 的 查 询 ) 和
data/dev_queries.tsv(相同的查询,但拼写错误已经纠正)上使用 data/dev.qrels 执行
性能评估,使用四个评估指标(见下文)
。
2. 在 data/dev_queries.tsv 上报告每种方法的效果和效率(平均查询延迟)
,不需要考虑
拼写错误的查询,并在表格中提供重新排序的相应截止 k。对这些方法的结果进行统计显著
性分析,并在表格中报告。
- 4. 3. 生成一个增益-损失图,比较上述四种所需方法中在 data/dev_typo_queries.tsv 上的
nDCG@10 方面最有效和最不有效的方法。
4. 在 比 较 您 的 发 现 时 , 评 论 观 察 到 的 趋 势 和 差 异 。 拼 写 感 知 的 DPR 模 型 在
data/dev_typo_queries.tsv 查询上是否胜过其他方法?在评估 data/dev_queries.tsv 查
询时,
是否有迹象表明这个模型失去了效力?这种增益/损失是否在统计上具有显著性?
(请
记住为此任务执行 t 检验)
。
5. (可选)根据从开发集上实施的方法,在 data/test_queries.tsv 上提交运行结果到排行
榜系统(这不计入此作业的分数,但排行榜上的排名最高的学生可以向 Guido Zuccon 教
授请求推荐信)
。提交链接为:https://infs7410.uqcloud.net/leaderboard/,其他说明参
考项目 1。
关于评估指标,请使用 nDCG@10(ndcg_cut_10)
、1000 的倒数秩(recip_rank)
、MAP
(map)和 1000 的召回率(recall_1000)来评估检索方法。对于所有统计显著性分析,
使用成对 t 检验,并区分 p<0.05 和 p<0.01。