SlideShare a Scribd company logo
1 of 6
Download to read offline
项目目标:此项目的目标是让您实施多种神经信息检索方法,对其进行评估,并在多阶段排
序管道的背景下进行比较。
第 2 部分的具体目标包括:
1. 设置基础设施以索引文集并评估查询。
2. 实施神经信息检索模型(仅推断部分)
。
3. 检查在使用不同的神经模型时进行评估和分析的能力。
信息检索任务:网络段落排名
与项目的第 1 部分一样,
在第 2 部分中,
我们将考虑针对 Web 查询的开放域段落排名问题。
在这种情况下,用户向搜索引擎提出查询,并期望以段落的排序列表的形式获得答案(最多
检索 1000 个段落)
。
提供给您的内容包括:
来自实验课的文件。
从网页中提取的 880 万个文本段落的文集(collection.tsv - 在第 1 周提供)
。
用于 ANCE 模型的 PyTorch 文件(参考第 10 周的实验课)
。
标 准 DPR 模 型 , 使 用
BertModel.from_pretrained("ielabgroup/StandardBERT-DR").eval()来加载此模型。
项目的额外文件包括:
一个包含 30 个查询的查询开发文件,供您执行检索实验(data/dev_queries.tsv)
。
一个包含 30 个查询的查询开发文件(与之前的查询具有相同的查询标识,但查询文本中含
有拼写错误)
(data/dev_typo_queries.tsv)
。
一个包含可用于调整您的方法以适应开发查询的相关性判断的 qrel 文件
(data/dev.qrels)
。
一 个 包 含 60 个 查 询 的 测 试 查 询 文 件 , 供 您 生 成 要 提 交 到 排 行 榜 的 运 行 文 件
(data/test_queries.tsv)
。
这个 Jupyter 笔记本,您将在其中包含您的实现、评估和报告。
一个包含文集的 TILDEv2 预先计算的术语权重的 HDF5 文件。从此链接下载。
拼 写 感 知 的 DPR 模 型 , 使 用
BertModel.from_pretrained("ielabgroup/StandardBERT-DR-aug").eval() 来 加 载 此 模
型。
将此笔记本和提供的文件放在同一目录下。
您需要完成以下工作:
1. 根据项目规格要求正确实现所需的方法。
2. 解释所使用的检索方法,包括表示您实现的模型的公式和实施该公式的代码,解释所遵
循的评估设置,并讨论研究结果。请参考评分表,了解每个要求的评分方式。
3. 您需要在此 Jupyter 笔记本中完成这两个任务。
在项目的第 2 部分中,您需要实现以下检索方法作为两阶段排序管道(bm25 + 一个密集
型检索器)
。所有实现都应该基于您的代码(除了 BM25,您可以使用 Pyserini 内置的
SimpleSearcher)
。
1. ANCE Dense Retriever:使用 ANCE 对 BM25 的前 k 个文档进行重新排名。请参考第
10 周的实验课获取背景信息。
2. Standard DPR Dense Retriever:使用标准 DPR 对 BM25 的前 k 个文档进行重新排名。
请参考第 10 周的实验课获取背景信息。
3. Typo-aware DPR Dense Retriever:拼写感知的 DPR 是一种在训练样本中使用拼写错
误的增强的 DPR 模型,请使用提供的这个模型对 BM25 的前 k 个文档进行重新排名,推断
与标准 DPR Dense Retriever 相同。
4. TILDEv2:使用 TILDEv2 对 BM25 的前 k 个文档进行重新排名。请参考第 10 周的实验
课获取背景信息。对于 TILDEv2,与实验课中所做的不同,我们为整个文集提供了预先计算
的术语权重(有关更多详细信息,请参见“初始包和函数”单元格)
。这意味着您可以在
TILDEv2 的重新排名速度方面具有快速性能。利用这一优势,权衡排名管道的效果和效率。
您应该已经尝试了上述大部分实现,作为计算机实验课的一部分。
所需的评估任务:
在项目的第 2 部分中,您需要执行以下评估任务:我们考虑两种类型的查询,一种包含拼
写错误
(即排印错误,
如将"iformation"写成"information")
,
另一种已经纠正了拼写错误。
在项目中评估的一个重要方面是比较在具有拼写错误和没有拼写错误的查询上搜索方法的
检索行为(请注意,这与项目的第 1 部分相同)
。
1. 对 于 所 有 方 法 , 请 在 data/dev_typo_queries.tsv ( 带 有 拼 写 错 误 的 查 询 ) 和
data/dev_queries.tsv(相同的查询,但拼写错误已经纠正)上使用 data/dev.qrels 执行
性能评估,使用四个评估指标(见下文)
。
2. 在 data/dev_queries.tsv 上报告每种方法的效果和效率(平均查询延迟)
,不需要考虑
拼写错误的查询,并在表格中提供重新排序的相应截止 k。对这些方法的结果进行统计显著
性分析,并在表格中报告。
3. 生成一个增益-损失图,比较上述四种所需方法中在 data/dev_typo_queries.tsv 上的
nDCG@10 方面最有效和最不有效的方法。
4. 在 比 较 您 的 发 现 时 , 评 论 观 察 到 的 趋 势 和 差 异 。 拼 写 感 知 的 DPR 模 型 在
data/dev_typo_queries.tsv 查询上是否胜过其他方法?在评估 data/dev_queries.tsv 查
询时,
是否有迹象表明这个模型失去了效力?这种增益/损失是否在统计上具有显著性?
(请
记住为此任务执行 t 检验)
。
5. (可选)根据从开发集上实施的方法,在 data/test_queries.tsv 上提交运行结果到排行
榜系统(这不计入此作业的分数,但排行榜上的排名最高的学生可以向 Guido Zuccon 教
授请求推荐信)
。提交链接为:https://infs7410.uqcloud.net/leaderboard/,其他说明参
考项目 1。
关于评估指标,请使用 nDCG@10(ndcg_cut_10)
、1000 的倒数秩(recip_rank)
、MAP
(map)和 1000 的召回率(recall_1000)来评估检索方法。对于所有统计显著性分析,
使用成对 t 检验,并区分 p<0.05 和 p<0.01。
项目描述(2).pdf
项目描述(2).pdf

More Related Content

Similar to 项目描述(2).pdf

需求分析(一)(第三章)
需求分析(一)(第三章)需求分析(一)(第三章)
需求分析(一)(第三章)surfwave
 
IT445_Week_10_Part2.pdf
IT445_Week_10_Part2.pdfIT445_Week_10_Part2.pdf
IT445_Week_10_Part2.pdfAiondBdkpt
 
同济优秀课程设计 - 软件测试报告
同济优秀课程设计 - 软件测试报告同济优秀课程设计 - 软件测试报告
同济优秀课程设计 - 软件测试报告Kerry Zhu
 
软件工程 第十一章
软件工程 第十一章软件工程 第十一章
软件工程 第十一章浒 刘
 
开放源代码的全文检索Lucene
开放源代码的全文检索Lucene开放源代码的全文检索Lucene
开放源代码的全文检索Luceneyiditushe
 
硕士开题答辩 严一格-R4
硕士开题答辩 严一格-R4硕士开题答辩 严一格-R4
硕士开题答辩 严一格-R4严 一格
 
软件工程 第三章
软件工程 第三章软件工程 第三章
软件工程 第三章浒 刘
 
臺灣地方議會議事錄總庫介紹 20111214
臺灣地方議會議事錄總庫介紹 20111214臺灣地方議會議事錄總庫介紹 20111214
臺灣地方議會議事錄總庫介紹 20111214uunurnum
 
系統整合
系統整合系統整合
系統整合麒 王
 
Itpub电子杂志第四期第二稿
Itpub电子杂志第四期第二稿Itpub电子杂志第四期第二稿
Itpub电子杂志第四期第二稿yiditushe
 
Struts+Spring+Hibernate整合教程
Struts+Spring+Hibernate整合教程Struts+Spring+Hibernate整合教程
Struts+Spring+Hibernate整合教程yiditushe
 
Struts+Spring+Hibernate整合教程
Struts+Spring+Hibernate整合教程Struts+Spring+Hibernate整合教程
Struts+Spring+Hibernate整合教程appollo0312
 
Django development
Django developmentDjango development
Django developmentloveyudu
 
Kid171 chap03 traditional Chinese Version
Kid171 chap03 traditional Chinese VersionKid171 chap03 traditional Chinese Version
Kid171 chap03 traditional Chinese VersionFrank S.C. Tseng
 
基于Zookeeper的配置信息存储方案的设计与实现
基于Zookeeper的配置信息存储方案的设计与实现基于Zookeeper的配置信息存储方案的设计与实现
基于Zookeeper的配置信息存储方案的设计与实现billowqiu
 
Tlcj manual 20111214
Tlcj manual 20111214Tlcj manual 20111214
Tlcj manual 20111214uunurnum
 
软件设计原则、模式与应用
软件设计原则、模式与应用软件设计原则、模式与应用
软件设计原则、模式与应用yiditushe
 
網站設計100步
網站設計100步網站設計100步
網站設計100步evercislide
 
Mongo db技术分享
Mongo db技术分享Mongo db技术分享
Mongo db技术分享晓锋 陈
 
Razor_MVC3_Quick_Reference
Razor_MVC3_Quick_ReferenceRazor_MVC3_Quick_Reference
Razor_MVC3_Quick_Reference振林 谭
 

Similar to 项目描述(2).pdf (20)

需求分析(一)(第三章)
需求分析(一)(第三章)需求分析(一)(第三章)
需求分析(一)(第三章)
 
IT445_Week_10_Part2.pdf
IT445_Week_10_Part2.pdfIT445_Week_10_Part2.pdf
IT445_Week_10_Part2.pdf
 
同济优秀课程设计 - 软件测试报告
同济优秀课程设计 - 软件测试报告同济优秀课程设计 - 软件测试报告
同济优秀课程设计 - 软件测试报告
 
软件工程 第十一章
软件工程 第十一章软件工程 第十一章
软件工程 第十一章
 
开放源代码的全文检索Lucene
开放源代码的全文检索Lucene开放源代码的全文检索Lucene
开放源代码的全文检索Lucene
 
硕士开题答辩 严一格-R4
硕士开题答辩 严一格-R4硕士开题答辩 严一格-R4
硕士开题答辩 严一格-R4
 
软件工程 第三章
软件工程 第三章软件工程 第三章
软件工程 第三章
 
臺灣地方議會議事錄總庫介紹 20111214
臺灣地方議會議事錄總庫介紹 20111214臺灣地方議會議事錄總庫介紹 20111214
臺灣地方議會議事錄總庫介紹 20111214
 
系統整合
系統整合系統整合
系統整合
 
Itpub电子杂志第四期第二稿
Itpub电子杂志第四期第二稿Itpub电子杂志第四期第二稿
Itpub电子杂志第四期第二稿
 
Struts+Spring+Hibernate整合教程
Struts+Spring+Hibernate整合教程Struts+Spring+Hibernate整合教程
Struts+Spring+Hibernate整合教程
 
Struts+Spring+Hibernate整合教程
Struts+Spring+Hibernate整合教程Struts+Spring+Hibernate整合教程
Struts+Spring+Hibernate整合教程
 
Django development
Django developmentDjango development
Django development
 
Kid171 chap03 traditional Chinese Version
Kid171 chap03 traditional Chinese VersionKid171 chap03 traditional Chinese Version
Kid171 chap03 traditional Chinese Version
 
基于Zookeeper的配置信息存储方案的设计与实现
基于Zookeeper的配置信息存储方案的设计与实现基于Zookeeper的配置信息存储方案的设计与实现
基于Zookeeper的配置信息存储方案的设计与实现
 
Tlcj manual 20111214
Tlcj manual 20111214Tlcj manual 20111214
Tlcj manual 20111214
 
软件设计原则、模式与应用
软件设计原则、模式与应用软件设计原则、模式与应用
软件设计原则、模式与应用
 
網站設計100步
網站設計100步網站設計100步
網站設計100步
 
Mongo db技术分享
Mongo db技术分享Mongo db技术分享
Mongo db技术分享
 
Razor_MVC3_Quick_Reference
Razor_MVC3_Quick_ReferenceRazor_MVC3_Quick_Reference
Razor_MVC3_Quick_Reference
 

项目描述(2).pdf

  • 1. 项目目标:此项目的目标是让您实施多种神经信息检索方法,对其进行评估,并在多阶段排 序管道的背景下进行比较。 第 2 部分的具体目标包括: 1. 设置基础设施以索引文集并评估查询。 2. 实施神经信息检索模型(仅推断部分) 。 3. 检查在使用不同的神经模型时进行评估和分析的能力。 信息检索任务:网络段落排名 与项目的第 1 部分一样, 在第 2 部分中, 我们将考虑针对 Web 查询的开放域段落排名问题。 在这种情况下,用户向搜索引擎提出查询,并期望以段落的排序列表的形式获得答案(最多 检索 1000 个段落) 。 提供给您的内容包括: 来自实验课的文件。 从网页中提取的 880 万个文本段落的文集(collection.tsv - 在第 1 周提供) 。 用于 ANCE 模型的 PyTorch 文件(参考第 10 周的实验课) 。 标 准 DPR 模 型 , 使 用 BertModel.from_pretrained("ielabgroup/StandardBERT-DR").eval()来加载此模型。 项目的额外文件包括: 一个包含 30 个查询的查询开发文件,供您执行检索实验(data/dev_queries.tsv) 。 一个包含 30 个查询的查询开发文件(与之前的查询具有相同的查询标识,但查询文本中含 有拼写错误) (data/dev_typo_queries.tsv) 。 一个包含可用于调整您的方法以适应开发查询的相关性判断的 qrel 文件 (data/dev.qrels) 。
  • 2. 一 个 包 含 60 个 查 询 的 测 试 查 询 文 件 , 供 您 生 成 要 提 交 到 排 行 榜 的 运 行 文 件 (data/test_queries.tsv) 。 这个 Jupyter 笔记本,您将在其中包含您的实现、评估和报告。 一个包含文集的 TILDEv2 预先计算的术语权重的 HDF5 文件。从此链接下载。 拼 写 感 知 的 DPR 模 型 , 使 用 BertModel.from_pretrained("ielabgroup/StandardBERT-DR-aug").eval() 来 加 载 此 模 型。 将此笔记本和提供的文件放在同一目录下。 您需要完成以下工作: 1. 根据项目规格要求正确实现所需的方法。 2. 解释所使用的检索方法,包括表示您实现的模型的公式和实施该公式的代码,解释所遵 循的评估设置,并讨论研究结果。请参考评分表,了解每个要求的评分方式。 3. 您需要在此 Jupyter 笔记本中完成这两个任务。 在项目的第 2 部分中,您需要实现以下检索方法作为两阶段排序管道(bm25 + 一个密集 型检索器) 。所有实现都应该基于您的代码(除了 BM25,您可以使用 Pyserini 内置的 SimpleSearcher) 。 1. ANCE Dense Retriever:使用 ANCE 对 BM25 的前 k 个文档进行重新排名。请参考第 10 周的实验课获取背景信息。 2. Standard DPR Dense Retriever:使用标准 DPR 对 BM25 的前 k 个文档进行重新排名。 请参考第 10 周的实验课获取背景信息。
  • 3. 3. Typo-aware DPR Dense Retriever:拼写感知的 DPR 是一种在训练样本中使用拼写错 误的增强的 DPR 模型,请使用提供的这个模型对 BM25 的前 k 个文档进行重新排名,推断 与标准 DPR Dense Retriever 相同。 4. TILDEv2:使用 TILDEv2 对 BM25 的前 k 个文档进行重新排名。请参考第 10 周的实验 课获取背景信息。对于 TILDEv2,与实验课中所做的不同,我们为整个文集提供了预先计算 的术语权重(有关更多详细信息,请参见“初始包和函数”单元格) 。这意味着您可以在 TILDEv2 的重新排名速度方面具有快速性能。利用这一优势,权衡排名管道的效果和效率。 您应该已经尝试了上述大部分实现,作为计算机实验课的一部分。 所需的评估任务: 在项目的第 2 部分中,您需要执行以下评估任务:我们考虑两种类型的查询,一种包含拼 写错误 (即排印错误, 如将"iformation"写成"information") , 另一种已经纠正了拼写错误。 在项目中评估的一个重要方面是比较在具有拼写错误和没有拼写错误的查询上搜索方法的 检索行为(请注意,这与项目的第 1 部分相同) 。 1. 对 于 所 有 方 法 , 请 在 data/dev_typo_queries.tsv ( 带 有 拼 写 错 误 的 查 询 ) 和 data/dev_queries.tsv(相同的查询,但拼写错误已经纠正)上使用 data/dev.qrels 执行 性能评估,使用四个评估指标(见下文) 。 2. 在 data/dev_queries.tsv 上报告每种方法的效果和效率(平均查询延迟) ,不需要考虑 拼写错误的查询,并在表格中提供重新排序的相应截止 k。对这些方法的结果进行统计显著 性分析,并在表格中报告。
  • 4. 3. 生成一个增益-损失图,比较上述四种所需方法中在 data/dev_typo_queries.tsv 上的 nDCG@10 方面最有效和最不有效的方法。 4. 在 比 较 您 的 发 现 时 , 评 论 观 察 到 的 趋 势 和 差 异 。 拼 写 感 知 的 DPR 模 型 在 data/dev_typo_queries.tsv 查询上是否胜过其他方法?在评估 data/dev_queries.tsv 查 询时, 是否有迹象表明这个模型失去了效力?这种增益/损失是否在统计上具有显著性? (请 记住为此任务执行 t 检验) 。 5. (可选)根据从开发集上实施的方法,在 data/test_queries.tsv 上提交运行结果到排行 榜系统(这不计入此作业的分数,但排行榜上的排名最高的学生可以向 Guido Zuccon 教 授请求推荐信) 。提交链接为:https://infs7410.uqcloud.net/leaderboard/,其他说明参 考项目 1。 关于评估指标,请使用 nDCG@10(ndcg_cut_10) 、1000 的倒数秩(recip_rank) 、MAP (map)和 1000 的召回率(recall_1000)来评估检索方法。对于所有统计显著性分析, 使用成对 t 检验,并区分 p<0.05 和 p<0.01。