BIDAF,这是一个多阶段的分层过程,它以不同的粒度级别表示上下文,并使用双向注意力流机制来实现 query-aware 的上下文表示,而无需提前总结。 实验评估表明,我们的模型在斯坦福问答数据集和 CNN/DailyMail 完形填空测试中达到了 state-of-the-art的结果。 消融分析显示了我们模型中每个组成部分的重要性。 可视化和 discussion 表明,我们的模型正在学习 MC 的合适表示,并且能够通过关注给定段落中的正确位置来回答复杂的问题。未来的工作包括扩展我们的方法,将注意力层和多步推理结合起来。
该模型的亮点在于双向注意力机制的提出,这种双向注意力机制在 QA 任务中充当编码器 或者推理单元中的一环 对后续的性能产生更大的影响,这才是最为重要的。
QANet 训练相对较快。与流行的 BiDAF 网络相比,QANet 的性能提升约 5~6 倍。我们用 60,000 次全局步骤训练网络,在 GTX1080 GPU 上大约需要 6 个小时。
Transformer 101 个思考问题:
网友评论