NISHIO Hirokazu[Translate]
Dense Passage Retrieval for Open-Domain Question Answering
>Open-domain question answering relies on efficient passage retrieval to select candidate contexts, where traditional sparse vector space models, such as TF-IDF or BM25, are the de facto method. In this work, we show that retrieval can be practically implemented using dense representations alone, where embeddings are learned from a small number of questions and passages by a simple dual-encoder framework. When evaluated on a wide range of open-domain QA datasets, our dense retriever outperforms a strong Lucene-BM25 system largely by 9%-19% absolute in terms of top-20 passage retrieval accuracy, and helps our end-to-end QA system establish new state-of-the-art on multiple open-domain QA benchmarks.
(DeepL)オープンドメインの質問応答は、候補文脈を選択するための効率的な文章検索に依存しており、TF-IDFBM25のような従来の疎なベクトル空間モデルが事実上の手法である。この研究では、少数の質問と文章から単純なデュアルエンコーダーフレームワークによって埋め込みを学習することで、密な表現のみを用いて検索を実用的に実装できることを示す。幅広いオープンドメインのQAデータセットで評価したところ、我々の密な検索は、トップ20のパッセージの検索精度の点で、強力なLucene-BM25システムを9%~19%の絶対値で大きく上回り、我々のエンドツーエンドのQAシステムが複数のオープンドメインのQAベンチマークで新たな最先端を確立するのに役立つ。



オープンドメイン QA における DPR の有効性検証 PDF




"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]