BM25(Okapi BM25)
Okapi BM25は、情報検索における順位付けの手法である。検索エンジンがクエリとの関連性に応じて、文書を順位付けするのに用いられる。1970年代から1980年代にかけて、スティーブン・ロバートソン (コンピュータ科学者)(英語版)やカレン・スパーク・ジョーンズ(英語版)らが確率適合モデル(英語版)に基づいて開発した。BM25の”BM”は、”Best Matching”の略である。 ロンドン大学シティ校が1980年代から1990年代にかけて開発したオカピ情報検索システム (Okapi information retrieval system) に最初に実装されたため、 “Okapi BM25” と呼ばれるが、単に、この手法自体の名称であるBM25とも呼ばれる。
https://ja.wikipedia.org/wiki/Okapi_BM25
情報検索/自然言語処理におけるBM25(Best Matching 25)とは、検索クエリに最もよく一致する文書を見つけ出すための統計的アルゴリズムの一つである。このアルゴリズムは、文書内での単語の出現頻度(tf:term frequency)と、その単語が含まれる文書の希少性(idf:inverse document frequency)を用いて、各文書内に含まれる各単語が「その文書内でどれくらい重要か」を評価する(図1)。 ただしBM25は、(tf-idfのように)単にtf値とidf値を掛け合わせるだけでなく、文書の長さに基づいてtf値を正規化するために調整パラメーター(後述する数式内のk1やbなど)を用いるのが特徴だ。これにより、文書内で同じ単語が過度に繰り返されてもその重要性が過大評価されず、長い文書と短い文書間で「文書内の単語の重要性」をバランス良く評価できる。このようにBM25は、tf-idfを発展させたものと見なせる。
https://atmarkit.itmedia.co.jp/ait/articles/2404/22/news021.html