私は文章を文書から抽出した文字列として保存しています。私は標準コサイン類似度を文に適用したいと思う。どのように私はそれをやって行くのですか?
既にウィキペディアの数式をお持ちです。それぞれの Ai は単語なので、まず文書内の単語の頻度を計算する必要があります。あなたは単語の出現の地図を作成することができる必要があります。次に、各文を単語のベクトルで表現し、その式を適用することができます。
Ai
First of all, read about Term-Document matrix
Then, go for the Cosine calculation using Cosine Similarity calculator
If you are interested in text mining, then go for SVD and finally Latent Semantic Analysis