プログラマメモ2 - programmer no memo2

タグから類似度をはかる - アイデアレベル 2008/03/03

詳しくみていないのですが、記事の類似度で結ぶサービスがリリースされていました。



どういうふうな仕組みになのかというのは開発者のブログにありました。
記事の類似度を測る方法として、ベクトル空間モデル(TF*IDF)を用いています。こえむの編集後記 » ブログを記事で結ぶブログパーツ『シムエントリ』をリリース


ところで、ベクトル空間モデルから、昔、ちょっとだけ触ったことがあるコンセプトベースのことを思い出しました。

コンセプトベースには概念検索なるものがあったなぁ。

以前、プログラマメモ2: Blogger 関連ありそうな記事のリンクをつける。を試していたとき、タグの付け方から、類似度をもう少し正確に割り出すことができないかなぁと思っていました。

で、記事全体から単語を抽出するのは大変そうなので、単純にタグ(Bloggerならラベル)から、記事の類似度をはかってクラスタリングするのはありなのではないかというふうに考えたわけです。

タグ(ラベル)は記事を書いた作者が、意図をこめてつけるので、その時点である程度記事のグループ化ができているわけでし。

ですが、タグってあんまり細かく分類してつけてないですよね。固有名詞をさほど使っていない。記事が増えると大雑把なくくりで記事が埋没してしまう。タグでそもそも分類しようと考えないほうがいいのかも。

参考


記事から自動でタグの候補をみつけてくれるサービスもありますね。


タグ(ラベル)から記事の類似度をはかるのはありだと思うんですが、どうなんでしょうかね。

: