プログラマメモ2 - programmer no memo2

Blogger - 自分のブログの全ての記事の取得 その3 - くらすたーで実験 2008/04/05

ブログの記事のタグ(ラベル)から類似した記事をみつける方法としてクラスタ解析が使えるのかしら、という試みのためのメモ。

うまくいくかわからないけど、
とりあえず手順をメモ。

えーと、まず、

  • Bloggerから全記事のタグ(ラベル)を取得する。
  • タグが出現したかどうかでベクトル化する。
  • Rで、クラスタの計算する。
  • なんとなくクラスタができてるか検証する。


Bloggerから全記事のタグ(ラベル)を取得する。
タグが出現したら1で出現しなかったら0で表現する。
現時点で、プログラミングメモ2は、657記事で、タグが218だった。
Rにデータを読ませる。

x<-matrix(scan("/tmp2/a.dat"),ncol=218, byrow=TRUE)


で次に、Rに計算させる。
d<-dist(x)
hc<-hclust(d)

で、
ans<-cutree(hc,k=200)

クラスタの数を適当に決めてファイルに出力
write(ans, file="/tmp2/a2.data", ncolumns=1)


結果をみているとなんとなくグループかされているようなので、kの値(クラスタの数)をいろいろためしていけば、類似記事をクラスタからみつくろって決定できるかも。

ここまで、書いてなんだけど、本当にできてるのか不安...


参考にした本
Rで学ぶクラスタ解析
新納 浩幸
4274067033

: