プログラマメモ2: Blogger - 自分のブログの全ての記事の取得その3

ブログの記事のタグ（ラベル）から類似した記事をみつける方法としてクラスタ解析が使えるのかしら、という試みのためのメモ。

うまくいくかわからないけど、
とりあえず手順をメモ。

えーと、まず、

Bloggerから全記事のタグ(ラベル)を取得する。
タグが出現したら1で出現しなかったら0で表現する。
現時点で、プログラミングメモ２は、657記事で、タグが218だった。
Rにデータを読ませる。

x<-matrix(scan("/tmp2/a.dat"),ncol=218, byrow=TRUE)

で次に、Rに計算させる。

d<-dist(x)
hc<-hclust(d)

で、

ans<-cutree(hc,k=200)

クラスタの数を適当に決めてファイルに出力

write(ans, file="/tmp2/a2.data", ncolumns=1)

結果をみているとなんとなくグループかされているようなので、kの値(クラスタの数)をいろいろためしていけば、類似記事をクラスタからみつくろって決定できるかも。

ここまで、書いてなんだけど、本当にできてるのか不安...

参考にした本
Rで学ぶクラスタ解析
新納浩幸

プログラマメモ2 - programmer no memo2