プログラマメモ2 - programmer no memo2

jsoup html parser  - スープ? 2011/02/19
2011/02/20


年に一度は弄びたくなるhtml parserです。

なかなか決め手がなかったのですが、jsoupよさげです。
Jquery風のapiなのできっと便利なのでしょう。

というわけで使ってみます。
下記のようなHTMLがあります。
preタグのテキストだけとりだしたいわけです。
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html xmlns="http://www.w3.org/1999/xhtml">

<head>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; CHARSET=shift_jis">
<title></title>
</head>
<body>
<pre>
<b>SEGMENT SPACE MANAGEMENT</b> { <b>AUTO</b> | <b>MANUAL</b> }
</pre>
</body>
</html>


そしてコードです。
import java.io.File;
import java.io.IOException;
import java.net.URISyntaxException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class TestHtmlParser {

public static void main(String[] args) throws IOException, URISyntaxException {
a();
}

static void a() throws IOException, URISyntaxException{

File file = new File(TestHtmlParser.class.getResource("doc-files/segment_management_clause.htm").toURI());
Document doc = Jsoup.parse(file, "Shift_JIS");

Elements tags = doc.getElementsByTag("pre");
Element tag = tags.get(0);
System.out.println(tag.text());
}

}


結果はこんな感じ
SEGMENT SPACE MANAGEMENT { AUTO | MANUAL }

:

nozomu takashima

こんにちは、自分もJsoup使ってるんですが、
metaタグってとれるんですかね?^^;