プログラマメモ2: jsoup html parser 　- スープ？

jsoup Java HTML Parser, with best of DOM, CSS, and jquery

年に一度は弄びたくなるhtml parserです。

なかなか決め手がなかったのですが、jsoupよさげです。
Jquery風のapiなのできっと便利なのでしょう。

というわけで使ってみます。
下記のようなHTMLがあります。
preタグのテキストだけとりだしたいわけです。

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html xmlns="http://www.w3.org/1999/xhtml">

<head>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; CHARSET=shift_jis">
<title></title>
</head>
<body>
<pre>
SEGMENT SPACE MANAGEMENT { AUTO | MANUAL }
</pre>
</body>
</html>

そしてコードです。

import java.io.File;
import java.io.IOException;
import java.net.URISyntaxException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class TestHtmlParser {

public static void main(String[] args) throws IOException, URISyntaxException {
a();
}

static void a() throws IOException, URISyntaxException{

File file = new File(TestHtmlParser.class.getResource("doc-files/segment_management_clause.htm").toURI());
Document doc = Jsoup.parse(file, "Shift_JIS");

Elements tags = doc.getElementsByTag("pre");
Element tag = tags.get(0);
System.out.println(tag.text());
}

}

結果はこんな感じ

SEGMENT SPACE MANAGEMENT { AUTO | MANUAL }

プログラマメモ2 - programmer no memo2

jsoup html parser 　- スープ？ 2011/02/19
2011/02/20

:

プログラマメモ2 - programmer no memo2

jsoup html parser - スープ？ 2011/02/19 2011/02/20

:

jsoup html parser 　- スープ？ 2011/02/19
2011/02/20