jsoup html parser - スープ?
2011/02/19
2011/02/20
hava
html
jquery
parser
年に一度は弄びたくなるhtml parserです。
なかなか決め手がなかったのですが、jsoupよさげです。
Jquery風のapiなのできっと便利なのでしょう。
というわけで使ってみます。
下記のようなHTMLがあります。
preタグのテキストだけとりだしたいわけです。
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; CHARSET=shift_jis">
<title></title>
</head>
<body>
<pre>
<b>SEGMENT SPACE MANAGEMENT</b> { <b>AUTO</b> | <b>MANUAL</b> }
</pre>
</body>
</html>
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; CHARSET=shift_jis">
<title></title>
</head>
<body>
<pre>
<b>SEGMENT SPACE MANAGEMENT</b> { <b>AUTO</b> | <b>MANUAL</b> }
</pre>
</body>
</html>
そしてコードです。
import java.io.File;
import java.io.IOException;
import java.net.URISyntaxException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class TestHtmlParser {
public static void main(String[] args) throws IOException, URISyntaxException {
a();
}
static void a() throws IOException, URISyntaxException{
File file = new File(TestHtmlParser.class.getResource("doc-files/segment_management_clause.htm").toURI());
Document doc = Jsoup.parse(file, "Shift_JIS");
Elements tags = doc.getElementsByTag("pre");
Element tag = tags.get(0);
System.out.println(tag.text());
}
}
import java.io.IOException;
import java.net.URISyntaxException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class TestHtmlParser {
public static void main(String[] args) throws IOException, URISyntaxException {
a();
}
static void a() throws IOException, URISyntaxException{
File file = new File(TestHtmlParser.class.getResource("doc-files/segment_management_clause.htm").toURI());
Document doc = Jsoup.parse(file, "Shift_JIS");
Elements tags = doc.getElementsByTag("pre");
Element tag = tags.get(0);
System.out.println(tag.text());
}
}
結果はこんな感じ
SEGMENT SPACE MANAGEMENT { AUTO | MANUAL }
:
こんにちは、自分もJsoup使ってるんですが、
metaタグってとれるんですかね?^^;