- HTML Cleaner を使って HTMLをWell-Formed XMLに変換する
- clojure.xml/parse でパース
- clojure.zip/xml-zip でzipping
- clojure.contrib.zip-filter と clojure.contrib.zip-filter.xml でscrape
- xml-> に渡すpredはrootから出発なので、xpathの "//" がしたい場合は descendants を使う。 ただし、ちゃんとtext とか attr とかで止めないと無限リストになる(?)
参考サイト:
- HTML Parsing in Clojure using HtmlCleaner - @ infinity, plus 1
- Simple XML Parsing with Clojure at So much to do, so little time




