HTMLの本文抽出についての調査

16 Aug 2017

最近作ろうとしているものにだんだんと必要になって来た「HTMLの本文抽出」。

例えばスマートニュースやPocketなどでのみられる「最適化された記事表示」。 昨今のモバイル回線事情を鑑みるに、UXを追求するとどうしても欲しくなってくる。

他の場面でも必要だったりする。それは検索エンジンや記事分類の前処理としての本文抽出。 HTMLからタグやCSSやJavaScriptを抜くのはもちろんだが、 いわゆるUIパーツのHTMLを省いて記事本体のみを抽出できると、検索精度があがる。 例えば、カレンダーパーツが設置されていたりすると、どのページでも「1月」が引っかかりしてしまい、本当に「1月」について述べている記事が埋もれてしまう。

世の中では至る所で必要となる技術なので、いくつか手法がweb上に載っていることを期待して調査してみる。 読んだページをあげてみる。

所感では、readability・extracontentあたりは実装がそこまででかくないので(どちらもpythonで3000行程度)、 この辺を実際に試してみて、精度が良さそうならrustポーティングして利用する感じでいきたい。 本文抽出の段階で機会学習を使うのは今の段階ではオーバスペックかな。

どうでもいいけど、画像が多くて本文が少なく抽出しづらいということで「しょこたんブログ」が本文抽出で有名なのはツボだった。

Tweet
comments powered by Disqus