這篇文章主要介紹1些網頁抓取及抓取下來的內容處理。
所需要的jar包點擊打開鏈接,我放在百度云盤里。有需要的可以下載,其他的請自行下載。
百度百科對網頁抓取的定義,固然本文并沒有介紹的那末多,只是介紹對單個頁面的抓取,和摹擬提交表單抓取頁面,如需深究,請自行baidu or google。
上面的方法直接返回String字符串,只需傳入1個鏈接便可。相信大家都看的懂。
那末獲得到的String字符串,我們該怎樣處理呢?
我先拿1個網站測試下。就比如這個點擊打開鏈接,這個網站顯示了今天在歷史上產生了甚么大事件。而我們要抓取的內容只有1部份,比如:歷史上今天大事記
或歷史上今天去世
這里就對抓取歷史上今天大事記做1個介紹。
這里用到了1個extract的方法,也就是對www.rijiben.com獲得的的String字符串進行分割,獲得到我們需要的信息。
這里的html也就是上面傳進去的html。compile里面是正則表達式,它把全部頁面分成了5段,那末我們應當如何獲得到里面的那1段呢?
group里面的數字就是獲得分割后的哪1段。
具體的可以查看這里。
下面介紹如何摹擬提交表單后抓取頁面,其實原理與上面大同小異。
相信我上面的圖片已很明顯的把功能都說明了,后續對表單提交后顯示的頁面做其他處理就要看你怎樣做了。
最后祝大家元旦快樂