您當前位置：首頁 > web前端 > htmlcss > 網頁抓取與處理的一些方法

網頁抓取與處理的一些方法

來源：程序員人生發布時間：2015-01-06 08:43:06 閱讀次數：3790次

昨天還是2014，今天就變成了2015。時間總是那末快，這篇文章就作為2015年的1個開始吧。

這篇文章主要介紹1些網頁抓取及抓取下來的內容處理。

所需要的jar包點擊打開鏈接，我放在百度云盤里。有需要的可以下載，其他的請自行下載。

百度百科對網頁抓取的定義，固然本文并沒有介紹的那末多，只是介紹對單個頁面的抓取，和摹擬提交表單抓取頁面，如需深究，請自行baidu or google。

上面的方法直接返回String字符串，只需傳入1個鏈接便可。相信大家都看的懂。

那末獲得到的String字符串，我們該怎樣處理呢？

我先拿1個網站測試下。就比如這個點擊打開鏈接，這個網站顯示了今天在歷史上產生了甚么大事件。而我們要抓取的內容只有1部份，比如：歷史上今天大事記

或歷史上今天去世

這里就對抓取歷史上今天大事記做1個介紹。

這里用到了1個extract的方法，也就是對www.rijiben.com獲得的的String字符串進行分割，獲得到我們需要的信息。

這里的html也就是上面傳進去的html。compile里面是正則表達式，它把全部頁面分成了5段，那末我們應當如何獲得到里面的那1段呢？

group里面的數字就是獲得分割后的哪1段。

具體的可以查看這里。

下面介紹如何摹擬提交表單后抓取頁面，其實原理與上面大同小異。

相信我上面的圖片已很明顯的把功能都說明了，后續對表單提交后顯示的頁面做其他處理就要看你怎樣做了。

最后祝大家元旦快樂

生活不易，碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
程序員人生

------分隔線----------------------------

上一篇 java中序列化與反序列化的冷知識

下一篇 一起學android之SimpleAdapter使用（13）

分享到:

------分隔線----------------------------

為碼而活

積分：4237

15粉絲

7關注

欄目熱點

日本搞逼视频_黄色一级片免费在线观看_色99久久_性明星video另类hd_欧美77_综合在线视频