課程
                    
                        /后端開發(fā)
                        
                            /Python
                        
                        /Python開發(fā)簡單爬蟲

運行結(jié)果提問

首先python的百科詞條目前貌似不是這個：http://baike.baidu.com/view/21087.htm

而是：http://baike.baidu.com/item/Python

而且，里面對應的其他url鏈接也是這種：http://baike.baidu.com/item/計算機程序設計語言

因此，我能想到的修改就是在主調(diào)程序spider_main里：root_url = "http://baike.baidu.com/item/Python"

另外，修改解析器中的正則匹配：

def _get_new_urls(self, page_url, soup):
? ?new_urls = set()
? ?# /view/123.htm
? ?links = soup.find_all('a', href=re.compile(r'/item/.'))
? ?for link in links:
? ? ? ?new_url = link['href']
? ? ? ?new_full_url = urlparse.urljoin(page_url, new_url)
? ? ? ?new_urls.add(new_full_url)
? ?return new_urls

但是運行結(jié)果顯示，，

這樣看來的話，我第一個網(wǎng)址都沒解析出來，請問下老師這是什么原因呢？謝謝

Ramon_Lee

2017-05-25

源自：Python開發(fā)簡單爬蟲

關注問題我要回答

645

操作

收起

2 回答

慕移動9181930
2022-03-24

==就是Javascript里面的等于號nbsp;=就是賦值號nbsp;nbsp;中間加空格就相當于nbsp;兩個賦值號了nbsp;吃了炫邁，停不下來

0 回復有任何疑惑可以回復我~

收起回答

cwlml
2017-05-26

如果使用的是python3的話中間一句不正確，無法組成新的url，從而讓循環(huán)一直是錯誤，但是如果是循環(huán)停止的話，去除try,except進行運行差錯，應該中間一個步驟出現(xiàn)了錯誤

new_full_url?=?parse.urljoin(page_url,?new_url)

0 回復有任何疑惑可以回復我~

收起回答

舉報

0/150

提交

取消

Python開發(fā)簡單爬蟲

參與學習 227581 人
解答問題 1288 個

本教程帶您解開python爬蟲這門神奇技術(shù)的面紗

進入課程

運行結(jié)果提問

我要回答關注問題

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網(wǎng)微信公眾號

最近中文字幕高清中文字幕无,亚洲欧美高清一区二区三区,一本色道无码道dvd在线观看 ,一个人看的www免费高清中文字幕

熱搜

最近搜索清空

運行結(jié)果提問

2 回答

運行結(jié)果提問