python如何抓取网页内容?
如果使用python爬取web信息,需要学习几个模块,如urllib、urllib2、urllib3、requests、httplib等。,并且还要学习re模块(也就是正则表达式)。根据不同场景使用不同模块,高效快速解决问题。
一开始我建议你从最简单的urllib模块开始学习,比如爬新浪主页(声明:此代码仅供学术研究,并无攻击意图):
这样就爬取了新浪首页的源代码,是整个网页的信息。如果你想提取你觉得有用的信息,你必须学会使用字符串方法或正则表达式。
平时多看看网上的文章和教程,很快就能学会。
还有一点:上面使用的环境是python2。在python3中,urllib、urllib2和urllib3已经集成到一个包中,并且不再有以这些单词命名的模块。