1.URL地址分析
选取的一个百度贴吧帖子的网址是http://tieba.baidu.com/p/4739169817,各位可以点击进去查看一下。
如果点击只看楼主或者翻页,则会产生两个参数http://tieba.baidu.com/p/4739169817?pn=2或http://tieba.baidu.com/p/4739169817?see_lz=1,分析一下该网址如下:
- http://tieba.baidu.com/p/4739169817?see_lz=1 这是网址
- see_lz 该参数表示是否只看楼主发的帖子,1表示true
- pn 该参数表示表示第几页
2.页面爬取
python2.7版本,代码如下:
注意: utf-8编码声明,否则容易出现乱码问题。此demo仅使用一些简单的页面爬取,对于有ajax之类的异步加载技术的网站不适用,需要一些成熟的爬虫框架。