博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Crawl(1)
阅读量:4708 次
发布时间:2019-06-10

本文共 1624 字,大约阅读时间需要 5 分钟。

爬贴吧小说。

爬取中的楼主发言前10页另存为文本文件

 

python2.7

# *-* coding: UTF-8 *-*import urllib2import reclass BDTB:    baseUrl = 'http://tieba.baidu.com/p/4896490947?see_lz=&pn='    def getPage(self, pageNum):        try:            url = self.baseUrl+str(pageNum)            request = urllib2.Request(url)            response = urllib2.urlopen(request).read()            return response        except Exception, e:            print e        def Title(self, pageNum):        html = self.getPage(pageNum)        reg = re.compile(r'title="【原创】(.*?)"')        items = re.findall(reg, html)        for item in items:            f = open('text.txt', 'w')            f.write('标题'+'\t'+item)            f.close()        return items    def Text(self, pageNum):        html = self.getPage(pageNum)        reg = re.compile(r'd_post_content j_d_post_content ">            (.*?)
', re.S) req = re.findall(reg, html) if pageNum == 1: req = req[2:] for i in req: removeAddr = re.compile('
|') i = re.sub(removeAddr, "", i) removeAddr = re.compile('
') i = re.sub(removeAddr, "", i) removeAddr = re.compile('http.*?.html') i = re.sub(removeAddr, "", i) i = i.replace('
', '') f = open('text.txt', 'a') f.write('\n\n'+i) f.close() bdtb = BDTB()print 'Crawl is starting....'try: for i in range(1, 10): print 'Crawling Page %s...' % (i) bdtb.Title(i) bdtb.Text(i)except Exception, e: print e

 

转载于:https://www.cnblogs.com/dirge/p/6347564.html

你可能感兴趣的文章
Android应用开发学习笔记之多线程与Handler消息处理机制
查看>>
ubuntu 设置环境变量
查看>>
Linux磁盘及文件系统(三)Linux文件系统
查看>>
别在最好的年纪辜负最好的自己
查看>>
用github来展示你的前端页面吧
查看>>
深入分析java中文乱码问题
查看>>
CF #329 D
查看>>
jquery之别踩白块游戏的实现
查看>>
索引的分类--B-Tree索引和Hash索引
查看>>
Python学习笔记——参数axis=0,1,2...
查看>>
kivy学习三:打包成window可执行文件
查看>>
兄弟连PHP培训教你提升效率的20个要点
查看>>
【快报】基于K2 BPM的新一代协同办公门户实践交流会
查看>>
关于MySQL的行转列的简单应用
查看>>
Queue 队列的用法
查看>>
CDM常用命令
查看>>
游戏开发中常用的设计模式
查看>>
Linux 中/etc/profile、~/.bash_profile 环境变量配置及执行过程
查看>>
JAVA:图形之利用FontMetrics类居中
查看>>
使用rsync同步目录
查看>>