Python第一个程序小爬虫 - 商讯 - 长春市隆兴伟业物流有限公司
现在的位置: 主页 > 商讯 > 文章正文
Python第一个程序小爬虫
作者:长春市隆兴伟业物流有限公司 来源:www.lxwywl.com 发布时间:2017-09-05 12:06:22
Python第一个程序小爬虫

最近想上手Python。快速入门一门语言的方法就是写个小Demo。Python Demo必须是爬虫了。第一个小爬虫程序有些简陋,高手勿喷。

关于爬虫主要分为三个部分:根据队列中的URL爬取界面、获取内容、保存结果。

程序是以百度网站大全为种子URL,站群系统,抓取页面中URL依次放入队列中,爬虫从URL队列依次取得新URL继续向外爬取。

# -*- coding: utf-8 -*- import urllib2 import re import thread import time class HTML_Spider: def __init__(self): self.url = [] #根据队列中的URL爬取界面 def GetPage(self,url): try: myResponce = urllib2.urlopen(url) myPage = myResponce.read() myUrl = re.findall('href="(.*?)"',myPage,re.S) self.url.extend(myUrl); except: print u'当前URL不合法' myPage = ' ' return myPage #以HTML的形式保存界面 def SavePage(self,page): if page != ' ': #以时间戳的形式为文件命名 f = open(time.strftime(str(time.time()),time.localtime(time.time()))+'.html','w+')#解决pagenama问题,最好采用保存时间命名 f.write(page) f.close() #保持URL队列 def StartSpider(self): i = 1 while 1: if i == 1: url = u'http://site.baidu.com/' else: url = self.url[i] i += 1 print url page = self.GetPage(url) self.SavePage(page) #程序main函数 print u'开始爬取页面:' raw_input(" ") mySpider = HTML_Spider() mySpider.StartSpider()

企业建站2800元起,携手武汉肥猫科技,做一个有见地的颜值派!更多优惠请戳:宜昌网站制作 http://yichang.666rj.com


  • 上一篇:深入理解php中的ini配置(1)
  • 下一篇:最后一页
  • 
    COPYRIGHT © 2015 长春市隆兴伟业物流有限公司 ALL RIGHTS RESERVED.
    本站所有原创信息,未经许可请勿任意转载或复制使用 网站地图 技术支持:肥猫科技
    精彩专题:网站建设
    购买本站友情链接、项目合作请联系客服QQ:2500-38-100