`
zoulc001
  • 浏览: 30281 次
  • 性别: Icon_minigender_1
  • 来自: 成都
文章分类
社区版块
存档分类
最新评论
文章列表
 一、Python 中的线程使用:      Python 中使用线程有两种方式:函数或者用类来包装线程对象。 1、   函数式:调用 thread 模块中的 start_new_thread() 函数来产生新线程。如下例: import time import thread def timer(no ...
在一个项目中,日志模块是必不可少的,健壮的日志输出有助于及时发现问题和调试。python的日志模块logging为我们提供了强大的日志功能。 一.logging模块简介 我们先看一个标准的程序: import logging logger=logging.getLogger() handle ...
    最近在做一个爬虫程序,是对一个网站的全站数据收集。程序调好后跑了一晚上,第二天来看就出现了“MySQL server has gone away”的错误, 调了半天以为是程序哪里的逻辑没对,写了单元测试也是通过的。。百思不得其解。 后来网上一搜才知道了原因 一般有两种情况会导致"MySQL server has gone away"的错误 1.mysql实例化后长时间没有对其操作,造成超时。 2.执行一个SQL,但SQL语句过大或者语句中含有BLOB或者longblob字段   我在爬虫的主程序就首先就初始化了mysql连接,但是之后都是在对网页就行解析, ...
今天看一本关于爬虫的书,直到了关于robots.txt的约定。 Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。 当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。 robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。 目前所有的搜索引擎都遵循robots.txt的规则。 一.robots.txt的语法 User-agent: * 这里的*代表的所有的搜索引擎种类,*是 ...
网上很著名的一本爬虫教程《自己手动写网络爬虫》,该书所有源码是用java编写的, 其中提到了宽度优先遍历算法,闲来无事我把他用python实现了一遍。代码量少了将近一半,呵呵。 宽度优先算法介绍 参考:http://book ...
有些网页需要你登录之后才可以访问,你需要提供账户和密码。 只要在发送http请求时,带上含有正常登陆的cookie就可以了。 1.首先我们要先了解cookie的工作原理。 Cookie是由服务器端生成,发送给User-Agent(一般是浏览器),浏 ...
Global site tag (gtag.js) - Google Analytics