zoulc001

浏览: 30281 次
性别:
来自: 成都

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (6)

社区版块

存档分类

【转】Python多线程学习

python threading lock notify

一、Python 中的线程使用： Python 中使用线程有两种方式：函数或者用类来包装线程对象。 1、函数式：调用 thread 模块中的 start_new_thread() 函数来产生新线程。如下例： import time import thread def timer(no ...

2012-05-15 17:38
浏览 1319
评论(0)
分类:编程语言

在项目中定制python的logging模块的实例

在一个项目中，日志模块是必不可少的，健壮的日志输出有助于及时发现问题和调试。python的日志模块logging为我们提供了强大的日志功能。一.logging模块简介我们先看一个标准的程序： import logging logger=logging.getLogger() handle ...

2011-11-04 17:36
浏览 8180
评论(0)
分类:编程语言

关于错误"MySQL server has gone away"

最近在做一个爬虫程序，是对一个网站的全站数据收集。程序调好后跑了一晚上，第二天来看就出现了“MySQL server has gone away”的错误, 调了半天以为是程序哪里的逻辑没对，写了单元测试也是通过的。。百思不得其解。后来网上一搜才知道了原因一般有两种情况会导致"MySQL server has gone away"的错误 1.mysql实例化后长时间没有对其操作，造成超时。 2.执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段我在爬虫的主程序就首先就初始化了mysql连接，但是之后都是在对网页就行解析， ...

2011-10-31 10:53
浏览 1337
评论(0)
分类:数据库

搜索引擎中的robots.txt的作用

搜索引擎 robots.txt

今天看一本关于爬虫的书，直到了关于robots.txt的约定。 Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。 robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。目前所有的搜索引擎都遵循robots.txt的规则。一.robots.txt的语法 User-agent: * 这里的*代表的所有的搜索引擎种类，*是 ...

2011-10-27 17:07
浏览 1032
评论(0)
分类:互联网

宽度优先遍历爬虫的python实现

爬虫宽度优先遍历 python

网上很著名的一本爬虫教程《自己手动写网络爬虫》，该书所有源码是用java编写的，其中提到了宽度优先遍历算法，闲来无事我把他用python实现了一遍。代码量少了将近一半，呵呵。宽度优先算法介绍参考:http://book ...

2011-10-08 16:38
浏览 6831
评论(0)
分类:编程语言

python访问需要登录的网页

python cookie 登陆

有些网页需要你登录之后才可以访问,你需要提供账户和密码。只要在发送http请求时，带上含有正常登陆的cookie就可以了。 1.首先我们要先了解cookie的工作原理。 Cookie是由服务器端生成，发送给User-Agent（一般是浏览器），浏� ...

2011-10-08 16:09
浏览 11582
评论(1)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

【转】Python多线程学习

在项目中定制python的logging模块的实例

关于错误"MySQL server has gone away"

搜索引擎中的robots.txt的作用

宽度优先遍历爬虫的python实现

python访问需要登录的网页

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

【转】Python多线程学习

在项目中定制python的logging模块的实例

关于错误"MySQL server has gone away"

搜索引擎中的robots.txt的作用

宽度优先遍历爬虫的python实现

python访问需要登录的网页

最近访客更多访客>>