有些网页需要你登录之后才可以访问,你需要提供账户和密码。
只要在发送http请求时,带上含有正常登陆的cookie就可以了。
1.首先我们要先了解cookie的工作原理。
Cookie是由服务器端生成,发送给User-Agent(一般是浏览器),浏览器会将Cookie的key/value保存到某个目录下的文本文件内,下次请求同一网站时就发送该Cookie给服务器(前提是浏览器设置为启用cookie)。Cookie名称和值可以由服务器端开发自己定义,对于JSP而言也可以直接写入jsessionid,这样服务器可以知道该用户是否合法用户以及是否需要重新登录等。
2.之后我们要获取到用户正常登录的cookie.
python提供了cookieJar的库,只要把cookieJar的实例作为参数传到urllib2的一个opener里面。
然后访问一次登录的页面,cookie就已经保存下来了。之后通过这个实例访问所有的页面都带有正常登陆的cookie了。
以人人网为例子。
#encoding=utf-8
import urllib2
import urllib
import cookielib
def renrenBrower(url,user,password):
#登陆页面,可以通过抓包工具分析获得,如fiddler,wireshark
login_page = "http://www.renren.com/PLogin.do"
try:
#获得一个cookieJar实例
cj = cookielib.CookieJar()
#cookieJar作为参数,获得一个opener的实例
opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
#伪装成一个正常的浏览器,避免有些web服务器拒绝访问。
opener.addheaders = [('User-agent','Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)')]
#生成Post数据,含有登陆用户名密码。
data = urllib.urlencode({"email":user,"password":password})
#以post的方法访问登陆页面,访问之后cookieJar会自定保存cookie
opener.open(login_page,data)
#以带cookie的方式访问页面
op=opener.open(url)
#读取页面源码
data= op.read()
return data
except Exception,e:
print str(e)
#访问某用户的个人主页,其实这已经实现了人人网的签到功能。
print renrenBrower("http://www.renren.com/home","用户名","密码")
分享到:
相关推荐
能根据url的个数快速开启对个线程,单个线程可以实现对同一个url的多次访问,返回访问成功或者失败的结果
使用 python 实现的一个自动登录京东并按时抢购商品的程序,能够在预定时间到达时进行抢购,内容包括完整项目工程 python 文件和 Edge 浏览器驱动 msedgedriver.exe。
Python连接Access数据库Python连接Access数据库Python连接Access数据库Python连接Access数据库Python连接Access数据库Python连接Access数据库Python连接Access数据库Python连接Access数据库Python连接Access数据库...
Python的解释器和其外延标准库在几乎所有主要平台在Python官方网站都是以源文件或者二进制文件可进行免费访问的。该网站同样包含了许多免费的第三方Python模块、项目和工具的发布和链接,以及额外的文档。 Python...
其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始...
已经搭建好代理IP池之后,就可以尝试用获得的代理IP访问给定URL,爬取页面,具体的源码和更多说明在github库Simulate-clicks-on-given-URL里,供大家学习。 代码 这段代码可以返回我们需要的用户IP PROXY_POOL_URL =...
#定义要访问的地址 url='http://www.baidu.com' #定义浏览器路径 browser_paths=[r'C:\Program Files (x86)\Mozilla Firefox\firefox.exe', #r'C:\Program Files (x86)\Google\Chrome\Application\chrome.exe',...
python实现网络爬虫使用了第三方库beautifulsoup来解析网页文件,并且实现了cookie登录特定网站访问.zip
python云服务器网页完整的环境配置,可从外网访问网页。比较适合新手。
有些网页需要你登录之后才可以访问,你需要提供账户和密码。 只要在发送http请求时,带上含有正常登陆的cookie就可以了。 1、首先我们要先了解cookie的工作原理。 Cookie是由服务器端生成,发送给User-Agent(一般是...
今天小编就为大家分享一篇Python实现自动访问网页的例子,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
从网页取数填入excel表中,写代码,从网页提取资料,填到excel表中
python爬虫模拟抓取网页内容,采集网页的内容,这里主要是模拟抓取新浪微博中的内容,里面包括了[源码] 爬取客户端微博信息、[源码] 爬取移动端个人信息 关注id和粉丝id (速度慢)、[源码] 爬取移动端微博信息 (强推)...
web扫flag的一个python文件,怎么用就不用说了吧,随便在一个有python3.0或2.0的机子上就能用了,不过你那个flag的路径在哪,那么你在py文件中的flag路径也得改哈,别傻福福的直接用
这个Python脚本是一个简单的网页爬虫,它可以爬取指定URL的页面内容,并将爬取的...对于某些需要登录或特殊处理的网站,可能需要使用更复杂的爬虫技术或工具。 本脚本仅用于学习和研究目的,请勿用于非法或恶意用途。
主要介绍了python访问抓取网页常用命令的相关资料,需要的朋友可以参考下
本文实例讲述了Python3访问并下载网页内容的方法。分享给大家供大家参考。具体如下: #!/usr/local/bin/python3.2 import urllib.request,io,os,sys req = urllib.request.Request(http://www.google.com) f = ...
├─千锋Python教程:第01章 第一个Python程序与数据存储及数据类型(9集) │ │ .DS_Store │ │ │ ├─code │ │ 1、数据存储.txt │ │ 2、第一个python程序.py │ │ 3、注释.py │ │ 4、输出与输入.py │ ...
Edge浏览器驱动程序 python程序使用使用selenium打开浏览器访问网页