抓取需要登录的页面的内容,原理主要是:先模拟登录,获取到COOKIE,然后接下来的访问,都使用这个COOKIE,就可以访问到需要登录的页面。
理论上,浏览器可以做到的事情,程序应该也可以。
不过,模拟登录,说起来容易,但不同站点有不同的处理方式,复杂程度不同。
1、最简单的,是POST适当的数据,不用验证码
2、象Discuz!系列的,要先访问某一个页面,获得随机码,然后置于POST数据中,才可以登录
3、需要验证码。验证码识别是另外一个课题。
无论如何,POST数据必须的。那么,模拟登录,需要POST哪些数据呢?
其实,需要POST哪些数据,每个站点都有所不同,所以要有一个合适的工具来进行分析。我装的是firefox的扩展控件:HttpFox。利用它,可以很方便的获取登录指定站点时,所需要提交的数据串。
模拟登录的代码是这样的:
获得这个CookieContainer后,保存下来,以后每访问该网站,都带上它。CookieContainer相当于浏览器的COOKIE容器,里面存放访问各个网站的COOKIE。
带COOKIE访问代码如下:
其中参数
CookieContainer cc 就是保存的CookieContainer。
分享到:
相关推荐
C#小程序页面抓取信息.pdf
C#抓取网页股票年报数据程序源代码 程序使用httprequest,httpresponse实现网页的提交数据与页面抓取,并整理存储到Access数据库中。
C#模拟登录 保存cookie 到文件 然后模拟蜘蛛抓取需要登录的页面或者操作登录的页面POST GET
抓取网页数据
从中国银行网站抓取外汇牌价 根据lindy1986的程序做的优化。
用c#提供方法给js, js便可实现采集数据的功能 先 show 下 js代码: function get_contents(){ try{ var url=$("#url").val(); // '{"a":"11","b":"22"}' 这个是传递过去的参数,回来的时候的 标识 window....
信息采集,c#.net能够抓取页面中的数据
本人刚刚完成一个模拟浏览器功能,C#抓取页面内容详解为大家分享
主要介绍了C#使用WebClient登录网站并抓取登录后的网页信息实现方法,涉及C#基于会话操作登陆网页及页面读取相关操作技巧,需要的朋友可以参考下
介绍了C# 实现抓取网站页面内容的实例方法,有需要的朋友可以参考一下
精华志 蜘蛛爬虫,递归抓取页面的URL 抓取页面URL 京华志&精华志出品 分享资源 C# ASP.NET SQL DBA 源码
纯C#技术下html页面动态生成的研究与实现。
C#实现web信息自动抓取 希望大家喜欢
使用c#对京东搜索页进行价格,名称爬取,使用AngleSharp+Selenium.PhantomJS
通过WebBrowser网页截图C#源码(抓取完整页面及首屏).pdf
多线程网页信息抓取实现,强大的信息抓取功能
通过HttpGet请求,向baidu发送url请求,并获取返回的网页信息及网页源码内容
httpwebrequest抓取页面小工具
简单快速读取指定网页信息,满足分布式系统或及时获得其它网站最新信息的技术手段。
采用WebBrowser伪装成浏览器访问,绕过了反爬虫程序,获取一个目标网页的数据