当前位置:首页 > 引流 > 正文内容

c#打开浏览器并全屏(设置ie浏览器打开全屏)

admin2年前 (2022-10-11)引流525

基于C#.NET+Phantomjs+Sellenium的高级网络爬虫程序。可执行javascript代码、触发各类事件、操纵页面Dom结构、甚至可以移除不喜欢的css样式。

很多网站都用Ajax动态加载、翻页,比如携程网的评论数据。如果是用之前那个简单的爬虫,是很难直接抓取到所有评论数据的,我们需要去分析那漫天的Javascript代码寻找API数据接口,还要时刻提防对方增加数据陷阱或修改API接口地。

如果通过高级爬虫,就可以完全无视这些问题,无论他们如何加密Javascript代码来隐藏API接口,最终的数据都必要呈现在网站页面上的Dom结构中,不然普通用户也就没法看到了。所以我们可以完全不分析API数据接口,直接从Dom中提取数据,甚至都不需要写那复杂的正则表达式。

主要特性

  • 支持Ajax请求事件的触发及捕获;

  • 支持异步并发抓取;

  • 支持自动事件通知;

  • 支持代理切换;

  • 支持操作Cookies;

运行截图

  • 抓取酒店数据

  • 抓取评论数据

示例代码

 /// <summary>
    /// 抓取酒店评论
    /// </summary>
	static void Main(string[] args)
    {
        var hotelUrl = "http://hotels.ctrip.com/hotel/434938.html";
        var hotelCrawler = new StrongCrawler();
        hotelCrawler.OnStart += (s, e) =>
        {
            Console.WriteLine("爬虫开始抓取地址:" + e.Uri.ToString());
        };
        hotelCrawler.OnError += (s, e) =>
        {
            Console.WriteLine("爬虫抓取出现错误:" + e.Uri.ToString() + ",异常消息:" + e.Exception.ToString());
        };
        hotelCrawler.OnCompleted += (s, e) =>
        {
            HotelCrawler(e);
        };
        var operation = new Operation
        {
            Action = (x) => {
                //通过Selenium驱动点击页面的“酒店评论”
                x.FindElement(By.XPath("//*[@id='commentTab']")).Click();
            },
            Condition = (x) => {
                //判断Ajax评论内容是否已经加载成功
                return x.FindElement(By.XPath("//*[@id='commentList']")).Displayed && x.FindElement(By.XPath("//*[@id='hotel_info_comment']/div[@id='commentList']")).Displayed && !x.FindElement(By.XPath("//*[@id='hotel_info_comment']/div[@id='commentList']")).Text.Contains("点评载入中");
            },
            Timeout = 5000
        };

        hotelCrawler.Start(new Uri(hotelUrl), null, operation);//不操作JS先将参数设置为NULL

        Console.ReadKey();
    }

github:https://github.com/microfisher/Strong-Web-Crawler

标签: 浏览器

扫描二维码推送至手机访问。

版权声明:本文中部分文字、图片、音频、视频来源于互联网及公开渠道,仅供学习参考,版权归原创者所有! 如侵犯到您的权益,请及时通知我们!我们将在第一时间内删除。

本文链接:https://73ya.com/yinliu/2071.html

分享给朋友:

“c#打开浏览器并全屏(设置ie浏览器打开全屏)” 的相关文章

短视频运营干货 专业短视频运营的必备技能

短视频运营是一个很有前景的行业,而想要做好短视频的运营,要怎么做呢?今天我们就一起来看看关于短视频运营干货,专业短视频运营的必备技能的相关内容。 短视频运营干货  一、热点从哪来 1:可预测热点...

免费无广告的短视频素材怎么找?免费推荐给大家

天天都在看短视频,天天都在找素材,说的就是苦逼的短视频的作者了。熬夜加班是家常便饭,但是即便如此,当有一个好的作品呈现的时候他们又会很有成就感。那么免费无广告的短视频素材怎么找?接下来就跟着小编一起来看看吧。 免费无广告的短视频素材怎么找?  01 易撰 易撰是一个专业的自媒体工具,它...

云南面积最大的城市是哪个 云南省面积最大的州市排名

云南省,位于西南地区,省会昆明,东部与贵州、广西为邻,北部与四川相连,西北部紧依西藏,西部与缅甸接壤,南部和老挝、越南毗邻。你知道云南省哪个市面积最大吗? 普洱市(45385km²) 普洱市别称思茅,是云南地级市,是“七彩云南”丰富性和多样性的缩影,是全国唯一的国家绿色经济试验示范区。...

九江人口2020总人数口排名 2020九江人口普查数量介绍

九江,简称“浔”,为江西省设区的地级市,那么,九江市人口数是多少呢?据《九江市第七次全国人口普查公报》,2020年末,九江常住人口460.03万人,在江西各市人口排行第五,其中,九江市区(含濂溪区、浔阳区、柴桑区及九江开发区)常住人口135.13万人,而修水县常住人口为71.06万人,是...

中国著名十大道教圣地(中国十大道教圣地排名)

道教是我国五大宗教中唯一一个发源于中国,有中国人创立而成的中国本土宗教,而中国道教名山又被称为洞天福地,那中国境内都有哪些风景与文化兼具的道教名山呢,本文就为大家盘点中国十大著名道教名山,一起来了解一下吧。 1.武当山 武当山这个位于湖北西北部十堰市丹江口市境内的世界文化遗产,从明代开...

word文档怎么解除密码(取消文件设置的密码教程)

在我们平时使用Word文档中,经常会遇到文档被锁定的情况,此时我们唯一能做的就是要对文档解锁。如何解锁文档呢? 我们打开一个被锁定的文档,可以看到工具栏【开始】下面的各个菜单工具都变成了灰色:     我们选择工具栏【审阅】,在下拉菜单中选择【限制编辑】,看到右边弹出了限制编辑的对话...