大数据人官方⑤群

大数据人|中国大数据第一社区

 找回密码
 注册会员

扫一扫,访问微社区

火车浏览器实现关键词批量搜索

2017-7-29 17:35| 发布者: 大海洋数据| 查看: 237| 评论: 0

摘要: 何为模拟浏览器操作呢?即我们平时手动使用浏览器时会进行哪些动作,火车浏览器​软件就可以进行模拟自动实现这些动作,继而进一步实现对页面中元素的操作。比如我们会使用浏览器打开网页,刷新网页,调整页面 ...

何为模拟浏览器操作呢?

即我们平时手动使用浏览器时会进行哪些动作,火车浏览器​软件就可以进行模拟自动实现这些动作,继而进一步实现对页面中元素的操作。


比如我们会使用浏览器打开网页,刷新网页,调整页面大小等,这些在火车浏览器软件中是如何实现的呢?我们打开软件的脚本编辑器来学习一下。

软件的脚本编辑器中有专门针对浏览器的流程选择,具体说明如下:

c813f8699f911ff8a17a57f9d61bc7b7.png

标签页操作

我们可以创建标签页和切换标签页,该操作能够实现在一个脚本中打开多个页面,和人工手动操作无异。


打开网页

想要抓取数据就先要打开网页,该操作用来模拟网页打开的步骤。首先需要填写要打开的网址:

e4faddefe205bc604b91ab3cf182bde7.png

①打开网址:填写需要打开的网址。(可以调用文本型变量:将需要打开的网址保存在文本型变量中即可调用。 注意:这里只能调用文本型变量,如果是list变量,则需要循环遍历list变量后保存在文本型变量中才可调用。)

②来源地址:模拟http请求的referer网址,即告诉服务器我们是从哪个页面链接过来的,此处一般可以不用填写。

③Cookie:可以用fiddler抓取页面的cookie(登录信息),保存在文本型变量中,直接调用该变量。

④智能判断网页是否加载完成:勾选则可启用该功能。

⑤超时时间:设定一个时间,若是在此超时时间内,网址仍没有加载完成,就强制结束打开网页这一步,继续运行下面的步骤。

⑥Windows认证:访问页面时有时会需要身份认证,需填入用户名密码,比如在登录路由器时,就需要使用这个功能。

 

Cookie操作

即在火车浏览器中进行cookie的导出、导入或者是清除cookie。

①导出cookie到文本:将火车浏览器中cookie导出并保存到文本中。

②导入文本cookie:将文本中的cookie导入到火车浏览器中。(注意:此时文本中的cookie必须是火车浏览器导出的cookie格式。)

③导入字符cookie:导入火车浏览器中接收的cookie格式。

④清除cookie:即清除火车浏览器中的cookie。

使用场景

①网站需频繁登录:遇到此类网站,可以将登录后的cookie导出。然后下次运行时,可以直接导入登录后的cookie,避免再次重复登录步骤。

②直接退出登录账号:想要直接退出,可以设置清除cookie,则浏览器中的登录信息都会清除。

注意:如果是使用fiddler抓包的cookie,则不能在本步骤使用。可以在打开网页中调用fiddler抓包的cookie。

 

设置浏览器选项

对浏览器的UserAgent、代理等一些基本参数进行设置。

①UserAgent:模拟浏览器信息。可以选择常用useragent中的示例,也可以自己找真实的UA填写。这里只可以调用文本型变量。如果存储大量的UA在list变量中,需要循环遍历list保存至文本型变量,然后这里再调用该文本型变量。

83788d754b60f7b1bab3b2a7054313c1.png

②代理:这里支持http以及Sock4、Sock5类型的代理。

格式形如:http://user:pass@ip:port (socks4://user:pass@ip:port)如果没有用户名密码,那么格式形如http://:@ip:port,例如http://:@127.0.0.1:8888。

如果IP代理地址存放在文本中,可以使用文本读取,读取IP地址保存至list变量,然后循环遍历list变量保存至文本型变量,再调用该文本型变量用于设置浏览器代理,这里需要注意代理的格式需要处理成火车浏览器默认的格式。
③弹出窗口:勾选则允许自动弹出新的标签页。


滚动条设置

滚动当前页面,可设置滚动到顶部、滚动到底部、滚动到指定元素位置的等。针对一些页面信息较多,关键信息需要进行下拉才会出现的情况。

a5ec668eb5c8f2620c1b02e897f35bb2.png

①滚动到指定的元素位置:需要找到指定位置的xpath。

②滚动到指定的坐标:此功能需要结合“设置浏览器大小”功能使用,先确定界面大小,这样在运行过程中,指定元素的坐标不会发生变化。在设置浏览器大小后,将鼠标放在滚动目标元素处,火车浏览器左下角会出现该元素的X、Y坐标,将其写入步骤即可(注意:一定要先设置浏览器大小,再取元素坐标。)

36e8d9d54b5cda970dd872827f596b7a.png

刷新页面

即刷新当前页面。

 

后退一步

顾名思义,即后退到上一个操作界面。

 

网页截图

在当前页面截图并将图片保存在本地。截取方式可以选择截取整个页面、按照区域坐标截取,按照xpath截三种。

①截取整个页面:指定图片保存路径、文件名保存格式,保存文件路径(是将图片保存在本地的路径再保存至变量,此处可以为空)。

注意:保存格式可以选择原文件名以及变量、日期等命名方式。格式结尾要指明图片格式后缀,如jpg、png 等图片格式。如文件名保存格式中填写的名称呈现绿色,则需要在前面加上转义字符 ”\“,如下图。

dddf42d4571ee633ecb771c254aaffbc.png

②截取指定区域:可以借助坐标来截图某一元素。首先找到元素的任意区域xy坐标点,如下图,鼠标放在该区域中,则在火车浏览器左下角,会出现相应坐标,将坐标填在步骤里,则可截取该元素的图片。

注意:在使用此方式时,依旧需要结合“改变浏览器大小”步骤,设置浏览器界面大小,以免运行过程中界面大小变化,导致设置的坐标无效。

878fa4751d2ad28fd4ef45b0e34e4e80.jpg

③截取指定xpath:截取指定xpath元素内的图片。首先要分析出需要截图区域的xpath ,然后将xpath填写在步骤中,即可截取该图片。

 

页面信息

对当前页面中的有用信息进行提取,比如当前页地址,当前页登录信息等。


浏览器窗口大小

此功能可以更改浏览器显示的窗口大小。在前面的滚动到指定坐标和截取指定区域功能中已经介绍过,结合此功能可以保证页面中的x、y坐标不变,能够正确点击到设定的坐标。

 

弹窗信息

操作中如出现alert弹窗,则无法通过xpath获得内容,所以可以通过此步骤获取弹窗信息。注意:只有当整个脚本在右键测试运行,或exe以及项目管理器中正式运行时,才能取得alert中的内容。单个步骤右键测试运行时,是无法获取其中内容的。

 

上面的这些操作通过火车浏览器都可以自动实现,当我们需要反复进行这些操作的时候,比如,批量打开网页进行群发等操作,就能直接用软件来执行,节省大量的人力和时间。


鲜花

握手

雷人

路过

鸡蛋

最新评论

相关分类

关闭

站长推荐上一条 /2 下一条


id="mn_portal" >首页Portalid="mn_P18" onmouseover="navShow('P18')">应用id="mn_P15" onmouseover="navShow('P15')">技术id="mn_P37" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">前沿id="mn_P36" onmouseover="navShow('P36')">宝箱id="mn_P61" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">专栏id="mn_P65" >企业id="mn_forum_2" >社区BBSid="mn_Nd633" >导航id="mn_Nbe89" >通讯录id="mn_N4033" >赞+1 折叠导航 关注微信 关注微博 关注我们

QQ|广告服务|关于我们|鄂ICP备14012176号-2|Archiver|手机版|小黑屋|大数据人    

GMT+8, 2017-10-17 12:05 , Processed in 0.505989 second(s), 21 queries .

Powered by 小雄! X3.2

© 2014-2016 bigdataer Inc.

返回顶部