【Python爬虫】: Selenium自动化进阶,它能做的不仅仅是爬虫

任佳伟 2018-12-27 1

【Python爬虫】: Selenium自动化进阶,它能做的不仅仅是爬虫

任佳伟

哈喽,之前为大家介绍了Selenium的基本用法,使用Selenium获取网页源码再解析数据的方式来完成数据的爬取。

除此之外,它还有更多的进阶功能,今天在这里就位大家介绍用Selenium的鼠标键盘操作(ActionChains)和使用Selenium实现验证码破解。

仔细往下看,你会发现很多所谓的黑科技原来你也可以实现!



PART

01


用Selenium做自动化,有时候会遇到需要模拟鼠标操作才能进行的情况,比如单击、双击、点击鼠标右键、拖拽等等。而Selenium给我们提供了一个类来处理这类事件——ActionChains。


selenium.webdriver.common.action_chains.ActionChains(driver)


ActionChains类基本能够满足我们所有对鼠标操作的需求。


以下是罗列的ActionChains方法:


# 单击鼠标左键
click(
on_element=None)
# 点击鼠标左键,不松开
click_and_hold(
on_element=None)
# 点击鼠标右键
context_click(
on_element=None)
# 双击鼠标左键
double_click(
on_element=None)
# 拖拽到某个元素然后松开
drag_and_drop(source
, target)
# 拖拽到某个坐标然后松开
drag_and_drop_by_offset
(source
, xoffset, yoffset)
# 按下某个键盘上的键
key_down(value
, element=None)
# 松开某个键
key_up(value
, element=None)
# 鼠标从当前位置移动到某个坐标

move_by_offset(xoffset
, yoffset)
# 鼠标移动到某个元素
move_to_element(to_element)
# 移动到距某个元素(左上角坐标)多少距离的位置
move_to_element_with_offset
(to_element
, xoffset, yoffset)
# 执行链中的所有动作
perform()
# 在某个元素位置松开鼠标左键
release(
on_element=None)
# 发送某个键到当前焦点的元素
send_keys(*keys_to_send)
# 发送某个键到指定元素
send_keys_to_element
(element
, *keys_to_send)


PART

02


接下来用亚马逊相关事例,来详细说明和演示每一个方法的用法:


1、点击操作:打开亚马逊→搜索“echo→自动翻页。


import time
from selenium import webdriver
# 生成浏览器对象
browser = webdriver.Firefox()
# 使浏览器访问 https://www.amazon.com/。
browser.get('https://www.amazon.com/')
# 找到亚马逊的搜索框并输入‘echo’。
browser.find_element_by_xpath
(
'//*[@id="twotabsearchtextbox"]')
.send_keys(
'echo')
# 输入‘echo'后点击放大镜标志的搜索按钮。
browser.find_element_by_xpath
(
'//*[@id="nav-search"]/form/div[2]
/div/input'
).click()
# 在每页停顿5秒后,点击翻页按钮。
while True:
    time.sleep(
5)
    browser.find_element_by_xpath
    (
'//*[@id="pagnNextString"]').click()


2、标移动:打开亚马逊→将鼠标移动到切换语言的按钮上→将鼠标移动到登陆按钮上。


import time
from selenium import webdriver
from selenium.webdriver.common.
action_chains
import ActionChains
# 生成浏览器对象
browser = webdriver.Firefox()
# 使浏览器访问 https://www.amazon.com/。
browser.get('https://www.amazon.com/')
# 找到亚马逊主页切换语言的element。
language = browser.find_element_by_xpath
(
'//*[@id="icp-nav-flyout"]')
# 找到亚马逊主页登陆的element。
sign_in = browser.find_element_by_xpath
(
'//*[@id="nav-link-accountList"]')
# 生成ActionChains对象。
action = ActionChains(browser)
# 将鼠标移动到亚马逊主页切换语言的element。
action.move_to_element(language).perform()
time.sleep(
5)
# 将鼠标移动到亚马逊主页登陆的element。
action.move_to_element(sign_in).perform()
time.sleep(
5)
# 将鼠标移动到亚马逊主页登陆的element。
action.move_to_element(sign_in).perform()
time.sleep(
5)


3、拖拽:将亚马逊主页的Logo拖入搜索框中。(可用于破解滑块验证码中)


from selenium import webdriver
from selenium.webdriver.common.
action_chains
import ActionChains
# 生成浏览器对象
browser = webdriver.Firefox()
# 使浏览器访问 https://www.amazon.com/。
browser.get('https://www.amazon.com/')
# 找到亚马逊主页搜索框左边的亚马逊LOGO。
logo = browser.find_element_by_xpath
(
'/html/body/div[1]/header/div
/div[1]/div[1]/div/a/span[1]'
)
# 找到亚马逊搜索框
Search_Bar = browser.find_element_by_xpath
(
'//*[@id="twotabsearchtextbox"]')
# 将亚马逊logo移动到搜索框
action = ActionChains(browser)
action.drag_and_drop
(logo
, Search_Bar).perform()


温馨提示:拖拽使用时注意加等待时间,有时会因为速度太快而失败。

——贴心的小编




4、截图:配合打码平台破解亚马逊验证码。


from selenium import webdriver
from selenium.webdriver.common.
action_chains
import ActionChains
# 生成浏览器对象
browser = webdriver.Firefox()
# 使浏览器访问 https://www.amazon.com/。
browser.get('https://www.amazon.com/')
# 获取当前浏览器title
title = browser.title
# 如果浏览器title 等于 “Robot Check”
if title == 'Robot Check':
   
# 找到验证码图片element
   
code_image_div = browser.find_element_
    by_xpath(
'/html/body/div/div[1]/div[3]
    /div/div/form/div[1]/div/div/div[1]/img'
)
   
# 截取验证码图片,并以"code.png"命名保存。
   
code_image_div.screenshot('code.png')
   
# 对接打码平台 上传验证码图片。
   
rc = RClient('username',
    'password', '105391', 'softid')
    im1 =
open('a.png', 'rb').read()
   
print("正在识别验证码...")
   
# 获取返回的验证码
   
response = (rc.rk_create(im1, 2060))
    code = response[
'Result']
   
print('验证码为:' + code)
   
# 找到验证码输入框并输入验证码
   
browser.find_element_by_xpath
   (
'//*[@id="captchacharacters"]')
    .send_keys(code)
   
# 点击 确定 按钮。
   
browser.find_element_by_xpath
    (
'/html/body/div/div[1]/div[3]
    /div/d
iv/form/div[2]/
   div/span/span/button'
).click()


有了以上这些方法,我相信已经有一些同学想到用它们干什么了吧?方法有了,看你自己怎么使用它哦!


PART

03


简单一句就是Selenium可以完成大多数跟真人一样的操作。

你可以在写好程序后冲一杯咖啡,静静的看着它帮你完成点击、浏览的操作,就算出现验证码也阻挡不了它!

以上就是selenium鼠标键盘操作(ActionChains)的大部分功能以及破解亚马逊验证码的实现,有兴趣的读者朋友可以深入研究,将它利用到实际工作中。



以上就是本期的爬虫文章,谢谢阅读。


抱团交流

一个集大神卖家与逗趣同行于一体的交流群,扫码添加客服微信(备注“进群”哦)。

目前100000+人已关注加入我们

下一篇:进口丨海淘日货vs赴日采购,是博弈还是互补?

上一篇:苹果周边能不能卖?德国要求VAT要怎么办?卖家最关心的问题有解答了!

文章为作者独立观点,不代表AMZ520立场。如有侵权,请联系我们。

任佳伟

黑五电商学院创始人,擅长亚马逊cpc;希望帮助更多的亚马逊卖家运用互联网产品运营的思维去经营自己的店铺和产品,把卖货的公司,变成一家互联网公司

    积分排行* 30分钟更新一次
尾页