程序员最近都爱上了这个网站  程序员们快来瞅瞅吧!  it98k网:it98k.com

本站消息

站长简介/公众号

  出租广告位,需要合作请联系站长

+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

2023-06(1)

爬虫初尝试 | 易车网文章url爬取

发布于2019-08-22 15:54     阅读(647)     评论(0)     点赞(12)     收藏(3)


目标网站:news.bitauto.com/

由于推荐页的加载更多不方便操作

选择单项页面爬取 例如新车页

在页面右键选择 检查 

找到目标位置

 

/html/body/div[3]/div/div[1]/div[3]/div/div/h2/a  (推荐使用Xpath helper 可以直接复制Xpath)

  1. #coding: utf8
  2. from selenium import webdriver
  3. f=open("url6.txt","w",encoding="utf-8")
  4. fw = open("news.txt", "w", encoding="utf-8")
  5. driver = webdriver.Chrome('C:\Program Files (x86)\Google\Chrome\Application\chromedriver')
  6. def geturl(url,k):
  7. driver.get(url)
  8. urls = driver.find_elements_by_xpath('//div[@class="article-card horizon"]//a') #目标url存在于多个位置 可以选一个方便找到的
  9. url_list=[]
  10. for url in urls:
  11. u = url.get_attribute('href')
  12. if u == 'None':
  13. continue
  14. else:
  15. url_list.append(str(url.get_attribute("href")))
  16. url_list=list(set(url_list))
  17. #print(url_list)
  18. for new_url in url_list:
  19. if(len(new_url)<2):
  20. continue
  21. if(new_url[-1]=='l'):
  22. print(new_url)
  23. f.write(new_url+"\n")
  24. #
  25. if __name__ == '__main__':
  26. #url= 'http://news.bitauto.com/xinche/'
  27. a_list=[("xinche",4786)]
  28. for t,am in a_list:
  29. url = "http://news.bitauto.com/" + t + "/?pageindex="
  30. k=len(t)
  31. for i in range(1, am):
  32. new_url = url + str(i)
  33. print(t," page:", i)
  34. geturl(new_url,k)
  35. f.close()
  36. driver.close()

 



所属网站分类: 技术文章 > 博客

作者:085iitirtu

链接:https://www.pythonheidong.com/blog/article/52643/d2e6065c674bd4b92114/

来源:python黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

12 0
收藏该文
已收藏

评论内容:(最多支持255个字符)