发布于2021-06-03 16:31 阅读(830) 评论(0) 点赞(0) 收藏(0)
大数据就是量大,有价值,速度快,多样性,而大数据有着很好的分析价值,对互联网的和现在的生活中有有着很大的作用,我们可以通过网络爬虫使用爬虫程序配合爬虫代理IP去获取自己想要的数据信息。只需要将要爬取的目标网站网址放入程序中配上爬虫代理IP去爬取即可。
近几年由于疫情的原因,二手车行业出现了最大的变化,根据获取的二手车市场数据,对影响二手车价格的因素进行研究与分析,靠着真实的大数据进行精准的分析和运营,是未来整个二手车行业必然会上升一个等级。想要提供更多真实,精准,专业的数据分析报告,我们也可以去试着去采集那些二手车平台网站。
通过瓜子网去获取二手车的一些基础信息和价格:
1,采集品牌车的链接
2、通过链接采集该品牌的各类信息
3、将采集好的数据信息进行整理分析保存。
网络爬虫可以利用C Shar语言的request库去进行采集,由于多线程爬取数据比单线程的效率要高,尤其对于爬取数据量大的情况,效果更好,所以采集瓜子网最好用多线程爬虫去采集,可以参考以下代码:
// 要访问的目标页面 string targetUrl = "http://httpbin.org/ip"; // 代理服务器(产品官网 www.16yun.cn) string proxyHost = "http://t.16yun.cn"; string proxyPort = "31111"; // 代理验证信息 string proxyUser = "username"; string proxyPass = "password"; // 设置代理服务器 WebProxy proxy = new WebProxy(string.Format("{0}:{1}", proxyHost, proxyPort), true); ServicePointManager.Expect100Continue = false; var request = WebRequest.Create(targetUrl) as HttpWebRequest; request.AllowAutoRedirect = true; request.KeepAlive = true; request.Method = "GET"; request.Proxy = proxy; //request.Proxy.Credentials = CredentialCache.DefaultCredentials; request.Proxy.Credentials = new System.Net.NetworkCredential(proxyUser, proxyPass); // 设置Proxy Tunnel // Random ran=new Random(); // int tunnel =ran.Next(1,10000); // request.Headers.Add("Proxy-Tunnel", String.valueOf(tunnel)); //request.Timeout = 20000; //request.ServicePoint.ConnectionLimit = 512; //request.UserAgent = "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.82 Safari/537.36"; //request.Headers.Add("Cache-Control", "max-age=0"); //request.Headers.Add("DNT", "1"); //String encoded = System.Convert.ToBase64String(System.Text.Encoding.GetEncoding("ISO-8859-1").GetBytes(proxyUser + ":" + proxyPass)); //request.Headers.Add("Proxy-Authorization", "Basic " + encoded); using (var response = request.GetResponse() as HttpWebResponse) using (var sr = new StreamReader(response.GetResponseStream(), Encoding.UTF8)) { string htmlStr = sr.ReadToEnd(); }
作者:laical
链接:https://www.pythonheidong.com/blog/article/982923/f5903ccfcfc2a7bb1d5c/
来源:python黑洞网
任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任
昵称:
评论内容:(最多支持255个字符)
---无人问津也好,技不如人也罢,你都要试着安静下来,去做自己该做的事,而不是让内心的烦躁、焦虑,坏掉你本来就不多的热情和定力
Copyright © 2018-2021 python黑洞网 All Rights Reserved 版权所有,并保留所有权利。 京ICP备18063182号-1
投诉与举报,广告合作请联系vgs_info@163.com或QQ3083709327
免责声明:网站文章均由用户上传,仅供读者学习交流使用,禁止用做商业用途。若文章涉及色情,反动,侵权等违法信息,请向我们举报,一经核实我们会立即删除!