程序员最近都爱上了这个网站  程序员们快来瞅瞅吧!  it98k网:it98k.com

本站消息

站长简介/公众号

  出租广告位,需要合作请联系站长

+关注
已关注

分类  

标签  

日期归档  

暂无数据

二手车数据信息采集

发布于2021-06-03 16:31     阅读(830)     评论(0)     点赞(0)     收藏(0)


大数据就是量大,有价值,速度快,多样性,而大数据有着很好的分析价值,对互联网的和现在的生活中有有着很大的作用,我们可以通过网络爬虫使用爬虫程序配合爬虫代理IP去获取自己想要的数据信息。只需要将要爬取的目标网站网址放入程序中配上爬虫代理IP去爬取即可。

近几年由于疫情的原因,二手车行业出现了最大的变化,根据获取的二手车市场数据,对影响二手车价格的因素进行研究与分析,靠着真实的大数据进行精准的分析和运营,是未来整个二手车行业必然会上升一个等级。想要提供更多真实,精准,专业的数据分析报告,我们也可以去试着去采集那些二手车平台网站。

通过瓜子网去获取二手车的一些基础信息和价格:

1,采集品牌车的链接

2、通过链接采集该品牌的各类信息

3、将采集好的数据信息进行整理分析保存。

网络爬虫可以利用C Shar语言的request库去进行采集,由于多线程爬取数据比单线程的效率要高,尤其对于爬取数据量大的情况,效果更好,所以采集瓜子网最好用多线程爬虫去采集,可以参考以下代码:

// 要访问的目标页面
string targetUrl = "http://httpbin.org/ip";


// 代理服务器(产品官网 www.16yun.cn)
string proxyHost = "http://t.16yun.cn";
string proxyPort = "31111";

// 代理验证信息
string proxyUser = "username";
string proxyPass = "password";

// 设置代理服务器
WebProxy proxy = new WebProxy(string.Format("{0}:{1}", proxyHost, proxyPort), true);


ServicePointManager.Expect100Continue = false;

var request = WebRequest.Create(targetUrl) as HttpWebRequest;

request.AllowAutoRedirect = true;
request.KeepAlive = true;
request.Method    = "GET";
request.Proxy     = proxy;

//request.Proxy.Credentials = CredentialCache.DefaultCredentials;

request.Proxy.Credentials = new System.Net.NetworkCredential(proxyUser, proxyPass);

// 设置Proxy Tunnel
// Random ran=new Random();
// int tunnel =ran.Next(1,10000);
// request.Headers.Add("Proxy-Tunnel", String.valueOf(tunnel));


//request.Timeout = 20000;
//request.ServicePoint.ConnectionLimit = 512;
//request.UserAgent = "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.82 Safari/537.36";
//request.Headers.Add("Cache-Control", "max-age=0");
//request.Headers.Add("DNT", "1");


//String encoded = System.Convert.ToBase64String(System.Text.Encoding.GetEncoding("ISO-8859-1").GetBytes(proxyUser + ":" + proxyPass));
//request.Headers.Add("Proxy-Authorization", "Basic " + encoded);

using (var response = request.GetResponse() as HttpWebResponse)
using (var sr = new StreamReader(response.GetResponseStream(), Encoding.UTF8))
{
    string htmlStr = sr.ReadToEnd();
}



所属网站分类: 技术文章 > 博客

作者:laical

链接:https://www.pythonheidong.com/blog/article/982923/f5903ccfcfc2a7bb1d5c/

来源:python黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

0 0
收藏该文
已收藏

评论内容:(最多支持255个字符)