程序员最近都爱上了这个网站  程序员们快来瞅瞅吧!  it98k网:it98k.com

本站消息

站长简介/公众号

  出租广告位,需要合作请联系站长

+关注
已关注

分类  

标签  

日期归档  

暂无数据

普京宣布开战,俄乌战争实时新闻采集整理

发布于2022-02-24 17:15     阅读(753)     评论(0)     点赞(0)     收藏(0)


北京时间2022年2月24号10点50分,俄罗斯总统普京发表讲话,宣布在乌克兰顿巴斯地区展开一项“特别的军事行动”,并呼吁乌军“放下武器”,同时警告乌克兰政权将对可能发生的流血事件负全部责任,如果乌克兰局势受到外界干扰,俄罗斯将立即作出反应。随后俄罗斯军队从多个方向对乌克兰发起了进攻,重点摧毁和占领机场、军事指挥中心、交通要道等目标。

与此同时各种信息不断从网络传来,短时间内难以分辨真实信息和谣言,这时候爬虫程序可以实时进行信息的采集和分析,将焦点信息进行比对核实,快速形成实时新闻线索,下面demo演示如何同时采集多个网站,可以参考修改后对新闻网站进行采集和整理:


    #! -*- encoding:utf-8 -*-
    import urllib2
    import random
    import httplib


    class HTTPSConnection(httplib.HTTPSConnection):

        def set_tunnel(self, host, port=None, headers=None):
            httplib.HTTPSConnection.set_tunnel(self, host, port, headers)
            if hasattr(self, 'proxy_tunnel'):
                self._tunnel_headers['Proxy-Tunnel'] = self.proxy_tunnel


    class HTTPSHandler(urllib2.HTTPSHandler):
        def https_open(self, req):
            return urllib2.HTTPSHandler.do_open(self, HTTPSConnection, req, context=self._context)


    # 要访问的目标页面
    targetUrlList = [
        "https://weibo.com",
        "https://httpbin.org/headers",
        "https://httpbin.org/user-agent",
    ]

    # 代理服务器(产品官网 www.16yun.cn)
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"

    # 代理验证信息
    proxyUser = "username"
    proxyPass = "password"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host": proxyHost,
        "port": proxyPort,
        "user": proxyUser,
        "pass": proxyPass,
    }

    # 设置 http和https访问都是用HTTP代理
    proxies = {
        "http": proxyMeta,
        "https": proxyMeta,
    }

    #  设置IP切换头
    tunnel = random.randint(1, 10000)
    headers = {"Proxy-Tunnel": str(tunnel)}
    HTTPSConnection.proxy_tunnel = tunnel


    proxy = urllib2.ProxyHandler(proxies)
    opener = urllib2.build_opener(proxy, HTTPSHandler)
    urllib2.install_opener(opener)

    # 访问三次网站,使用相同的tunnel标志,均能够保持相同的外网IP
    for i in range(3):
        for url in targetUrlList:
            r = urllib2.Request(url)
            print(urllib2.urlopen(r).read())



所属网站分类: 技术文章 > 博客

作者:laical

链接:https://www.pythonheidong.com/blog/article/1355164/d70b5b594cf518a44eda/

来源:python黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

0 0
收藏该文
已收藏

评论内容:(最多支持255个字符)