程序员最近都爱上了这个网站  程序员们快来瞅瞅吧!  it98k网:it98k.com

本站消息

站长简介/公众号

  出租广告位,需要合作请联系站长

+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

暂无数据

使用Google App Engine进行网络/屏幕抓取-代码在python解释器中有效,但在GAE中不起作用

发布于2020-02-16 18:44     阅读(1313)     评论(0)     点赞(14)     收藏(0)


我想用GAE进行一些网页抓取。(无限校园学生信息门户网站,fyi)。此服务需要您登录才能进入网站。我有一些可以在普通python中使用机械化的代码。当我得知无法在Google App Engine中使用机械化时,我最终使用了urllib2 + ClientForm。我无法让它登录到服务器,因此在摆弄了cookie处理几个小时之后,我在一个普通的python解释器中运行了完全相同的代码,并且它起作用了。我找到了日志文件,并看到大量有关在请求中删除“主机”标头的消息...我在Google Code上找到了源文件,并且主机标头位于“不受信任”列表中,并从所有请求中将其删除用户代码。

显然,GAE删除了主机标头,这是IC决定要登录的学校系统所必需的,这就是为什么它看起来像我无法登录的原因。

我如何解决这个问题?我无法在提交给目标网站的虚假表单中指定其他任何内容。为什么这首先是一个“安全漏洞”?


解决方案


App Engine不会删除 Host标头:它会根据您请求的URI强制其为准确值。假设URI是绝对的,则根据RFC2616,服务器甚至都不允许考虑Host标头

  1. 如果Request-URI是absoluteURI,则主机是Request-URI的一部分。请求中的任何主机头字段值都必须被忽略。

...所以我怀疑您误诊了问题的原因。尝试将请求定向到您控制的“虚拟”服务器(例如,您的另一个非常简单的应用程序引擎应用程序),以便您可以查看请求的所有标头和正文(因为它们来自您的GAE应用程序)从您的“普通python解释器”中获取。您如何看待这种情况?



所属网站分类: 技术文章 > 问答

作者:黑洞官方问答小能手

链接:https://www.pythonheidong.com/blog/article/231612/b39be6093d65fabf0b79/

来源:python黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

14 0
收藏该文
已收藏

评论内容:(最多支持255个字符)