发布于2020-02-16 18:44 阅读(1313) 评论(0) 点赞(14) 收藏(0)
我想用GAE进行一些网页抓取。(无限校园学生信息门户网站,fyi)。此服务需要您登录才能进入网站。我有一些可以在普通python中使用机械化的代码。当我得知无法在Google App Engine中使用机械化时,我最终使用了urllib2 + ClientForm。我无法让它登录到服务器,因此在摆弄了cookie处理几个小时之后,我在一个普通的python解释器中运行了完全相同的代码,并且它起作用了。我找到了日志文件,并看到大量有关在请求中删除“主机”标头的消息...我在Google Code上找到了源文件,并且主机标头位于“不受信任”列表中,并从所有请求中将其删除用户代码。
显然,GAE删除了主机标头,这是IC决定要登录的学校系统所必需的,这就是为什么它看起来像我无法登录的原因。
我如何解决这个问题?我无法在提交给目标网站的虚假表单中指定其他任何内容。为什么这首先是一个“安全漏洞”?
App Engine不会删除 Host标头:它会根据您请求的URI强制其为准确值。假设URI是绝对的,则根据RFC2616,服务器甚至都不允许考虑Host标头:
- 如果Request-URI是absoluteURI,则主机是Request-URI的一部分。请求中的任何主机头字段值都必须被忽略。
...所以我怀疑您误诊了问题的原因。尝试将请求定向到您控制的“虚拟”服务器(例如,您的另一个非常简单的应用程序引擎应用程序),以便您可以查看请求的所有标头和正文(因为它们来自您的GAE应用程序)从您的“普通python解释器”中获取。您如何看待这种情况?
作者:黑洞官方问答小能手
链接:https://www.pythonheidong.com/blog/article/231612/b39be6093d65fabf0b79/
来源:python黑洞网
任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任
昵称:
评论内容:(最多支持255个字符)
---无人问津也好,技不如人也罢,你都要试着安静下来,去做自己该做的事,而不是让内心的烦躁、焦虑,坏掉你本来就不多的热情和定力
Copyright © 2018-2021 python黑洞网 All Rights Reserved 版权所有,并保留所有权利。 京ICP备18063182号-1
投诉与举报,广告合作请联系vgs_info@163.com或QQ3083709327
免责声明:网站文章均由用户上传,仅供读者学习交流使用,禁止用做商业用途。若文章涉及色情,反动,侵权等违法信息,请向我们举报,一经核实我们会立即删除!