程序员最近都爱上了这个网站  程序员们快来瞅瞅吧!  it98k网:it98k.com

本站消息

站长简介/公众号

  出租广告位,需要合作请联系站长

+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

2024-11(1)

异步爬虫写起来太麻烦?来试试 Trio 吧!

发布于2020-03-11 20:24     阅读(1299)     评论(0)     点赞(7)     收藏(1)


个人博客请访问 http://www.x0100.top 

Trio 翻译过来是三重奏的意思,它提供了更方便异步编程,是 asyncio 的更高级的封装。

它试图简化复杂的 asyncio 模块。使用起来比 asyncio 和 Twisted 要简单的同时,拥有其同样强大功能。这个项目还很年轻,还处于试验阶段但是整体设计是可靠的。作者鼓励大家去尝试使用,如果遇到问题可以在 git 上对他提 issue。同时作者还提供了一个在线聊天室更方便与其沟通:https://gitter.im/python-trio/general。

准备工作

  • 确保你的 Python版本在3.5以及以上。

  • 安装 trio。python3 -m pip install --upgrade trio

  • import trio 运行是否有错误,没有错误可以往下进行了。

知识准备 Async 方法

使用 trio 也就意味着你需要一直写异步方法。

  1. # 一个标准方法
  2. def regular_double(x):
  3.     return 2 * x
  4. # 一个异步方法
  5. async def async_double(x):
  6.     return 2 * x

从外观上看异步方法和标准方法没什么区别只是前面多了个async。

“Async” 是“asynchronous”的简写,为了区别于异步函数,我们称标准函数为同步函数,从用户角度异步函数和同步函数有以下区别:

  1. 要调用异步函数,必须使用 await 关键字。 因此,不要写 regular_double(3),而是写 await async_double(3).

  2. 不能在同步函数里使用 await,否则会出错。
    句法错误:

  1. def print_double(x):
  2.     print(await async_double(x))   # <-- SyntaxError here

但是在异步函数中,await 是允许的:

  1. async def print_double(x):
  2.     print(await async_double(x))   # <-- OK!

综上所述:作为一个用户,异步函数相对于常规函数的全部优势在于异步函数具有超能力:它们可以调用其他异步函数。

在异步函数中可以调用其他异步函数,但是凡事有始有终,第一个异步函数如何调用呢?

我们继续往下看

如何调用第一个异步函数

  1. import trio
  2. async def async_double(x):
  3.     return 2 * x
  4. trio.run(async_double, 3)  # returns 6

这里我们可以使用 trio.run 来调用第一个异步函数。
接下来让我们看看 trio 的其他功能

异步中的等待

  1. import trio
  2. async def double_sleep(x):
  3.     await trio.sleep(2 * x)
  4. trio.run(double_sleep, 3)  # does nothing for 6 seconds then returns

这里使用了异步等待函数 trio.sleep,它的功能和同步函数中的 time.sleep()差不多,但是因为需要使用 await 调用,所以由前面的结论我们知道这是一个异步函数用的等待方法。

事实这个例子没有实际用处,我们用同步函数就可以实现这个简单的功能。这里主要是为了演示异步函数中通过 await 可以调用其他的异步函数。

异步函数调用的典型结构

trio.run -[async function] -> ... -[async function] -trio.whatever

不要忘了写 await

如果忘了写 await 会发生什么,我们看下面的这个例子

  1. import time
  2. import trio
  3. async def broken_double_sleep(x):
  4.     print("*yawn* Going to sleep")
  5.     start_time = time.perf_counter()
  6.     # 糟糕,我忘了写await
  7.     trio.sleep(2 * x)
  8.     sleep_time = time.perf_counter() - start_time
  9.     print("Woke up after {:.2f} seconds, feeling well rested!".format(sleep_time))
  10. trio.run(broken_double_sleep, 3)

运行之后发现

  1. *yawn* Going to sleep
  2. Woke up after 0.00 seconds, feeling well rested!
  3. __main__:4: RuntimeWarning: coroutine 'sleep' was never awaited

报错了,错误类型是 RuntimeWarning,后面是说协程 sleep 没有使用 await。

我们打印下 trio.sleep(3) 看到如下内容,表示这是一个协程,也就是一个异步函数由前面的内容可知。

我们把上面的 trio.sleep(2 * x)改为 await trio.sleep(2 * x) 即可。

记住如果运行时警告:coroutine 'RuntimeWarning: coroutine '…' was never awaited',也就意味这有个地方你没有写await。

运行多个异步函数

如果 trio 只是使用 await trio.sleep 这样毫无意义的例子就没有什么价值,所以下面我们来 trio 的其他功能,运行多个异步函数。

  1. # tasks-intro.py
  2. import trio
  3. async def child1():
  4.     print("  child1: started! sleeping now...")
  5.     await trio.sleep(1)
  6.     print("  child1: exiting!")
  7. async def child2():
  8.     print("  child2: started! sleeping now...")
  9.     await trio.sleep(1)
  10.     print("  child2: exiting!")
  11. async def parent():
  12.     print("parent: started!")
  13.     async with trio.open_nursery() as nursery:
  14.         print("parent: spawning child1...")
  15.         nursery.start_soon(child1)
  16.         print("parent: spawning child2...")
  17.         nursery.start_soon(child2)
  18.         print("parent: waiting for children to finish...")
  19.         # -- we exit the nursery block here --
  20.     print("parent: all done!")
  21. trio.run(parent)

内容比较多让我们一步一步分析,首先是定义了 child1 和 child2 两个异步函数,定义方法和我们上面说的差不多。

  1. async def child1():
  2.     print("child1: started! sleeping now...")
  3.     await trio.sleep(1)
  4.     print("child1: exiting!")
  5. async def child2():
  6.     print("child2: started! sleeping now...")
  7.     await trio.sleep(1)
  8.     print("child2: exiting!")

接下来,我们将 parent 定义为一个异步函数,它将同时调用 child1 和 child2

  1. async def parent():
  2.     print("parent: started!")
  3.     async with trio.open_nursery() as nursery:
  4.         print("parent: spawning child1...")
  5.         nursery.start_soon(child1)
  6.         print("parent: spawning child2...")
  7.         nursery.start_soon(child2)
  8.         print("parent: waiting for children to finish...")
  9.         # 到这里我们调用__aexit__,等待child1和child2运行完毕
  10.     print("parent: all done!")

它通过使用神秘的 async with 语句来创建“nursery”,然后将 child1 和 child2 通过 nusery 方法的 start_soon 添加到 nursery 中。

下面我们来说说 async with,其实也很简单,我们知道再读文件时候我们使用with open()…去创建一个文件句柄,with里面牵扯到两个魔法函数

在代码块开始的时候调用__enter__()结束时再去调用__exit__()我们称open()为上下文管理器。async with someobj语句和with差不多只不过它调用的异步方法的魔法函数:__aenter__和__aexit__。我们称someobj为“异步上下文管理器”。

再回到上面的代码首先我们使用 async with 创建一个异步代码块
同时通过 nursery.start_soon(child1) 和 nursery.start_soon(child2) 调用child1和child2函数开始运行然后立即返回,这两个异步函数留在后台继续运行。

然后等待 child1 和 child2 运行结束之后,结束 async with 代码块里的内容,打印最后的

"parent: all done!"。

让我们看看运行结果

  1. parent: started!
  2. parent: spawning child1...
  3. parent: spawning child2...
  4. parent: waiting for children to finish...
  5.   child2: started! sleeping now...
  6.   child1: started! sleeping now...
  7.     [... 1 second passes ...]
  8.   child1: exiting!
  9.   child2: exiting!
  10. parent: all done!

可以发现和我们上面分析的一样。看到这里,如果你熟悉线程的话,你会发现这个运作机制和多线程类似。但是这里并不是线程,这里的代码全部在一个线程里面的完成,为了区别线程我们称这里的 child1 和 child2 为两个任务,有了任务,我们只能在某些我们称之为“checkpoints”的指定地点进行切换。后面我们再深挖掘它。

trio 里的跟踪器

我们知道上面的多个任务都是在一个线程中进行切换操作的,但是对于如何切换的我们并不了解,只有知道了这些我们才能更好的学好一个模块。
幸运的是,trio 提供了一组用于检查和调试程序的工具。我们可以通过编写一个 Tracer 类,来实现 trio.abc.Instrumen 接口。代码如下

  1. class Tracer(trio.abc.Instrument):
  2.     def before_run(self):
  3.         print("!!! run started")
  4.     def _print_with_task(self, msg, task):
  5.         # repr(task) is perhaps more useful than task.name in general,
  6.         # but in context of a tutorial the extra noise is unhelpful.
  7.         print("{}: {}".format(msg, task.name))
  8.     def task_spawned(self, task):
  9.         self._print_with_task("### new task spawned", task)
  10.     def task_scheduled(self, task):
  11.         self._print_with_task("### task scheduled", task)
  12.     def before_task_step(self, task):
  13.         self._print_with_task(">>> about to run one step of task", task)
  14.     def after_task_step(self, task):
  15.         self._print_with_task("<<< task step finished", task)
  16.     def task_exited(self, task):
  17.         self._print_with_task("### task exited", task)
  18.     def before_io_wait(self, timeout):
  19.         if timeout:
  20.             print("### waiting for I/O for up to {} seconds".format(timeout))
  21.         else:
  22.             print("### doing a quick check for I/O")
  23.         self._sleep_time = trio.current_time()
  24.     def after_io_wait(self, timeout):
  25.         duration = trio.current_time() - self._sleep_time
  26.         print("### finished I/O check (took {} seconds)".format(duration))
  27.     def after_run(self):
  28.         print("!!! run finished")

然后我们运行之前的示例但是这次我们传入的是一个 Tracer 对象。

trio.run(parent, instruments=[Tracer()])

然后我们会发现打印了一大堆东西下面我们一部分一部分分析。

  1. !!! run started
  2. ### new task spawned: <init>
  3. ### task scheduled: <init>
  4. ### doing a quick check for I/O
  5. ### finished I/O check (took 1.787799919839017e-05 seconds)
  6. >>> about to run one step of task: <init>
  7. ### new task spawned: __main__.parent
  8. ### task scheduled: __main__.parent
  9. ### new task spawned: <TrioToken.run_sync_soon task>
  10. ### task scheduled: <TrioToken.run_sync_soon task>
  11. <<< task step finished: <init>
  12. ### doing a quick check for I/O
  13. ### finished I/O check (took 1.704399983282201e-05 seconds)

前面一大堆的信息我们不用去关心,我们看 ### new task spawned: __main__.parent,可知__main__.parent 创建了一个任务。

一旦初始的管理工作完成,trio 就开始运行 parent 函数,您可以看到 parent 函数创建了两个子任务。然后,它以块的形式到达异步的末尾,并暂停。

  1. >>> about to run one step of task: __main__.parent
  2. parent: started!
  3. parent: spawning child1...
  4. ### new task spawned: __main__.child1
  5. ### task scheduled: __main__.child1
  6. parent: spawning child2...
  7. ### new task spawned: __main__.child2
  8. ### task scheduled: __main__.child2
  9. parent: waiting for children to finish...
  10. <<< task step finished: __main__.parent

然后到了 trio.run(),记录了更多的内部运作过程。

  1. >>> about to run one step of task: <call soon task>
  2. <<< task step finished: <call soon task>
  3. ### doing a quick check for I/O
  4. ### finished I/O check (took 5.476875230669975e-06 seconds)

然后给这两个子任务一个运行的机会

  1. >>> about to run one step of task: __main__.child2
  2.   child2 started! sleeping now...
  3. <<< task step finished: __main__.child2
  4. >>> about to run one step of task: __main__.child1
  5.   child1: started! sleeping now...
  6. <<< task step finished: __main__.child1

每个任务都在运行,直到调用 trio.sleep() 然后突然我们又回到 trio.run () 决定下一步要运行什么。这是怎么回事?秘密在于 trio.run () 和 trio.sleep () 一起实现的,trio.sleep() 可以获得一些特殊的魔力,让它暂停整个调用堆栈,所以它会向 trio.run () 发送一个通知,请求在1秒后再次被唤醒,然后暂停任务。任务暂停后,Python 将控制权交还给 trio.run (),由它决定下一步要做什么。

注意:在 trio 中不能使用 asyncio.sleep()。

接下来它调用一个操作系统原语来使整个进程进入休眠状态

### waiting for I/O for up to 0.9997810370005027 seconds

1s休眠结束后

  1. ### finished I/O check (took 1.0006483688484877 seconds)
  2. ### task scheduled: __main__.child1
  3. ### task scheduled: __main__.child2

还记得 parent 是如何的等待两个子任务结束的么,下面注意观察 child1 退出的时候 parent 在干什么

  1. >>> about to run one step of task: __main__.child1
  2.   child1: exiting!
  3. ### task scheduled: __main__.parent
  4. ### task exited: __main__.child1
  5. <<< task step finished: __main__.child1
  6. >>> about to run one step of task: __main__.child2
  7.   child2 exiting!
  8. ### task exited: __main__.child2
  9. <<< task step finished: __main__.child2

然后先进行 io 操作,然后 parent 任务结束

  1. ### doing a quick check for I/O
  2. ### finished I/O check (took 9.045004844665527e-06 seconds)
  3. >>> about to run one step of task: __main__.parent
  4. parent: all done!
  5. ### task scheduled: <init>
  6. ### task exited: __main__.parent
  7. <<< task step finished: __main__.parent

最后进行一些内部操作代码结束

  1. ### doing a quick check for I/O
  2. ### finished I/O check (took 5.996786057949066e-06 seconds)
  3. >>> about to run one step of task: <init>
  4. ### task scheduled: <call soon task>
  5. ### task scheduled: <init>
  6. <<< task step finished: <init>
  7. ### doing a quick check for I/O
  8. ### finished I/O check (took 6.258022040128708e-06 seconds)
  9. >>> about to run one step of task: <call soon task>
  10. ### task exited: <call soon task>
  11. <<< task step finished: <call soon task>
  12. >>> about to run one step of task: <init>
  13. ### task exited: <init>
  14. <<< task step finished: <init>
  15. !!! run finished

ok,这一部分只要说了运作机制了解即可,当然记住更方便对 trio 的理解。
关于更多的 trio 的使用,敬请期待。。。

 

关注微信公众号。。。。。

 

 



所属网站分类: 技术文章 > 博客

作者:众神之战

链接:https://www.pythonheidong.com/blog/article/252574/f882128236ea522d2272/

来源:python黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

7 0
收藏该文
已收藏

评论内容:(最多支持255个字符)