python爬虫常见面试题（一）-python黑洞网

本站消息

站长简介/公众号

出租广告位,需要合作请联系站长

精灵

1067

文章

907189

访问

+关注

分类

暂无分类

日期归档

暂无数据

python爬虫常见面试题（一）

发布于2019-07-02 14:52 阅读(3926) 评论(1) 点赞(25) 收藏(184)

前言

之所以在这里写下python爬虫常见面试题及解答，一是用作笔记，方便日后回忆；二是给自己一个和大家交流的机会，互相学习、进步，希望不正之处大家能给予指正；三是我也是互联网寒潮下岗的那批人之一，为了找工作而做准备。

一、题目部分

1、python中常用的数据结构有哪些？请简要介绍一下。

2、简要描述python中单引号、双引号、三引号的区别。

3、如何在一个function里设置一个全局的变量。

4、python里面如何拷贝一个对象？（赋值、浅拷贝、深拷贝的区别）

5、如果custname字符串的编码格式为uft-8,如何将custname的内容转化为gb18030的字符串？

6、请写出一段python代码实现删除list中的重复元素。

7、这两个参数是什么意思？args和 kwargs。

8、

（1）统计如下list单词及其出现的次数。

a=['apple', 'banana', 'apple', 'tomato', 'orange', 'apple', 'banana', 'watermeton']

（2）给列表中的字典排序：例如有如下list对象：

alist=[{"name":"a", "age":20}, {"name":"b", "age":30}, {"name":"c", "age":25}] 将alist中的元素按照age从小到大排序。

（3）写出下列代码的运行结果

1 a = 1 2 def fun(a): 3 a = 2 4 fun(a) 5 print(a)

1 a = [] 2 def fun(a): 3 a.append(1) 4 fun(a) 5 print(a)

1 class Person: 2 name = 'Lily' 3 4 p1 = Person() 5 p2 = Person() 6 p1.name = 'Bob' 7 print(p1.name) 8 print(p2.name) 9 print(Person.name)

二、解答部分

注：以下答案，均为google后结合自己学所知识回答，可能会有不正确的地方，错误之处希望大家帮我指正出来，谢谢。

1、python中常用的数据结构有哪些？请简要介绍一下。

python中常见的数据结构有：列表(list)，字典(dict)，元组(tuple)，字符串(string)，集合(set)，数字（int或long或float。。。）等。

其中，列表，元祖和字符串可以统一归为序列类，即这三种数据结构中的元素是有序的。比如，他们都有索引（下标）操作，还有切片、相加和长度(len)，最大值(max)，最小值(min)操作。这是他们的共同点。

补充：python中常见的数据结构可以统称为容器（container）。序列（如列表和元组）、映射（如字典）以及集合（set）是三类主要的容器。

另外，关于这个问题，面试官很容易引出另一个问题：python中的哪些数据类型是可变的，哪些是不可变的？

首先，可变/不可变是针对该对象所指向的内存中的值是否可变来判断的。如可变类型的数据类型有列表和字典，还有集合（感谢@自由早晚乱余生纠正）。不可变类型的数据类型有字符串，元组，数字。

就举个最简单的数字的例子，python中有小整数池的概念，即[-5,256]范围内的整数，python解释器对他们做了特殊处理，都放在内存中的固定位置，不会因为你的操作而发生变化。

现在：a = 1 ，然后我们又重新对a赋值，a = 2，在重新赋值的过程中，整数1所对应的内存地址没有和数字的大小都没有发生变化，还在内存中的固定位置。整数2也是如此。变化的是a的指针（这里引用C中的概念）从指向数字1变成数字2。a对象指向的内存中的值没有发生变化，因此数字是不可变类型的数据类型。字符串，元组也是同理。

2、简要描述python中单引号、双引号、三引号的区别。

首先，单引号和双引号在使用时基本上没有什么区别，唯一需要注意的是：当字符串中有单引号时，最好在外面使用双引号；当有双引号时，最好在外面使用单引号。

三引号一般不常用，除了用来做注释之外，还可以用来打印多行字符串。特殊用途，是可以打印多行字符串。

1 print('''i 2 love 3 you''') #特殊功能,可以直接打印多行内容,而前面两种情况需要显示输入\n才能换行

输出结果：

1 i 2 love 3 you

而单引号和双引号如果想要实现上面的效果，需要加上换行符。

1 print('i\nlove\nyou')

3、如何在一个function里设置一个全局的变量。

先说概念，全局变量是指定义在函数外部的变量。全局变量的作用域为全局。

局部变量是指定义在函数内部的变量。局部变量的作用域为函数内，除了函数就无效了。

这里举个例子，如果把函数比作国家，那么全局就是全球，全局变量好比是阿拉伯数字，每个国家都认识。

所以，根据定义可以知道，在函数内部是无法定义一个全局变量的，只能做到修改已经定义的全局变量。

4、python里面如何拷贝一个对象？（赋值、浅拷贝、深拷贝的区别）

在python中如何拷贝一个对象是需要根据具体的需求来定的。

（1）赋值：其实就是对象的引用。相当于C的指针，修改了其中一个对象，另一个跟着改变。注意对于不可变对象而言，如果修改了其中一个对象，就相当于修改它的指针指向，另一个对象是不会跟着变化的。

1 a = ['1', '2'] # a是一个可变对象 2 b = a 3 a = a.pop() 4 print(b) # 修改了a，b也跟着变

输出结果：

1 ['1']

当a为不可变对象时：

1 a = 1 2 b = a 3 a = 2 4 print('b = {}'.format(b))

输出结果：

1 b = 1

（2）浅拷贝：拷贝父对象，但是不会拷贝父对象的子对象。（具体的方法有：b = copy.copy(a)，切片如b = a[1:4]）

1 a = {1: [1, 2, 3]} 2 b = a.copy() 3 print(a, b) 4 a[1].append(4) 5 print(a, b)

输出结果为：

{1: [1, 2, 3]} {1: [1, 2, 3]}
{1: [1, 2, 3, 4]} {1: [1, 2, 3, 4]}

当a为不可变对象时：

1 import copy 2 a = 'TEST_STRING' 3 b = copy.copy(a) 4 print(a, b) 5 a = a.lower() 6 print(a, b)

输出结果：

1 TEST_STRING TEST_STRING 2 test_string TEST_STRING

（3）深拷贝：完全拷贝了父对象和子对象（具体的方法有：b = copy.deepcopy(a)）

1 import copy 2 a = {1: [1, 2, 3]} 3 b = copy.deepcopy(a) 4 print(a, b) 5 a[1].append(4) 6 print(a, b)

输出结果：

1 {1: [1, 2, 3]} {1: [1, 2, 3]} 2 {1: [1, 2, 3, 4]} {1: [1, 2, 3]}

当a为不可变对象时：

1 import copy 2 a = 'TEST_STRING' 3 b = copy.deepcopy(a) 4 print(a, b) 5 a = a.lower() 6 print(a, b)

输出结果：

1 TEST_STRING TEST_STRING 2 test_string TEST_STRING

下面是图解：

1、b = a: 赋值引用，a 和 b 都指向同一个对象。

2、b = a.copy(): 浅拷贝, a 和 b 是一个独立的对象，但他们的子对象还是指向统一对象（是引用）。

3、b = copy.deepcopy(a): 深度拷贝, a 和 b 完全拷贝了父对象及其子对象，两者是完全独立的。

总结：

（1）当对象为不可变类型时，不论是赋值，浅拷贝还是深拷贝，那么改变其中一个值时，另一个都是不会跟着变化的。

（2）当对象为可变对象时，如果是赋值和浅拷贝，那么改变其中任意一个值，那么另一个会跟着发生变化的；如果是深拷贝，是不会跟着发生改变的。

啊，这一题答案真的是好长啊，累到掉渣！歇会儿。。。

5、如果custname字符串的编码格式为uft-8,如何将custname的内容转化为gb18030的字符串？

先将custname编码格式转换为unicode，在转换为gb18030。即custname.decode('utf-8').encode('gb18030')。

注意：unicode编码是一种二进制编码，是转换编码的中间桥梁。比如需要将utf-8转换为gbk，那么就需要先转换为unicode（decode），再转为gbk（encode）。

6、请写出一段python代码实现删除list中的重复元素。

两种方法：

（1）利用字典的fromkeys来自动过滤重复值

（2）利用集合set的特性，元素是非重复的

方法一：

1 a = [1, 2, 3, 4, 5, 2, 3] 2 3 def fun1(a): 4 a = list(set(a)) 5 print(a) 6 7 fun1(a)

方法二：

1 a = [1, 2, 3, 4, 5, 2, 3] 2 3 def fun1(a): 4 b = {} 5 b = b.fromkeys(a) 6 c = list(b.keys()) 7 print(c) 8 9 c = fun1(a)

7、这两个参数是什么意思？args和 kwargs。

首先，我想说的是*args和**kwargs并不是必须这样写，只有前面的*和**才是必须的。你可以写成*var和**vars。而写成*args和**kwargs只是约定俗称的一个命名规定。

*args和**kwargs主要用于函数定义，你可以将不定量的参数传递给一个函数。其中，*args 是用来发送一个非键值对的可变数量的参数列表给一个函数；**kwargs 允许你将不定长度的键值对, 作为参数传递给一个函数。如果你想要在一个函数里处理带名字的参数, 你应该使用**kwargs。

1 def import_args(test, *args): 2 print('param1', test) 3 for item in args: 4 print('other param', item) 5 6 7 import_args('123', 'hello', '2019')

这里传递了3个参数，按位置传参，'123'为test传参，'hello'和'2019'为*args传参，这里传了2个参数。

注意，看下面的*args的另一种用法：用来解压数据。

1 def import_args(test, *args): 2 print('param1', test) 3 for item in args: 4 print('other param', item) 5 6 7 args = ['hello', '2019'] 8 import_args('123', *args)

输出结果：

1 param1 123 2 other param hello 3 other param 2019

这段代码和上面的效果是一样的，但是这里第8行的*args和第1行的*args可是不一样的。第一行是表示函数可以接受不定数量的非键值对的参数，用来传参使用的。第八行是用来解压列表

['hello', '2019']的每一项数据的，用来解压参数的。这是*args的两种用法，也可说是*的两种用法，因为args是可变的。

接下来说说**kwargs。

1 def import_kwargs(test, **kwargs): 2 print('param1', test) 3 for key, value in kwargs.items(): 4 print(key, value) 5 6 7 d = {'name': 'jack', 'age': 26} 8 import_kwargs('123', **d)

**kwargs用来传递带键值对的参数，而**也是用来解压字典容器内的参数。

输出结果：

1 param1 123 2 name jack 3 age 26

总结：*args和**kwargs都是用于函数中传递参数的，*args传递的是非键值对的参数，**kwargs传递的是带键值对的参数，如果还有普通参数需要传递，那么应该先传递普通的参数。

8、

（1）统计如下list单词及其出现的次数。

a=['apple', 'banana', 'apple', 'tomato', 'orange', 'apple', 'banana', 'watermeton']

方法一：

利用字典。

1 a = ['apple', 'banana', 'apple', 'tomato', 'orange', 'apple', 'banana', 'watermeton'] 2 dic = {} 3 for key in a: 4 dic[key] = dic.get(key, 0) + 1 5 print(dic)

输出结果：

1 {'apple': 3, 'banana': 2, 'tomato': 1, 'orange': 1, 'watermeton': 1}

方法二：

利用python的collections包。

1 from collections import Counter 2 3 a = ['apple', 'banana', 'apple', 'tomato', 'orange', 'apple', 'banana', 'watermeton'] 4 d = Counter(a) 5 print(d)

输出结果：

1 Counter({'apple': 3, 'banana': 2, 'tomato': 1, 'orange': 1, 'watermeton': 1})  # 是一个类似字典的结构

（2）给列表中的字典排序：例如有如下list对象：

alist=[{"name":"a", "age":20}, {"name":"b", "age":30}, {"name":"c", "age":25}] 将alist中的元素按照age从小到大排序。

利用list的内建函数，list.sort()来进行排序。

1 alist = [{"name": "a", "age": 20}, {"name": "b", "age": 30}, {"name": "c", "age": 25}] 2 alist.sort(key=lambda x: x['age']) 3 print(alist)

这是一种效率很高的排序方法。

输出结果：

1 [{'name': 'a', 'age': 20}, {'name': 'c', 'age': 25}, {'name': 'b', 'age': 30}]

（3）写出下列代码的运行结果

第一段代码的运行结果为：1

分析，在函数外面定义了一个全局变量a为1，在函数内部定义了一个局部变量a为2。局部变量在离开函数后就失效了。

所以，结果为全局变量的a的值。如果在a=2之前加上global a，声明为全局变量，那么结果为2。

第二段代码的运行结果为：[1]

这是因为，将a传入到function中，这相当于对a进行赋值引用。由于a是可变类型的，所以在函数内部修改a的时候，外部的全局变量a也跟着变化。

第三段代码的运行结果为：

1 Bob 2 Lily 3 Lily

以上。

所属网站分类: 技术文章 > 博客

作者：精灵

链接：https://www.pythonheidong.com/blog/article/599/7a0e741af1b681ee17a9/

来源：python黑洞网

任何形式的转载都请注明出处,如有侵权一经发现必将追究其法律责任

25 0

收藏该文

昵称:

评论内容：(最多支持255个字符)

---无人问津也好，技不如人也罢，你都要试着安静下来，去做自己该做的事，而不是让内心的烦躁、焦虑，坏掉你本来就不多的热情和定力

站长公众号(new) 更多>

分区变0字节. 不知道如何找到呢???

存储卡插入组装电脑时显示文件夹变成文件请问怎样才能修复

机械硬盘文件或目录损坏且无法读取寻回方法

目录变0字节. 不知道怎样寻回呢

分区变0字节怎么才能把硬盘修好

磁盘显示没有初始化恢复资料办法

清空回收站怎样恢复???

移动硬盘提示：操作无法完成,因为磁盘管理控制台视图不是最新状态怎么办？

文件名目录名或卷标语法不正确怎么办？

磁盘管理看不到硬盘怎么找回？

pdf(new) 更多>

git常用命令pdf下载

《从零开始学Python网络爬虫》PDF高清版免费下载

《Python游戏编程快速上手》PDF高清版免费下载

【每日书籍推荐】PYTHON 项目开发实战_超高清PDF

《父与子的编程之旅：与小卡特一起学Python》PDF高清版免费下载

《Effective Python》pdf高清版下载

【每日推荐书籍】《Python3网络爬虫开发实战》

【每日一本书】《Python编程快速上手让繁琐工作自动化》

《Python从小白到大牛》PDF高清版免费下载

《Python编程：从入门到实践（第2版）》

脚本(new) 更多>

五年级同学BMI指数计算器

用python做---，pythonos2.2.0-1版

使用Discord.py个人号创建Discord Bot 提示 401 Unauthorized

新手训练短语

opencv实现视频截取

python练习题

用python画国旗

抖音最火表白代码下载

python文件解压脚本

python分类文件脚本下载

博客(new) 更多>

【豆包大模型】-Python调用豆包大模型API及文本转语音TTS

Python——Selenium快速上手+方法（一站式解决问题）

手把手教你打包Python项目为whl文件

Java之反射

PyCharm 2024的最新专业版安装和配置汉化教程-Python零基础教程！

【Python】Tkinter模块（巨详细）

【数据库】深入Redis与Python操作指南：高效内存存储与应用场景解析

学Python该看什么书？Python各阶段好书推荐，10年老码农倾囊相授！！

什么是代理IP_如何建立代理IP池？

python Tkinter详细基础教学:

视频(new) 更多>

2020最新_Python_(MySQL_SQL_Redis)数据库详解【千锋】

2019版-千锋Python语法-视频

2019千锋Python爬虫全套视频（最经典）

13天搞定Python分布爬虫视频教程

python办公自动化

python深度学习系列教程

python视频神经网络 Tensorflow 模块视频教程

初级Python视频教程云盘

初级Python视频教程推荐

python视频各种视频很多

实战(new) 更多>

韩顺平TCP网络文件传输课程代码word下载

基于python的ARP扫描与断网攻击的图形化脚本

bootstrap-datetimepicker搞了一天也不显示，请教！

这个项目是人人网的爬虫程序

这是一个利用Python分析一个json数据，并可视化输出结果的小项目

一个Mp3播放器 Python项目实战

一个自动发送邮箱验证码的小项目源码下载

python 加密解密的程序 .py下载

PYTHON实现计算机功能

PYTHON定时关机

Processing the same array, dask.array is too slow compared to numpy.array

How can I solve the overwrite error when downloading exercism.io exercises?

how to transfer data to mikrotik router using netmiko?

Asyncio server and client

PyCharm typing warning inconsistency for abstract base classes

Image quality not reducing when I try to implement the given Mean structural similarity best-case/worst-case validation model in a paper

Space and time complexity of flattening a nested list of arbitrary depth

Creating a decaying halo around a cluster in an image with python

How to elegantly preallocate a numpy array?

游戏(new) 更多>

用python写滑雪游戏源码下载

用python写乒乓球游戏源码下载

python吃豆子小游戏源码下载

外星人入侵 python小游戏源码下载

帅哥吃苹果 python小游戏源码下载

小恐龙快跑 python小游戏源码下载

python小游戏拼图源码下载

风筝 python小游戏源码下载

迷宫-python小游戏源码下载

python小游戏 life

其他资源(new) 更多>

王道机试

python做乘法口诀表

纯净版python 3.7开发环境安装包

视觉SLAM十四讲 - 从理论到实践

Python正则表达式教程下载

Vue+Go前端后端一体化企业级微服务网关项目

尚硅谷java基础入门视频下载

尚硅谷java基础入门视频

超基础初一生反utPython程序(只是一个文本)

注册表实用手册

程序员最近都爱上了这个网站程序员们快来瞅瞅吧！ it98k网:it98k.com

分类

标签

日期归档

python爬虫常见面试题（一）

1、python中常用的数据结构有哪些？请简要介绍一下。

2、简要描述python中单引号、双引号、三引号的区别。

3、如何在一个function里设置一个全局的变量。

4、python里面如何拷贝一个对象？（赋值、浅拷贝、深拷贝的区别）

5、如果custname字符串的编码格式为uft-8,如何将custname的内容转化为gb18030的字符串？

6、请写出一段python代码实现删除list中的重复元素。

7、这两个参数是什么意思？args和 kwargs。

8、

（1）统计如下list单词及其出现的次数。

（2）给列表中的字典排序：例如有如下list对象：

（3）写出下列代码的运行结果

1、python中常用的数据结构有哪些？请简要介绍一下。

2、简要描述python中单引号、双引号、三引号的区别。

3、如何在一个function里设置一个全局的变量。

4、python里面如何拷贝一个对象？（赋值、浅拷贝、深拷贝的区别）

5、如果custname字符串的编码格式为uft-8,如何将custname的内容转化为gb18030的字符串？

6、请写出一段python代码实现删除list中的重复元素。

7、这两个参数是什么意思？args和 kwargs。

8、

（1）统计如下list单词及其出现的次数。

（2）给列表中的字典排序：例如有如下list对象：

（3）写出下列代码的运行结果

程序员最近都爱上了这个网站 程序员们快来瞅瞅吧！ it98k网:it98k.com

分类

标签

日期归档

python爬虫常见面试题（一）

1、python中常用的数据结构有哪些？请简要介绍一下。

2、简要描述python中单引号、双引号、三引号的区别。

3、如何在一个function里设置一个全局的变量。

4、python里面如何拷贝一个对象？（赋值、浅拷贝、深拷贝的区别）

5、如果custname字符串的编码格式为uft-8,如何将custname的内容转化为gb18030的字符串？

6、请写出一段python代码实现删除list中的重复元素。

7、这两个参数是什么意思？args和 kwargs。

8、

（1）统计如下list单词及其出现的次数。

（2）给列表中的字典排序：例如有如下list对象：

（3）写出下列代码的运行结果

1、python中常用的数据结构有哪些？请简要介绍一下。

2、简要描述python中单引号、双引号、三引号的区别。

3、如何在一个function里设置一个全局的变量。

4、python里面如何拷贝一个对象？（赋值、浅拷贝、深拷贝的区别）

5、如果custname字符串的编码格式为uft-8,如何将custname的内容转化为gb18030的字符串？

6、请写出一段python代码实现删除list中的重复元素。

7、这两个参数是什么意思？args和 kwargs。

8、

（1）统计如下list单词及其出现的次数。

（2）给列表中的字典排序：例如有如下list对象：

（3）写出下列代码的运行结果

程序员最近都爱上了这个网站程序员们快来瞅瞅吧！ it98k网:it98k.com