发布于2019-08-20 10:53 阅读(1807) 评论(0) 点赞(25) 收藏(3)
前言:pandas用于数据预处理,基于numpy,很多numpy要好多行才能完成的操作,pandas中可能只需一行代码
1.1导入pandas包
import pandas
1.2读取数据:read_csv()
案例:
1.3数据类型:DataFrame,dtypes
DataFrame是pandas中的基础数据结构,可理解为数据矩阵
字符型在pandas中标记为object
1.3数据显示head,tail
显示开始3行,也可以把头3行赋值给一个变量。形成一个新的dataframe
显示末尾3行,也可以把末尾3行赋值给一个变量
显示列名:
显示dataframe结构
有8618条记录,每条记录中含有36个属性值
2.Pandas索引与计算
pandas中取数据不像python、numpy直接使用下标,而要调用函数
2.1 loc[index]函数中的参数index代表第几行
显示第一行数据,可以改变index值显示不同行的数据,也可以显示几行数据
也可以选择性显示个别行数据
这里要特别注意,loc[index]中的index参数为一个矩阵,这里为两层中括号
2.2如果我要取一列的数据要怎么办?
第一列的索引名称为NDB_No,因此要取第一列数据就使用变量名后加中括号,括号里注意用双引号括起来列名
也可以定位几个列,把所有列名赋值给一个list,或者直接在中括号里列出所有列名均可
注意:双中括号
案例:找出所有以(g)结尾的列
col_list=food_info.columns
new_columns=[]
for c in col_list:
if c.endswith("(g)"):
new_columns.append(c)
new_df=food_info[new_columns]
注意事项:每行开头留白的使用,new_columns需要先声明
案例 添加一列数据 ,将Iron_(mg)数据除以1000,变为Iron_(g),并添加到food_info中
添加一列后,变为37列
对比两列数据(这个命令注意,属性名称是一个list也要在中括号里,所以是两层中括号)
2.3访问某一行、某一列的某个数据
food_info.loc(1,'Age')就是第一行,Age列的数值
2.4排序 sort_values('参数:排序主键',参数:是否生成新的dataframe),默认是从小到大的排序
案例:以Sodium_(mg)列为主键,从小到大排序
作者:胡龙茶
链接:https://www.pythonheidong.com/blog/article/49021/df936572c2be290c89a9/
来源:python黑洞网
任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任
昵称:
评论内容:(最多支持255个字符)
---无人问津也好,技不如人也罢,你都要试着安静下来,去做自己该做的事,而不是让内心的烦躁、焦虑,坏掉你本来就不多的热情和定力
Copyright © 2018-2021 python黑洞网 All Rights Reserved 版权所有,并保留所有权利。 京ICP备18063182号-1
投诉与举报,广告合作请联系vgs_info@163.com或QQ3083709327
免责声明:网站文章均由用户上传,仅供读者学习交流使用,禁止用做商业用途。若文章涉及色情,反动,侵权等违法信息,请向我们举报,一经核实我们会立即删除!