Pandas数据分析①——数据读取（CSV/TXT/JSON)-python黑洞网

本站消息

站长简介/公众号

出租广告位,需要合作请联系站长

无敌是多么寂寞

1087

文章

896030

访问

+关注

分类

暂无分类

日期归档

2024-11(2)

Pandas数据分析①——数据读取（CSV/TXT/JSON)

发布于2019-08-06 10:37 阅读(1366) 评论(0) 点赞(1) 收藏(5)

Pandas读取的文件主要有CSV,TXT和JSON，今天就整理了这3种文件格式的读取和导出代码，及详细的参数讲解

一、CSV读取和导出

1、基本参数

pd.read_csv(filepath,encoding,sep,header,names,usecols,index_col,skiprows,nrows……）
filepath：文件存储路径，可以用r""进行非转义限定，路径最好是纯英文（文件名也是），不然会经常碰到编码不对的问题，最方便是直接将文件存储在pandas默认的路径下，则直接输入文件名即可
encoding:pandas默认编码是utf-8，如果同样读取默认uft-8的txt或者json格式，则可以忽略这个参数，如果是csv，且数据中有中文时，则要指定encoding=‘gbk’
sep:指定分割符形式，CSV默认逗号分割，可以忽略这个参数，如果是其它分割方式，则要填写
header: 指定第一行是否是列名，通常有三种用法，忽略或header=0(表示数据第一行为列名），header=None（表明数据没有列名），常与names搭配使用
names: 指定列名，通常用一个字符串列表表示，当header=0时，用names可以替换掉第数据中的第一行作为列名，如果header=None，用names可以增加一行作为列名，如果没有header参数时，用names会增加一行作为列名，原数据的第一行仍然保留
usecols:一个字符串列表，可以指定读取的列名
index_col: 一个字符串列表，指定哪几列作为索引
skiprows: 跳过多少行再读取数据，通常是数据不太干净，需要去除掉表头才会用到
nrows: 仅读取多少行，后面的处理也都仅限于读取的这些行

2、读取代码
① 用header=0或忽略header，读取数据一模一样

data = pd.read_csv('data.csv',encoding='gbk',header=0)
print(data.head())

在这里插入图片描述

data = pd.read_csv('data.csv',encoding='gbk')
print(data.head())

在这里插入图片描述
② 加上header=None，会默认添加上从0开始的列；

data = pd.read_csv('data.csv',encoding='gbk',header=None)
print(data.head())

在这里插入图片描述
③ 如果数据本来有列名，则忽略header这个参数即可，如果本身没有列名，或者有但是想替换，用names替换

data = pd.read_csv('data.csv',encoding='gbk',header=0,names=list('abcdefghij'))
print(data.head())

在这里插入图片描述
④ 想指定订单号和订单行为索引，用index_col

data = pd.read_csv('data.csv',encoding='gbk',header=0,index_col=['订单号', '订单行'])
print(data.head())

在这里插入图片描述
⑤ 想仅读取订单号和订单行，用usecols

data = pd.read_csv('data.csv',encoding='gbk',header=0, usecols=['订单号','订单行'])
print(data.head())

在这里插入图片描述
⑥想仅读取前100行数据，用nrows

data = pd.read_csv('data.csv',encoding='gbk',header=0,index_col=['订单号', '订单行'],nrows=3)
print(data.head())

在这里插入图片描述
⑦ 想跳过前100行数据，用skiprows,记得要加上names指定列名，不然会默认剩下的第一行数据为列名

data = pd.read_csv('data.csv',encoding='gbk',skiprows=100,names=list('abcdefghij'))
print(data.head())

在这里插入图片描述
3、导出代码

data.to_csv('data1.csv', encoding='gbk',columns=list('abcd'),header=False,index=False)

在这里插入图片描述
注意事项：
columns可以指定存入的子集，index=False和header=False，是指不存入行索引和列索引

二、TXT读取和导出

1、基本参数
pd.read_table()
参数与csc一致，其中要注意的是txt格式可能会有多种分割符号，sep用正则表达式’\s+’，可以匹配多种分割符号

2、读取代码

data = pd.read_table('data.txt',sep='\s+',encoding='utf-8',header=0,names='abcdefghij',index_col=['a','b'],usecols=list('abcdefg'))
print(data.head())

在这里插入图片描述
3、导出代码
与csv一致,只是输入文件格式由csv改为txt即可

data = pd.read_table('data.txt',sep='\s+',encoding='utf-8',header=0,names='abcdefghij',index_col=['a','b'],usecols=list('abcdefg'))
print(data.head())
data.to_csv('data1.txt', sep='\t', header=True,index=True)

在这里插入图片描述

三、JSON读取和导出

①python自带方式

先用with open打开文件，然后用json.loads将文件读取到data中，最后用pd_Dataframe转换成Dataframe格式即可

with open('data.json') as f:
    data = json.loads(f.read())

data1 = pd.DataFrame(data,columns=['订单号','订单行', '销售时间', '交货时间', '销售金额'])
print(data1.head())

② pandas读取方式

pd.read_json(filepath,orient,typ…）
filepath：与其余2种一样
orient: 可选择 split,index,column,value,records,None，区别在于数据的组成结果不同
split—— dict like {index -> [index], columns -> [columns], data -> [values]}
有索引，有列字段，和数据矩阵构成的json格式。key名称只能是index,columns和data，不能省略

data = '{"index":[1,2], "columns": ["a","b"],"data": [[1,2],[4,5]]}'
data = pd.read_json(data,orient='split')
 print(data.head())

在这里插入图片描述
records: list like [{column -> value}, … , {column -> value}]
最常见的就是列表，列表中的每一项都是列字段与值构成的字典，可省略

data = '[{"a":1, "b":2},{"a": 2,"b": 4}]'
data = pd.read_json(data,orient='records')
print(data.head())

在这里插入图片描述
index or column:dict like {index -> {column -> value}} or {column -> {index -> value}}
词典嵌套，index则指定外键为索引，内键为列，column相反，不能省略

data = '{"a":{"haha":1, "lolo":2},"b": {"haha": 2,"lolo": 4}}'
data = pd.read_json(data,orient='index')
print(data.head())

在这里插入图片描述

data = '{"a":{"haha":1, "lolo":2},"b": {"haha": 2,"lolo": 4}}'
data = pd.read_json(data,orient='columns')
print(data.head())

在这里插入图片描述
values: 就是最常见的嵌套列表，可省略

data = '[[1,2], [3,4],[5,6]]'
data = pd.read_json(data,orient='values')
print(data.head())

在这里插入图片描述

2、读取代码
json文件属于values格式，可省略orient参数

 data = pd.read_json('data.json',orient='values')
print(data.head())

在这里插入图片描述
3、导出代码
导出跟读取一样，可以通过orient参数设定上述几种你想要存储的格式，且读取和存储的orient可以完全不一样

data = '{"index":[1,2], "columns": ["a","b"],"data": [[1,2],[4,5]]}'
data = pd.read_json(data,orient='split')
print(data.head())
data.to_json('data2.json',orient='records')

在这里插入图片描述

data = '[{"a":1, "b":2},{"a": 2,"b": 4}]'
data = pd.read_json(data,orient='records')
print(data.head())
data.to_json('data2.json',orient='values')

在这里插入图片描述

data = '{"a":{"haha":1, "lolo":2},"b": {"haha": 2,"lolo": 4}}'
data = pd.read_json(data)
print(data.head())
data.to_json('data2.json',orient='index')

在这里插入图片描述

data = '[[1,2], [3,4],[5,6]]'
data = pd.read_json(data,orient='values')
print(data.head())
data.to_json('data2.json',orient='split')

在这里插入图片描述

其余pandas文章如下，后续还会继续出numpy,matplotlib,机器学习等数据分析必备技能，感兴趣的小伙伴可关注下我喔

Pandas数据分析②——数据清洗（重复值/缺失值/异常值）
Pandas数据分析③——数据规整1（索引和列名调整/数据内容调整/排序）
Pandas数据分析④——数据规整2（数据拼接/透视)
Pandas数据分析⑤——数据分组与函数使用（Groupby/Agg/Apply/mean/sum/count)
Pandas数据分析⑥——数据分析实例（货品送达率与合格率/返修率/拒收率）
Pandas数据分析⑦——数据分析实例2（泰坦尼克号生存率分析）

所属网站分类: 技术文章 > 博客

作者：无敌是多么寂寞

链接：https://www.pythonheidong.com/blog/article/7786/2a6454850c5aaf0c086d/

来源：python黑洞网

任何形式的转载都请注明出处,如有侵权一经发现必将追究其法律责任

1 0

收藏该文

昵称:

评论内容：(最多支持255个字符)

---无人问津也好，技不如人也罢，你都要试着安静下来，去做自己该做的事，而不是让内心的烦躁、焦虑，坏掉你本来就不多的热情和定力

站长公众号(new) 更多>

分区变0字节. 不知道如何找到呢???

存储卡插入组装电脑时显示文件夹变成文件请问怎样才能修复

机械硬盘文件或目录损坏且无法读取寻回方法

目录变0字节. 不知道怎样寻回呢

分区变0字节怎么才能把硬盘修好

磁盘显示没有初始化恢复资料办法

清空回收站怎样恢复???

移动硬盘提示：操作无法完成,因为磁盘管理控制台视图不是最新状态怎么办？

文件名目录名或卷标语法不正确怎么办？

磁盘管理看不到硬盘怎么找回？

pdf(new) 更多>

git常用命令pdf下载

《从零开始学Python网络爬虫》PDF高清版免费下载

《Python游戏编程快速上手》PDF高清版免费下载

【每日书籍推荐】PYTHON 项目开发实战_超高清PDF

《父与子的编程之旅：与小卡特一起学Python》PDF高清版免费下载

《Effective Python》pdf高清版下载

【每日推荐书籍】《Python3网络爬虫开发实战》

【每日一本书】《Python编程快速上手让繁琐工作自动化》

《Python从小白到大牛》PDF高清版免费下载

《Python编程：从入门到实践（第2版）》

脚本(new) 更多>

五年级同学BMI指数计算器

用python做---，pythonos2.2.0-1版

使用Discord.py个人号创建Discord Bot 提示 401 Unauthorized

新手训练短语

opencv实现视频截取

python练习题

用python画国旗

抖音最火表白代码下载

python文件解压脚本

python分类文件脚本下载

博客(new) 更多>

【豆包大模型】-Python调用豆包大模型API及文本转语音TTS

Python——Selenium快速上手+方法（一站式解决问题）

手把手教你打包Python项目为whl文件

Java之反射

PyCharm 2024的最新专业版安装和配置汉化教程-Python零基础教程！

【Python】Tkinter模块（巨详细）

【数据库】深入Redis与Python操作指南：高效内存存储与应用场景解析

学Python该看什么书？Python各阶段好书推荐，10年老码农倾囊相授！！

什么是代理IP_如何建立代理IP池？

python Tkinter详细基础教学:

视频(new) 更多>

2020最新_Python_(MySQL_SQL_Redis)数据库详解【千锋】

2019版-千锋Python语法-视频

2019千锋Python爬虫全套视频（最经典）

13天搞定Python分布爬虫视频教程

python办公自动化

python深度学习系列教程

python视频神经网络 Tensorflow 模块视频教程

初级Python视频教程云盘

初级Python视频教程推荐

python视频各种视频很多

实战(new) 更多>

韩顺平TCP网络文件传输课程代码word下载

基于python的ARP扫描与断网攻击的图形化脚本

bootstrap-datetimepicker搞了一天也不显示，请教！

这个项目是人人网的爬虫程序

这是一个利用Python分析一个json数据，并可视化输出结果的小项目

一个Mp3播放器 Python项目实战

一个自动发送邮箱验证码的小项目源码下载

python 加密解密的程序 .py下载

PYTHON实现计算机功能

PYTHON定时关机

Processing the same array, dask.array is too slow compared to numpy.array

How can I solve the overwrite error when downloading exercism.io exercises?

how to transfer data to mikrotik router using netmiko?

Asyncio server and client

PyCharm typing warning inconsistency for abstract base classes

Image quality not reducing when I try to implement the given Mean structural similarity best-case/worst-case validation model in a paper

Space and time complexity of flattening a nested list of arbitrary depth

Creating a decaying halo around a cluster in an image with python

How to elegantly preallocate a numpy array?

游戏(new) 更多>

用python写滑雪游戏源码下载

用python写乒乓球游戏源码下载

python吃豆子小游戏源码下载

外星人入侵 python小游戏源码下载

帅哥吃苹果 python小游戏源码下载

小恐龙快跑 python小游戏源码下载

python小游戏拼图源码下载

风筝 python小游戏源码下载

迷宫-python小游戏源码下载

python小游戏 life

其他资源(new) 更多>

王道机试

python做乘法口诀表

纯净版python 3.7开发环境安装包

视觉SLAM十四讲 - 从理论到实践

Python正则表达式教程下载

Vue+Go前端后端一体化企业级微服务网关项目

尚硅谷java基础入门视频下载

尚硅谷java基础入门视频

超基础初一生反utPython程序(只是一个文本)

注册表实用手册

程序员最近都爱上了这个网站程序员们快来瞅瞅吧！ it98k网:it98k.com

分类

标签

日期归档

Pandas数据分析①——数据读取（CSV/TXT/JSON)

一、CSV读取和导出

二、TXT读取和导出

三、JSON读取和导出

程序员最近都爱上了这个网站 程序员们快来瞅瞅吧！ it98k网:it98k.com

分类

标签

日期归档

Pandas数据分析①——数据读取（CSV/TXT/JSON)

一、CSV读取和导出

二、TXT读取和导出

三、JSON读取和导出

程序员最近都爱上了这个网站程序员们快来瞅瞅吧！ it98k网:it98k.com