网站首页 > 人工智能 > 正文

pandas 数据挖掘大数据云计算 numpy python数据分析——数据分析的数据的导入和导出

音视频开发进阶指南人工智能 2024-05-21 11 0

数据分析的数据的导入和导出

前言一、导入数据1.1导入Excel表格数据1.2、导入CSV格式数据1.3、导入JSON格式数据1.5导入（爬取）网络数据

二、输出数据2.1CSV格式数据输出2.2 xlsx格式数据输出2.3导入到多个sheet页中

总结

前言

数据分析中数据的导入和导出是非常重要的步骤之一，因为它决定了我们能否顺利地进行数据分析和处理。

一、导入数据

1.1导入Excel表格数据

Excel文件有两种格式,分别为xls格式和xlsx格式。这两种格式的文件都可以用Python的Pandas模块的readexcel方法导入。read_excel方法返回的结果是DataFrame, DataFrame的一列对应着Excel的一列。

sheet_name参数：该参数用于指定导入Excel文件中的哪一个sheet,如果不填写这个参数,则默认导入第一个sheet。index_col参数:该参数用于指定表格的哪一列作为DataFrame的行索引,从0开始计数。nrows参数:该参数可以控制导入的行数,该参数在导入文件体积较大时比较有用。skipfooter参数:该参数可以在导入数据时,跳过表格底部的若干行。header参数:当使用Pandas的read_excel方法导入Excel文件时,默认表格的第一行为字段名。如果表格的第一段不是字段名,则需要使用该参数设置字段名。usecols参数:该参数可以控制导入Excel表格中的哪些列。names参数：该参数可以对导入数据的列名进行重命名。

nrows 导入前5行数据

usecols 控制输入第一列和第三列

1.2、导入CSV格式数据

CSV是一种用分隔符分割的文件格式。由于Excel文件在存放巨量数据时会占用极大空间,且导入时也存在占用极大内存的缺点,因此,巨量数据常采用CSV格式。在Python中，导入CSV格式数据通过调用pandas模块的read_csv方法实现。read_csv方法的参数非常多,这里只对常用的参数进行介绍。 read_csv方法中的sep参数表示要导入的csv文件的分隔符，默认值是半角逗号。encoding参数用来指定CSV文件的编码,常用的有utf-8和gbk。如下这个题目假如encoding 是utf-8 的话就是乱码 usecols控制输出第一列和第三列列名重命名

1.3、导入JSON格式数据

JSON是一种轻量级的数据交换格式,容易阅读,也容易被机器扫描,在互联网应用中很常见。有时候从后台系统里导出来的数据就是JSON格式。 JSON文件实际存储的时一个JSON对象或者一个JSON数组。JSON对象是由多个键值对组成的,类似于Python的字典; JSON数组由多个JSON对象组成,类似于Python列表。

pandas导入JSON数据用Pandas模块的read_json方法导入JSON数据，其中的参数为JSON文件 pandas导入txt文件当需要导入存在于txt文件中的数据时,可以使用pandas模块中的read_table方法。它的参数和用法与read_csv方法类似。

1.5导入（爬取）网络数据

在Python的数据分析中,除了可以导入文件和数据库中的数据，还有一类非常重要的数据就是网络数据。网络中每天都会产生大量数据,这些数据具有实时性、种类丰富的特点,因此对于数据分析而言是十分重要的一类数据来源。关键技术:爬取网络表格类数据, pandas库read_html()方法。 read_html方法用于导入带有table标签的网页表格数据。使用该方法前,首先要确定网页表格是否为table标签。具体方法为,鼠标右键单击网页中的表格,在弹出的菜单中选择"查看元素”,查看代码中是否含有表格标签

的字样,确定后才可以使用read_html方法。read_html方法常用参数说明如下: io：字符串，文件路径，也可以是URL链接。网址不接受https，可以尝试去掉https中的s后爬取。 header:指定列标题所在的行。 index_col:指定行标题对应的列。【例】爬取A股公司营业收入排行榜。中商情报网是专业的产业情报分享云平台,主要提供研究报告、行业分析、市场调研等数据。在本案例中,通过爬取中商情报网中A股公司营业收入排行榜表格获取相应的金融数据,数据网址为https://s.askci.com/stock/a/。

二、输出数据

2.1CSV格式数据输出

【例】导入sales.csv文件中的前10行数据,并将其导出为sales_new.csv文件。关键技术: pandas库的to_csv方法。在该例中,首先通过pandas库的read_csv方法导入sales.csv文件的前10行数据,然后使用pandas库的to_csv方法将导入的数据输出为sales_new.csv文件。对于pandas库的to_csv方法,有下列参数说明: path_or_buf:要保存的路径及文件名。 sep:分割符，默认为","。 columns：指定要输出的列，用列名，列表表示，默认值为None。 header：是否输出列名，默认值为True。 index:是否输出索引,默认值为True。 encoding：编码方式，默认值为“utf-8”。

2.2 xlsx格式数据输出

【例】对于上一小节中的问题,如销售文件格式为sales.xlsx文件,这种情况下该如何处理？关键技术: DataFrame对象的to_excel方法与上例相似,该例首先利用Pandas库的read_excel方法读入sales.xlsx文件,然后使用to_excel方法导出新文件。

对于Pandas库中的to_excel()方法，有下列参数说明: sheet_name：字符串，默认值为"Sheet1"，指包含DataFrame数据的表的名称。 np_rep:字符串,默认值为 ‘’。指缺失数据的表示方式。 columes:序列，可选参数，要编辑的列。 header：布尔型或字符串列表，默认值为True。如果给定字符串列表，则表示它是列名称的别名。 index：布尔型，默认值为True，行名（索引）。 index_label：字符串或序列，默认值为None。如果文件数据使用多索引，则需使用序列。 encoding：指定Excel文件的编码方式，默认值为None。

2.3导入到多个sheet页中

【例】将sales.xlsx文件中的前十行数据,导出到sales_new.xlsx文件中名为df1的sheet页中,将sales.xlsx文件中的后五行数据导出到sales_new.xlsx文件中名为df2的sheet页中。关键技术： Pandas库中的ExcelWriter方法。解决该问题，首先在sales_new.xlsx文件中建立名为df1和df2的sheet页，然后使用pd.ExcelWriter方法打开sales_new.xlsx文件，再使用to_excel方法将数据导入到指定的sheet页中。

总结

数据分析中数据的导入和导出非常重要，需要考虑到数据质量、结构、格式和效率等方面，以确保数据的准确性和可用性。数据的导入和导出方式多种多样，选择适合的方式和工具，可以帮助我们高效地进行数据分析。

文章来源

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

数据分析 pandas 数据挖掘大数据云计算 numpy python

本文由用户于 2024-05-21 发布在金钥匙，如有疑问，请联系我们。
本文链接：https://www.51969.com/post/18552668.html

金钥匙

pandas 数据挖掘大数据云计算 numpy python数据分析——数据分析的数据的导入和导出

python pandas 数据分析 windows Microsoft Power BI部署方案

毕业设计计算机毕设大数据工作岗位数据分析与可视化 - python flask

发表评论取消回复

金钥匙

pandas 数据挖掘 大数据 云计算 numpy python数据分析——数据分析的数据的导入和导出

python pandas 数据分析 windows Microsoft Power BI部署方案

毕业设计 计算机毕设 大数据工作岗位数据分析与可视化 - python flask

相关文章

发表评论取消回复

pandas 数据挖掘大数据云计算 numpy python数据分析——数据分析的数据的导入和导出

毕业设计计算机毕设大数据工作岗位数据分析与可视化 - python flask