帮助数据科学家理解数据的23个pandas常用代码

2018年08月27日由 yuxiangyu 发表 680016 0

基本的数据集信息

（1）读取CSV数据集

pd.DataFrame.from_csv（“csv_file”）

或者

pd.read_csv（“csv_file”）

（2）读取Excel数据集

pd.read_excel（ “excel_file”）

（3）将数据帧直接写入csv

逗号分隔，没有索引

df.to_csv（“data.csv”，sep =“，”，index = False）

（4）基本的数据集特征信息

df.info（）

（5）基本的数据集统计

print(df.describe())

（6）在表中打印数据帧

print（tabulate（print_table，headers = headers））

其中“print_table”是列表的列表，“headers”是字符串头的列表

（7）列出列名

df.columns

基本的数据处理

（8）删除丢失的数据

df.dropna（axis = 0，how ='any'）

返回给定轴缺失的标签对象，并在那里删除所有缺失数据（'any'：如果存在任何NA值，则删除该行或列。）。

（9）替换丢失的数据

df.replace（to_replace = None，value = None）

将“to_replace”中的值替换为“value”。

（10）检查缺失值

pd.isnull(object)

检测缺失值（数值数组中的NaN，对象数组中的None/ NaN）

（11）删除特征

df.drop('feature_variable_name', axis=1)

axis中0对应行，1对应列。

（12）将对象类型转换为float

pd.to_numeric（df [“feature_name”]，errors ='coerce'）

将对象类型转换为数值，以便能够执行计算(如果它们是字符串的话)。

（13）将数据帧转换为numpy数组

df.as_matrix（）

（14）获得数据帧的前n行

df.head(n)

（15）按特征名称获取数据

df.loc [FEATURE_NAME]

数据帧操作

（16）将函数应用于数据帧

这个将数据帧的“height”列中的所有值乘以2

df["height"].apply(lambda height: 2 * height)

或

def multiply(x):

    return x * 2

df["height"].apply(multiply)

（17）重命名列

我们将数据帧的第3列重命名为“size”

df.rename（columns = {df.columns [2]：'size'}，inplace = True）

（18）获取列的唯一条目

在这里，我们将获得“名称”列的唯一条目

df["name"].unique()

（19）访问子数据帧

在这里，我们抓取列的选择，数据帧中的“name”和“size”

new_df = df [[“name”，“size”]]

（20）数据的摘要信息

# Sum of values in a data frame

df.sum()

# Lowest value of a data frame

df.min()

# Highest value

df.max()

# Index of the lowest value

df.idxmin()

# Index of the highest value

df.idxmax()

# Statistical summary of the data frame, with quartiles, median, etc.

df.describe()

# Average values

df.mean()

# Median values

df.median()

# Correlation between columns

df.corr()

# To get these values for only one column, just select it like this#

df["size"].median()

（21）对数据进行排序

df.sort_values(ascending = False)

（22）布尔索引

在这里，我们将过滤名为“size”的数据列，仅显示值等于5的

df [df [“size”] == 5]

（23）选择值

选择“size”列的第一行

df.loc（[0]，['size']）

标签：

学习人工智能教程数据

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇探索生成式对抗网络GAN训练的技术：自注意力和光谱标准化

下一篇 Kaggle的入门介绍：通过竞赛磨练机器学习技能

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来