帮助数据科学家理解数据的23个pandas常用代码

2018年08月27日 由 yuxiangyu 发表 679897 0

帮助数据科学家理解数据的23个pandas常用代码


基本的数据集信息


(1)读取CSV数据集


pd.DataFrame.from_csv(“csv_file”)

或者
pd.read_csv(“csv_file”)

(2)读取Excel数据集


pd.read_excel( “excel_file”)

(3)将数据帧直接写入csv


逗号分隔,没有索引



df.to_csv(“data.csv”,sep =“,”,index = False)

(4)基本的数据集特征信息


df.info()

(5)基本的数据集统计


print(df.describe())

(6)在表中打印数据帧


print(tabulate(print_table,headers = headers))

其中“print_table”是列表的列表,“headers”是字符串头的列表



(7)列出列名


df.columns

基本的数据处理


(8)删除丢失的数据


df.dropna(axis = 0,how ='any')

返回给定轴缺失的标签对象,并在那里删除所有缺失数据('any':如果存在任何NA值,则删除该行或列。)。



(9)替换丢失的数据


df.replace(to_replace = None,value = None)

将“to_replace”中的值替换为“value”。



(10)检查缺失值


pd.isnull(object)

检测缺失值(数值数组中的NaN,对象数组中的None/ NaN)



(11)删除特征


df.drop('feature_variable_name', axis=1)

axis中0对应行,1对应列。



(12)将对象类型转换为float


pd.to_numeric(df [“feature_name”],errors ='coerce')

将对象类型转换为数值,以便能够执行计算(如果它们是字符串的话)。



(13)将数据帧转换为numpy数组


df.as_matrix()

(14)获得数据帧的前n行


df.head(n)

(15)按特征名称获取数据


df.loc [FEATURE_NAME]

数据帧操作


(16)将函数应用于数据帧


这个将数据帧的“height”列中的所有值乘以2



df["height"].apply(lambda height: 2 * height)


def multiply(x):
return x * 2
df["height"].apply(multiply)

(17)重命名列


我们将数据帧的第3列重命名为“size”



df.rename(columns = {df.columns [2]:'size'},inplace = True)

(18)获取列的唯一条目


在这里,我们将获得“名称”列的唯一条目



df["name"].unique()

(19)访问子数据帧


在这里,我们抓取列的选择,数据帧中的“name”和“size”



new_df = df [[“name”,“size”]]

(20)数据的摘要信息


# Sum of values in a data frame
df.sum()
# Lowest value of a data frame
df.min()
# Highest value
df.max()
# Index of the lowest value
df.idxmin()
# Index of the highest value
df.idxmax()
# Statistical summary of the data frame, with quartiles, median, etc.
df.describe()
# Average values
df.mean()
# Median values
df.median()
# Correlation between columns
df.corr()
# To get these values for only one column, just select it like this#
df["size"].median()

(21)对数据进行排序


df.sort_values(ascending = False)

(22)布尔索引


在这里,我们将过滤名为“size”的数据列,仅显示值等于5的



df [df [“size”] == 5]

(23)选择值


选择“size”列的第一行



df.loc([0],['size'])
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消