pd.DataFrame.from_csv(“csv_file”)
pd.read_csv(“csv_file”)
pd.read_excel( “excel_file”)
逗号分隔,没有索引
df.to_csv(“data.csv”,sep =“,”,index = False)
df.info()
print(df.describe())
print(tabulate(print_table,headers = headers))
其中“print_table”是列表的列表,“headers”是字符串头的列表
df.columns
df.dropna(axis = 0,how ='any')
返回给定轴缺失的标签对象,并在那里删除所有缺失数据('any':如果存在任何NA值,则删除该行或列。)。
df.replace(to_replace = None,value = None)
将“to_replace”中的值替换为“value”。
pd.isnull(object)
检测缺失值(数值数组中的NaN,对象数组中的None/ NaN)
df.drop('feature_variable_name', axis=1)
axis中0对应行,1对应列。
pd.to_numeric(df [“feature_name”],errors ='coerce')
将对象类型转换为数值,以便能够执行计算(如果它们是字符串的话)。
df.as_matrix()
df.head(n)
df.loc [FEATURE_NAME]
这个将数据帧的“height”列中的所有值乘以2
df["height"].apply(lambda height: 2 * height)
def multiply(x):
return x * 2
df["height"].apply(multiply)
我们将数据帧的第3列重命名为“size”
df.rename(columns = {df.columns [2]:'size'},inplace = True)
在这里,我们将获得“名称”列的唯一条目
df["name"].unique()
在这里,我们抓取列的选择,数据帧中的“name”和“size”
new_df = df [[“name”,“size”]]
# Sum of values in a data frame
df.sum()
# Lowest value of a data frame
df.min()
# Highest value
df.max()
# Index of the lowest value
df.idxmin()
# Index of the highest value
df.idxmax()
# Statistical summary of the data frame, with quartiles, median, etc.
df.describe()
# Average values
df.mean()
# Median values
df.median()
# Correlation between columns
df.corr()
# To get these values for only one column, just select it like this#
df["size"].median()
df.sort_values(ascending = False)
在这里,我们将过滤名为“size”的数据列,仅显示值等于5的
df [df [“size”] == 5]
选择“size”列的第一行
df.loc([0],['size'])