机器学习是用数据来训练和预测的系统的开发过程。要做机器学习,你需要能处理和分析的数据。但是,数据有不同的格式和来源,比如文本、CSV、数据库或网页。所以,你需要知道如何用Python库从不同的地方加载数据。
用CSV加载数据:CSV模块是Python自带的模块,可以读写CSV文件。你可以用csv.reader()函数读取CSV文件的每一行,把它们变成列表或字典。你也可以用csv.writer()函数把数据写到CSV文件里。
用Numpy加载数据:Numpy是一个科学计算库,可以快速高效地操作数组。你可以用np.loadtxt()函数把文本文件的数据加载到numpy数组里。你也可以用np.genfromtxt()函数处理缺失值和不同类型的数据。
用Pandas加载数据:Pandas是一个数据分析和处理库,有高级的数据结构和工具。你可以用pd.read_csv()函数把CSV文件的数据加载到pandas DataFrame里,它是一个有行列标签的表格数据结构。你也可以用其他函数,如pd.read_excel(),pd.read_json()和pd.read_sql(),从不同的地方加载数据。
用Scikit-learn加载数据:Scikit-learn是一个机器学习库,有各种算法和工具。你可以用sklearn.datasets模块加载一些内置的数据集或从网上下载数据集。你也可以用sklearn.model_selection.train_test_split()函数把数据分成训练集和测试集。