数据模块——数据读取

数据读取的部分功能为从不同格式的数据中获取规定的数据字典。其类图如下：

数据字典的内容如下：

DataBase为数据读取部分的基类，他的不同子类对应着的是不同来源不同格式的数据文件。

DataBase中的属性

DataBase中的API

名称	作用
read()	将规定格式的文件读取为数据dict
divide(proportion)	划分数据集和样本集

__init__(path,*args)

构造函数，用于传入需要操作的数据文件路径

参数：

示例：:

from data import CsvData
datapath = “C:\data\测试1.csv”
D = CsvData (datapath)

read() → dict

读取传进去的数据

参数：None

返回： * dataSet，类型为dict，包含数据所有信息的字典

示例：:

from data import CsvData
datapath = “C:\data\测试1.csv”
D = CsvData (datapath)
dataSet= D.read ()

divide(proportion=0.8) → dict

将数据集按照一定的比例划分为训练集和样本集

参数：

返回：

示例：:

from data import CsvData
datapath = “C:\data\测试1.csv”
D = CsvData (datapath)
dataSet= D.read ()
train，test = D.divide(proportion = 0.7)