数据模块——数据读取

数据读取的部分功能为从不同格式的数据中获取规定的数据字典。其类图如下:

../../_images/%E6%95%B0%E6%8D%AE%E8%AF%BB%E5%8F%96%E9%83%A8%E5%88%86%E7%B1%BB%E5%9B%BE.png

数据字典的内容如下:

key

含义

value类型

input

输入参数的取值

numpy.ndarray[nt, nx]

output

输出参数的取值

numpy.ndarray[nt, ny]

title

参数的名称

list

range

参数的范围

list

DataBase为数据读取部分的基类,他的不同子类对应着的是不同来源不同格式的数据文件。

DataBase中的属性

名称

类型

含义

input

ndarray[nt,nx]

数据集的输入部分

output

ndarray[nt,ny]

数据集的输出部分

range

list

每一个参数的取值范围信息

title

list

数据集的参数名称

dataSet

dict

包含数据所有信息的dict

DataBase中的API

名称

作用

read()

将规定格式的文件读取为数据dict

divide(proportion)

划分数据集和样本集

__init__(path,*args)

构造函数,用于传入需要操作的数据文件路径

参数:

  • path,类型为str,单条数据的路径

  • args,类型为str,单条数据的路径,可以重复输入

示例::

from data import CsvData
datapath = “C:\data\测试1.csv”
D = CsvData (datapath)

read() → dict

读取传进去的数据

参数:None

返回: * dataSet,类型为dict,包含数据所有信息的字典

示例::

from data import CsvData
datapath = “C:\data\测试1.csv”
D = CsvData (datapath)
dataSet= D.read ()

divide(proportion=0.8) → dict

将数据集按照一定的比例划分为训练集和样本集

参数:

  • proportion,类型为float,默认为0.8,训练集占总体数据集的比例

返回:

  • trainSet,testSet,类型均为为dict,训练集和测试集

示例::

from data import CsvData
datapath = “C:\data\测试1.csv”
D = CsvData (datapath)
dataSet= D.read ()
train,test = D.divide(proportion = 0.7)