推广 热搜: 行业  机械  设备    经纪  教师  系统  参数    蒸汽 

数据质量、特征分析及一些MATLAB函数

   日期:2024-11-07     移动:http://yishengsujiao.xhstdz.com/quote/2055.html

  MATLAB工具箱主要含有的类别有

数据质量、特征分析及一些MATLAB函数

  数学类、统计与优化类、信号处理与通信类、控制系统设计与分析类、图像处理类、测试与测量类、计算金融类、计算生物类、并行计算类、数据库访问与报告类、 MATLAB 代码生成类、 MATLAB 应用发布类。

  每个类别内含有一个或多个工具箱。

  比如数学、统计与优化类别就包含有曲线拟合工具箱、优化工具箱、神经网络工具箱、统计工具箱等。

  MATLAB 应用发布类别主要包含MATLAB和其他语言的混合编译、编程,包括C、C#、Java等。

  MATLAB 中与数据分析及挖掘相关的工具箱,包含统计工具箱、优化工具箱、曲线拟合工具箱、神经网络工具箱。(这里先大致写一下,后面的文章会专门细写的)

  统计工具箱可以对数据进行组织、分析和建模,使用和统计分析、机器学习相关的算法及工具。用户可以使用回归以及分类分析来进行预测建模、生成随机序列(蒙特卡罗模拟),同时可 以使用统计分析工具对数据进行前期的探索研究或者进行假设性检验。在分析多维数据时,统计工具箱提供连续特征选择、主成分分析、正规化和收缩、偏最小二乘回归分析法等工具帮助用户筛选出对模型有重要影响的变量。该工具箱同时还提供有监督、无监督的机器学习算法,包括支持向量机(SVMs)、决策树、K- Means、分层聚类、K近邻聚类搜索、高斯混合、隐马尔科夫模型等。

  优化工具箱主要提供用于在满足给定的束缚条件时寻找最优解的相关函数,主要包含线性规划、混合整数线性规划、二次规划、非线性最优化、非线性最小平方问题的求解函数。 在该工具箱中,用户可以针对连续型、离散型问题寻求最优的解决方法,使用权衡分析法进行分析,或者在算法和应用中融合多种优化方法,从而达到较好的效果。

  曲线拟合工具箱提供一个图形用户界面和各种函数调用接口供用户实现数据拟合。使用该工具箱可以进行数据探索性分析、数据预处理、数据过程处理、比较分析候选模型和异常值过滤。用户可以使用 MATLAB 库函数提供的线性与非线性模型或者用户自定义的方程式来进行回归分析。该工具箱也支持无参数模型,比如样条变换、插值以及平滑。

  神经网络工具箱提供的函数以及应用可以用于复杂的、非线性系统的建模。不仅支持前馈监督式学习、径向基和动态网络,同时还支持组织映射以及竞争层形式的非监督式学习。利用该工具箱,用户可以设计、训练、可视化以及仿真神经网络。神经网络工具箱的应用主要包括:回归、分类、聚类分析、时间序列预测和动力系统建模,对应于其所包含的四个子工具箱。在处理海量数据时,还可以考虑使用数据分布式以及分布式计算功能、GPU功能以及并行计算工具箱。

 

  数据质量分析主要是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据,常见的有缺失值、异常值、不一致的值、重复数据及含有特殊符号的数据

缺失值与异常值分析

  这里,我们以餐饮销量数据为例,检测分析其缺失值及异常值。

  

  得到结果

  与箱形图

   箱形图补充

    

  对于箱形图,必须要提及四分位数的概念。

  人们经常会将数据划分为4个部分,每一个部分大约包含有1/4即25%的数据项。这种划分的临界点即为四分位数。它们定义如下。  Q1=第1四分位数,即第25百分位数Q2=第2四分位数,即第50百分位数Q3=第3四分位数,即第75百分位数。这些可以通过箱形图直观的看出来。

  下限 < 下四分位数 < 中位数 < 上四分位数 < 上限

箱形图的意义①直观明了地识别数据批中的异常值。②利用箱线图判断数据批的偏态和尾重。对于标准正态分布的样本,只有极少值为异常值。异常值越多说明尾部越重,自由度越小。③利用箱线图比较几批数据的形状同一数轴上,几批数据的箱线图并行排列,几批数据的中位数、尾长、异常值、分布区间等形状信息便昭然若揭。

缺点不能精确地衡量数据分布的偏态和尾重程度;对于批量比较大的数据,反映的信息更加模糊以及用中位数代表总体评价水平有一定的局限性......

  从图中可以读出离群点(异常值),即被圈住的那些

  从箱形图我们可以看出,超过上下界存在7个数据可能为异常值,结合具体业务,可以把865、4060.3、4065.2归为正常值,将60、22、6607.4、9106.44归为异常值。最后确定过滤规则为日销量在400以下或5000以上属于异常数据。

缺失值处理

  数据清洗主要包括缺失值处理、异常值处理。

  处理缺失值的方法可以分为三类删除记录、数据插补和不处理。其中,插补最常用。  插补方法:均值/中位数/众数插补、使用固定值、最近临插补、回归方法、插值法。

  插值法请参考另一篇blog:https://www.cnblogs.com/fangxiaoqi/p/11437444.html

  下面用拉格朗日插值法与牛顿插值法对缺失值进行插补:(当然有很多更好的方法)

  从结果中,我们可以看出,在插值前会对数据进行异常值检测,发现的一些异常数据会定义为空缺值,也会进行补数。

异常值处理

在数据预处理时,异常值是否剔除,需要视具体情况而定,因为有些异常值可能蕴含着有用的信息。异常值处理的常用方法①删除含有异常值的记录将含有异常值的记录直接删除这种方法简单易行,但缺点也很明显,在观测值很少的情况下,删除会导致样本量不足,可能会改变原有的分布,从而造成分析结果不准确。②视为缺失值视为缺失值可以利用现有变量的信息,对异常值进行填补。③平均值修正④不处理一般先分析异常值出现的可能原因,再判断是否舍弃,如果是正确的数据,可以直接在具有异常值的数据集上进行挖掘建模。

对比分析

  对比分析是指把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小、水平的高低、速度的快慢,以及各种关系是否协调。特别适用于指标间的横纵向比较、时间序列的比较分析。在对比分析中,选择合适的对比标准是十分关键的步骤,选择得合适,才能作出客观的评价,选择不合适,评价可能会得出错误的结论。

  对比分析主要有以下两种形式。

  1、绝对数比较

  它是利用绝对数进行对比,从而寻找差异的一种方法。

  2、相对数比较

  它是用两个有联系的指标对比计算的,用以反映客观现象之间数量联系程度的综合指标,其数值表现为相对数。

  由于研究目的和对比基础不同,相对数可以分为以下几种

    ①结构相对数:将同一总体内的部分数值与全部数值对比求得比重,用以说明事物的性质、结构或质量。如居民食品支出额占消费支出总额的比重、产品合格率等。

    ②比例相对数:将同一总体内不同部分的数值对比,表明总体内各部分的比例关系,如人口性别比例、投资与消费比例等。

    ③比较相对数:将同一时期两个性质相同的指标数值对比,说明同类现象在不同空间条件下的数量对比关系。如不同地区商品价格的对比;不同行业、不同企业间某项指标的对比等。

    ④强度相对数:将两个性质不同但有一定联系的总量指标对比,用以说明现象的强度、密度和普遍程度。如人均国内生产总值用“元/人”表示,人口密度用“人/平方公里”表示,也有用百分数或千分数表示的,如人口出生率用%。表示。

    ⑤计划完成程度相对数:是某一时期实际完成数与计划数进行对比,用以说明计划完成的程度。

统计量分析

  用统计指标对定量数据进行统计描述,常从集中趋势离中趋势两个方面进行分析。  集中趋势平均水平的指标是对个体集中趋势的度量,使用最广泛的是均值和中位数  离中趋势反映变异程度的指标则是个体离开平均水平的度量,使用较广泛的是标准差、方差、四分位间距。

1、集中趋势度量

①均值

  原始观察数据平均值$$operatorname{mean}(x)=overline{x}=frac{sum x_{i}}{n}$$  加权均值$$operatorname{mean}(x)=overline{x}=frac{sum w_{i} x_{i}}{sum w_{i}}=frac{w_{1} x_{1}+w_{2} x_{2}+ldots+w_{n} x_{n}}{w_{1}+w_{2}+dots+w_{n}}$$  为了消除少数极端值的影响,可以使用截断均值或者中位数来度量数据的集中趋势。

②中位数

③众数

众数是指数据集中出现最频繁的值,众数并不经常用来度量定性变量的中心位置,其更适用于定性变量。

2、离中趋势度量①极差

  极差=最大值-最小值

②标准差

标准差度量数据偏离均值的程度

③变异系数

变异系数度量标准差相对于均值的离中趋势,计算公式为$$CV = frac{s}{{bar x}} imes 100{ m{% }}$$变异系数主要用来比较两个或多个具有不同单位或不同波动幅度的数据集的离中趋势。

④四分位数间距

四分位数间距是上四分位数与下四分位数之差,其间包括了全部观察值的一半,其值越大,说明数据的变异程度越大,反之说明数据的变异程度越小。

 

贡献度分析

  贡献度分析又称帕累托分析,原理是帕累托法则,它是指在任何特定群体中,重要的因子通常只占少数,而不重要的因子则占多数,因此只要能控制具有重要性的少数因子即能控制全局。

  以餐饮系统对应的菜品盈利数据为例

  

  

相关性分析

  分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程被称为相关性分析。  1、直接绘制散点图(最直观判断线性关系)  2、绘制散点图矩阵  需要同时考虑多个变量之间的相关关系是,一一绘制其简单散点图会十分麻烦。此时可以利用散点图矩阵来同时绘制各变量间的散点图,从而快速发现多个变量间的主要相关性。

  

  3、计算相关系数  ①Pearson相关系数

  皮尔森相关系数是用来反映两个变量线性相关程度的统计量。相关系数用 r 表示,r 描述的是两个变量间线性相关强弱的程度。r 的绝对值越大表明相关性越强。

  一般用于分析两个连续性变量之间的关系,其公式如下

$$r = frac{{sumlimits_{i = 1}^n {left( {{x_i} - bar x} ight)} left( {{y_i} - bar y} ight)}}{{sqrt {sumlimits_{i = 1}^n {{{left( {{x_i} - bar x} ight)}^2}} sumlimits_{i = 1}^n {{{left( {{y_i} - bar y} ight)}^2}} } }}{ m{,  - 1}} le r le 1$$  

  ②Spearman秩相关系数

  由于皮尔逊相关系数有两个局限:①必须假设数据是成对地从正态分布中取得的。②数据至少在逻辑范围内是等距的。所以,对于更一般的情况,Spearman秩相关系数更常用,而且这是一种无参检验方法(与分布无关)。

  在统计学中,以查尔斯·斯皮尔曼命名的斯皮尔曼等级相关系数,即Spearman相关系数。经常用希腊字母p表示。它是衡量两个变量的依赖性的非参数指标。它利用单调方程评价两个统计变量的相关性。如果数据中没有重复值,并且当两个变量完全单调相关,斯皮尔曼相关系数则为+1或-1。

  Pearson线性相关系数要求连续变量的取值服从正态分布,而不服从正态分布的变量、分类或等级变量之间的关联性可采用Spearman秩相关系数来描述,也可以理解为等级变量之间的皮尔逊相关系数。。

  其计算公式为$$ρ=1-frac{6 sum_{i=1}^{n}left(R_{i}-Q_{i} ight)^{2}}{nleft(n^{2}-1 ight)}$$

  ${R_i}$代表${x_i}$的秩次,${Q_i}$代表${y_i}$的秩次,${R_i} - {Q_i}$为${x_i},{y_i}$的秩次之差,$n$表示样本数。

  如图,计算得到$$p = 1 - frac{{6*(1 + 1 + 1 + 9)}}{{6*(36 - 1)}} = 0.6571$$

  因为一个变量的相同的取值必须有相同的秩次,所以在计算中采用的秩次是排序后所在位置的平均值。

  易知只要两个变量具有严格单调的函数关系,那么它们就是完全Spearman相关的,这与Pearson相关不同,Pearson 相关只有在变量具有线性关系时才是完全相关的。

  上述两种相关系数在实际应用计算中都要对其进行假设检验,使用 t 检验方法检验其显著性水平以确定其相关程度。

  研究表明,在正态分布假设下,Spearman秩相关系数与Peatson相关系数在效率上是等价的,而对于连续测量数据,更适合用Pearson相关系数来进行分析。 

  ③判定系数

  判定系数是相关系数的平方,用${r^2}$表示,用来衡量回归方程对y的解释程度。

  判定系数的取值范围:0≤${r^2}$≤1。

  ${r^2}$越接近1,表明x与y之间的相关性越强;${r^2}$越接近0,表明两个变量之间几乎没有直线相关关系

  分析这些菜品销售量之间的相关性可以得到不同菜品之间的关系,比如是替补菜品、互补菜品或者没有关系的菜品,为原材料采购提供参考。  

  从上面的结果可以看到如果顾客点了“百合酱蒸凤爪”和点“翡翠蒸香茜饺”“金银蒜汁蒸排骨”“香煎萝卜糕”“铁板酸菜豆腐”“香煎韭菜饺”等主食类的相关性比较低,反而点“乐膳真味鸡”“生炒菜心”“原汁原味菜心”的相关性比较高。

特征统计函数

  ①mean

  功能计算数据样本的算术平均值。

  使用格式n=mean(X)

  ②geomean

  功能计算数据样本的几何平均数。

  使用格式n=geomean(X)

  ③var

  功能计算数据样本的方差。

  使用格式v=var(X)

  ④std

  功能计算数据样本的标准差。

  使用格式s=std(X)

  ⑤corr

  功能计算数据样本的Spearman(Pearson)相关系数矩阵。

  使用格式R=corr(x,y,'name',value)

 

  ⑥cov

  功能计算数据样本的协方差矩阵。

  使用格式R=cov(X)。

  ⑦moment

  功能计算数据样本的指定阶中心距。

  使用格式m=moment(X,order) % 计算样本X的order阶次的中心距m。

 

 

统计作图函数

  通过统计作图函数绘制的图表可以直观地反映出数据及统计量的性质及其内在的规律,如盒图可以表示多个样本的均值,误差条形图能同时显示下限误差和上限误差,最小二乘拟合曲线图能分析两个变量间的关系。

  ①plot

  功能绘制线性二维图、折线图。

  使用格式plot(x,y,S,S指定绘制时图形的类型、样式、颜色,常用的选项有:‘b’为蓝色、“r’为红色、g’为绿色、‘o’为圆圈、‘+’为加号标记、’为实线、-’为虚线。

  ②pie

  功能绘制饼形图。

  使用格式pie(x,绘制矩阵x中非负数据的饼形图。

  若x中非负元素和小于1,则函数仅画出部分饼形图,且非负元素X(i,j)的值直接限定饼形图中扇形的大小

  若X中非负元素和大于等于1,则非负元素X(i,j)代表饼形图中的扇形大小通过X(i,j)/Y的大小来决定。其中,Y为矩阵X中非负元素和。

  ③hist

  功能绘制二维条形直方图,可显示数据的分布情形。

  使用格式N=hist,X,把向量Y中元素分到由向量X中元素指定中心位置的条形中,且返回每一个条形中的元素个数给向量N。

  ④boxplot

  功能绘制样本数据的箱型图。

  使用格式boxplot(X,notch)绘制矩阵样本X的箱型图。

  参数notch=1时,绘制矩阵样本X的带刻槽的凹盒图。参量notch=0时,绘制矩阵样本X的无刻槽的矩形箱型图。

  例如,绘制样本数据的箱型图,样本由两组正态分布的随机数据组成,一组数据均值为4,标准差为5,另一组数据均值为8,标准差为6。

  ⑤semilogx/semilogy  功能绘制x或y轴的对数图形。  使用格式semilogx(x,y),对x轴使用对数刻度(以10为底),y轴使用线性刻度,进行plot函数绘图,等价于plot(log10(x),y)

  ⑥errorbar  功能绘制误差条形图。  使用格式errorbar(X,Y,L,U),绘制误差条形图。  参量X、Y、I、U必须为同型向量或矩阵。  若同为向量,则在点(X(i),Y(i))处画出向下长为L(i),向上长为U(i)的误差棒  若同为矩阵,则在点(X(i,j),Y(i,j))处画出向下长为L(i,j),向上长为U(i,j)的误差棒。

本文地址:http://nhjcxspj.xhstdz.com/quote/2055.html    物流园资讯网 http://nhjcxspj.xhstdz.com/ , 查看更多

特别提示:本信息由相关企业自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关行业动态
推荐行业动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号