400-618-1990

搜索

版权所有©北京瑞风协同科技股份有限公司  
京ICP备16029927-3

资源中心

新闻中心

服务热线:

产品方案

瑞风测试

400-618-1990

8610-82119375

 

关于瑞风

新闻中心

基于模型的试验数据分析

【试验工程师·公益学习营】第十期第1讲

【试验工程师·公益学习营】总第46讲,于2020年11月27日如期举行,本期讲师是瑞风协同数据分析部经理、软件工程师,研究方向为工业大数据的分析与挖掘技术。他主持和参与的研究项目有试验数据智能判读、开放式数据分析处理平台、两网同步的单向导入系统、远程试验技术。

本期课程重点分为以下四个方面:系统概述、模型的概念、基于模型的数据分析和应用案例分享。

一、系统概述

针对试验过程中产生的数据进行数据分析是整体试验过程中较为重要的环节,传统的数据分析以数据探索分析与可视化分析为主体形式,此过程称之为狭义数据分析。

基于模型的数据分析形式,在现如今数据挖掘以及机器学习等技术的兴起,将逐渐取代以经验分析和可视化报告形式为主的传统数据分析形式。

基于模型的数据分析形式并不是现在发明的,在广义数据分析的理论中,传统数据分析形式同样存在模型概念,但是针对传统的数据分析模型是以局部计算模型为主,没有形成统一模型自动分析,目前数据挖掘类模型自动学习的数据分析形式,在以往的分析形式中是新兴的技术手段。

二、模型的概念

模型是指对于某个实际问题或客观事物、规律进行抽象后的一种形式化表达方式,由目标、变量和关系三方面组成。

模型的种类繁多,分为以下九类:数学模型、程序模型、逻辑模型、结构模型、方法模型、分析模型、管理模型、数据模型和系统模型。对于试验数据分析需要的重点关注的有以下五类:

1、数学模型

数学模型是指在对实际问题进行分析和高度抽象基础上建立起来的一组数学表达式(公式)。它是客观事物运行规律和变化发展趋势的反映。在信息处理系统中,通过对数学模型的处理,可以实现人类控制客观事物发展变化规律的目的。

2、程序模型

逻辑模型是指我们在实际描述某类管理问题时的逻辑表达方式。这种逻辑表达方式的内容不外乎:条件—结果、IF—THEN—ELSE、AND、OR、NOT、大于(GE)、小于(LE)、等于(EQ)、所有(∀)、存在(∃)等。逻辑模型可以通过表达式、图和关系表等几种形式来表示。

3、逻辑模型

分析模型是对管理问题分析的方法。一个分析模型可以是一组用于分析问题的数学模型加上图形、图表等软件工具,也可以是某个分析问题的方法、思路、工具和经验等。

4、结构模型

结构模型是指系统按一个个子系统有序构成的结构形式。结构模型可分为两类:一类反映逻辑关系的为逻辑结构模型,另一类反映实际物理构成关系的为物理结构模型。

5、数据模型

数据模型一般多指在设计和建立数据库时,用于提供数据表示和操作手段的形式构架。数据模型是严格定义的概念集合,这些概念精确地描述了系统的静、动态特征和完整性约束条件。因此,数据模型通常由数据结构模型、数据操作模型和数据的完整性约束模型三部分组成。

三、基于模型的数据分析

数据分析流程分为五部分,即:数据获取、探索分析与可视化、预处理理论、分析建模、模型评估。数据分析的含义与目标是统计分析方法、提取有用信息、总结与概述。

 

 

1、数据获取

数据获取的手段是数据仓库,数据仓库包括试验数据采集和试验数据解析导入,它可以将所有业务数据经汇总处理,是全部事实的记录,部分维度与数据的整理(数据集市-DM)。

2、探索分析与可视化

(1)理论铺垫

Ø 集中趋势:均值、中位数与分位数、众数

Ø 离中趋势:标准差、方差

Ø 数据分布:偏态与峰态、正态分布与三大分布

Ø 偏态系数:数据平均值偏离状态的衡量

Ø 峰态系数:数据分布集中强度的衡量

Ø 抽样定理:抽样误差、抽样精度

(2)属性分析

Ø 异常值分析:离散异常值、连续异常值、常识异常值

Ø 对比分析:绝对数与相对数,时间、空间、维度比较

Ø 结构分析:各组成部分的分布与规律

Ø 分布分析:数据分布频率的显式分析

 

 

(3)数据分类

Ø 定类(类别):根据事物离散、无差别属性进行的分类,如:名族

Ø 定序(顺序):可以界定数据的大小,但不能测定差值,如:收入的低、中、高

Ø 定距(间隔):可以界定数据大小的同时,可测定差值,但无绝对零点,如:温度

Ø 定比(比率):可以界定数据大小,可测定差值,有绝对零点

 

 

 

3、预处理理论

预处理理论最重要的过程是特征工程。特征工程四部分:特征使用-特征获取-特征处理-特征监控。这四部分又分为八个部分:数据选择、可用性、特征来源、特征存储、数据清洗、特征预处理、现有特征、新特征。

  

 

(1)数据清洗

数据清洗是对数据样本进行抽样,样本要具有代表性,样本比例要平衡以及样本不均衡时要考虑全量数据,异常值(空值)处理,识别异常值和重复值。

(2)特征预处理

特征预处理是对数据进行标注(label),包括特征选择、特征变换、特征降维和特征衍生。

Ø 特征选择是剔除与标注不相关或冗余的特征

  

 

Ø 特征变换包括对指化、离散化、数据平滑、归一化、数值化、正规化

  

 

Ø 特征降维包括PCA、奇异值分解等线性降维,LDA(LDA:线性判别式分析)降维

  

 

  

 

Ø 特征衍生包括加减乘除、求导与高阶求导、人工归纳

  

 

4、挖掘建模

机器学习是挖掘建模非常重要的一个技术手段,是跳出以人的经验为主观臆断的一种数据分析形式。包含监督学习、非监督学习和半监督学习,其中监督学习包括分类和回归,非监督学习包括聚类和关联。

挖掘建模包含七种方法:KNN、朴素贝叶斯、决策树、支持向量机、集成方法、罗吉斯特映射和人工神经网络。

  

 

四、应用案例分享

最后讲师以气动数据分析为例为大家介绍了基于模型的试验数据分析的典型应用。在气动数据分析的过程中,使用了气动数据里面气动数据以及驱动数据分析所使用的具体的算法,是抽取计算模型的一个具体过程。

如果您对我们的课程感兴趣,欢迎扫描下方二维码进行听课!

新闻中心