```
#bibliography: [../References/BILab.bib, packages.bib]
```
# 数据探索性分析
数据探索性分析(Exploratory Data Analysis,EDA)是旨在从数据中发现模式、趋势和关系,以便更好地理解数据。这种分析方法通常在数据收集和分析的早期阶段进行,通过可视化和统计技术来揭示数据的基本特征和潜在规律。
进行数据探索性分析的原因主要有以下几点:
- 识别异常值和缺失值:在数据集中,异常值和缺失值是常见的问题。EDA通过可视化工具和统计方法,能够帮助分析师快速识别这些值,并评估它们对分析结果的影响。这有助于确保数据的准确性和完整性,提高分析结果的可靠性。
- 理解数据:EDA有助于更好地理解数据集。通过探索数据的分布、中心趋势、离散程度以及变量之间的关系,可以形成对数据集的全面认识,为后续的数据处理和分析奠定基础。
- 发现模式和关系:EDA能够揭示数据中的隐藏模式和关联关系。这些模式和关系可能不容易通过简单的统计描述或模型预测发现,但对于理解数据的本质和制定有效的决策至关重要。
数据探索性分析在数据分析过程中扮演着重要的角色。它不仅有助于我们更好地理解数据,还能发现数据中的潜在价值和洞察力,为决策和预测提供有力的支持。
## 初步探索分析
### 异常值和缺失值
分析数据前,检查数据中的异常值和缺失值至关重要,原因主要有以下几点:
1. **数据质量**:异常值和缺失值可能是数据收集或处理过程中的错误所导致的。识别并处理这些值有助于提高数据质量,确保分析结果的准确性和可靠性。
2. **影响分析结果**:异常值可能会对数据集的统计特性(如均值、标准差等)产生显著影响,从而导致分析结果偏离实际情况。同样,缺失值如果未得到妥善处理,也可能引入偏差或降低分析的准确性。
3. **揭示潜在问题**:异常值有时可能揭示了数据背后的潜在问题或异常现象,如设备故障、操作失误等。通过检查异常值,可以及时发现并处理这些问题,避免造成更大的损失。
4. **完整性考量**:缺失值代表了数据的不完整性。在某些情况下,缺失值可能意味着某些重要信息未被记录或无法获取。了解缺失值的分布和模式有助于评估数据的完整性和可用性,以及是否需要采取进一步的数据收集措施。
5. **模型性能**:在构建预测模型时,异常值和缺失值可能对模型的性能和稳定性产生负面影响。识别并处理这些值有助于提升模型的泛化能力,确保模型在实际应用中的有效性。
在R语言中,你可以使用多种方法来寻找异常值或缺失值。以下是一些常见的方法:
#### 寻找缺失值
缺失值在R中通常用`NA`表示。你可以使用`is.na()`函数来检测缺失值。
```{r}
# 创建一个包含缺失值的数据向量
data threshold
# 打印异常值的位置
which(outliers)
```
##### 使用四分位数范围(IQR)来检测异常值:
IQR是第三四分位数(Q3)和第一四分位数(Q1)之间的差。你可以使用IQR来定义异常值的范围。
```{r}
# 创建一个数据向量
data upper_threshold
# 打印异常值的位置
which(outliers)
```
或者直接使用箱形图来查看异常值
```{r}
boxplot(data)
```
### 理解数据
#### 数据分布
数据分布是指数据在不同数值或类别上的频数或概率的分布情况。它描述了数据集中的数值如何分散在不同的取值范围内,反映了数据的整体形态和特征。它能帮助我们更好地理解数据的内在规律和结构。
不同的数据分布类型适用于不同的统计方法。了解数据分布有助于选择合适的统计方法进行数据分析和建模,对于数据分析、模型构建等后续都至关重要。
A common assumption in classical statistics is that your variable follows **Normal distribution**.
```{r, echo=FALSE}
x=seq(-5,5,length.out=1000)
y=dnorm(x)
plot(x=x,y=y,type="l",xlab="Value of your variable",ylab="Frequency")
```
How to test whether your data follows *Normal distribution*?
```{r,echo=FALSE}
x=rnorm(1000)
y=rexp(1000)
par(mfrow=c(1,2))
hist(x)
hist(y)
```
**Shapiro-Wilk Normality Test**
```{r}
shapiro.test(x)
shapiro.test(y)
```
How to transfer a varalble into a *normal distribution*?
common transformation:
- square root
- log
- **Box-Cox transformation**
Box-Cox转换是一种广义幂变换方法,常用于统计建模中,特别是当连续变量不满足正态分布时。这种转换的主要目的是改善数据的正态性、对称性和方差相等性,从而使其更适用于后续的统计分析。
Box-Cox转换在回归分析中尤为有用,特别是当响应变量不满足正态分布的假设时。通过该转换,可以使数据更符合线性模型的假设条件,从而提高模型的拟合效果和预测准确性。此外,它还可以用于解决异方差问题以及进行数据归一化等任务。
1. **变换形式**:
- Box-Cox转换的一般形式为:$y(λ) = (y^λ - 1) / λ$,当λ不等于0时。
- 当λ等于0时,该变换采用对数形式,即$y(λ) = ln(y)$。
- 其中,λ是一个待定的变换参数,需要通过数据来确定其最佳值。
2. **确定λ值**:
- 在应用Box-Cox转换之前,需要确定最佳的λ值。
- 这通常通过最大化似然函数来实现,以确保变换后的数据最接近正态分布。
3. **应用步骤**:
- 首先,检查数据是否满足Box-Cox转换的前提条件,例如数据必须为正数。
- 然后,使用适当的统计方法(如最大似然估计)来确定最佳的λ值。
- 接着,根据确定的λ值对数据进行Box-Cox转换。
- 最后,验证变换后的数据是否更接近正态分布,并评估其对后续分析的影响。
4. **注意事项**:
- Box-Cox转换要求原始数据中的因变量取值为正。如果数据中包含非正数(如零或负数),则需要进行适当的调整,例如通过添加一个常数来使所有数据变为正数。
- 尽管Box-Cox转换可以改善数据的正态性和其他统计特性,但并不能保证在所有情况下都能达到理想的效果。因此,在应用该转换后,仍需要仔细检查并验证数据的性质。
Box-Cox 转换是一种用于稳定方差和使数据更接近正态分布的幂转换方法。在 R 语言中,我们可以使用 `forecast` 包中的 `BoxCox` 函数来进行这种转换。
```{r, message=FALSE}
library(forecast)
set.seed(123) # 为了可重复性
data