05-exploratory_data_analysis.Rmd · 北红尾鸲/principle of ecological statistics_7

``` #bibliography: [../References/BILab.bib, packages.bib] ``` # 数据探索性分析数据探索性分析（Exploratory Data Analysis，EDA）是旨在从数据中发现模式、趋势和关系，以便更好地理解数据。这种分析方法通常在数据收集和分析的早期阶段进行，通过可视化和统计技术来揭示数据的基本特征和潜在规律。进行数据探索性分析的原因主要有以下几点： - 识别异常值和缺失值：在数据集中，异常值和缺失值是常见的问题。EDA通过可视化工具和统计方法，能够帮助分析师快速识别这些值，并评估它们对分析结果的影响。这有助于确保数据的准确性和完整性，提高分析结果的可靠性。 - 理解数据：EDA有助于更好地理解数据集。通过探索数据的分布、中心趋势、离散程度以及变量之间的关系，可以形成对数据集的全面认识，为后续的数据处理和分析奠定基础。 - 发现模式和关系：EDA能够揭示数据中的隐藏模式和关联关系。这些模式和关系可能不容易通过简单的统计描述或模型预测发现，但对于理解数据的本质和制定有效的决策至关重要。数据探索性分析在数据分析过程中扮演着重要的角色。它不仅有助于我们更好地理解数据，还能发现数据中的潜在价值和洞察力，为决策和预测提供有力的支持。 ## 初步探索分析 ### 异常值和缺失值分析数据前，检查数据中的异常值和缺失值至关重要，原因主要有以下几点： 1. **数据质量**：异常值和缺失值可能是数据收集或处理过程中的错误所导致的。识别并处理这些值有助于提高数据质量，确保分析结果的准确性和可靠性。 2. **影响分析结果**：异常值可能会对数据集的统计特性（如均值、标准差等）产生显著影响，从而导致分析结果偏离实际情况。同样，缺失值如果未得到妥善处理，也可能引入偏差或降低分析的准确性。 3. **揭示潜在问题**：异常值有时可能揭示了数据背后的潜在问题或异常现象，如设备故障、操作失误等。通过检查异常值，可以及时发现并处理这些问题，避免造成更大的损失。 4. **完整性考量**：缺失值代表了数据的不完整性。在某些情况下，缺失值可能意味着某些重要信息未被记录或无法获取。了解缺失值的分布和模式有助于评估数据的完整性和可用性，以及是否需要采取进一步的数据收集措施。 5. **模型性能**：在构建预测模型时，异常值和缺失值可能对模型的性能和稳定性产生负面影响。识别并处理这些值有助于提升模型的泛化能力，确保模型在实际应用中的有效性。在R语言中，你可以使用多种方法来寻找异常值或缺失值。以下是一些常见的方法： #### 寻找缺失值缺失值在R中通常用`NA`表示。你可以使用`is.na()`函数来检测缺失值。 ```{r} # 创建一个包含缺失值的数据向量 data threshold # 打印异常值的位置 which(outliers) ``` ##### 使用四分位数范围（IQR）来检测异常值： IQR是第三四分位数（Q3）和第一四分位数（Q1）之间的差。你可以使用IQR来定义异常值的范围。 ```{r} # 创建一个数据向量 data upper_threshold # 打印异常值的位置 which(outliers) ``` 或者直接使用箱形图来查看异常值 ```{r} boxplot(data) ``` ### 理解数据 #### 数据分布数据分布是指数据在不同数值或类别上的频数或概率的分布情况。它描述了数据集中的数值如何分散在不同的取值范围内，反映了数据的整体形态和特征。它能帮助我们更好地理解数据的内在规律和结构。不同的数据分布类型适用于不同的统计方法。了解数据分布有助于选择合适的统计方法进行数据分析和建模，对于数据分析、模型构建等后续都至关重要。 A common assumption in classical statistics is that your variable follows **Normal distribution**. ```{r, echo=FALSE} x=seq(-5,5,length.out=1000) y=dnorm(x) plot(x=x,y=y,type="l",xlab="Value of your variable",ylab="Frequency") ``` How to test whether your data follows *Normal distribution*? ```{r,echo=FALSE} x=rnorm(1000) y=rexp(1000) par(mfrow=c(1,2)) hist(x) hist(y) ``` **Shapiro-Wilk Normality Test** ```{r} shapiro.test(x) shapiro.test(y) ``` How to transfer a varalble into a *normal distribution*? common transformation: - square root - log - **Box-Cox transformation** Box-Cox转换是一种广义幂变换方法，常用于统计建模中，特别是当连续变量不满足正态分布时。这种转换的主要目的是改善数据的正态性、对称性和方差相等性，从而使其更适用于后续的统计分析。 Box-Cox转换在回归分析中尤为有用，特别是当响应变量不满足正态分布的假设时。通过该转换，可以使数据更符合线性模型的假设条件，从而提高模型的拟合效果和预测准确性。此外，它还可以用于解决异方差问题以及进行数据归一化等任务。 1. **变换形式**： - Box-Cox转换的一般形式为：$y(λ) = (y^λ - 1) / λ$，当λ不等于0时。 - 当λ等于0时，该变换采用对数形式，即$y(λ) = ln(y)$。 - 其中，λ是一个待定的变换参数，需要通过数据来确定其最佳值。 2. **确定λ值**： - 在应用Box-Cox转换之前，需要确定最佳的λ值。 - 这通常通过最大化似然函数来实现，以确保变换后的数据最接近正态分布。 3. **应用步骤**： - 首先，检查数据是否满足Box-Cox转换的前提条件，例如数据必须为正数。 - 然后，使用适当的统计方法（如最大似然估计）来确定最佳的λ值。 - 接着，根据确定的λ值对数据进行Box-Cox转换。 - 最后，验证变换后的数据是否更接近正态分布，并评估其对后续分析的影响。 4. **注意事项**： - Box-Cox转换要求原始数据中的因变量取值为正。如果数据中包含非正数（如零或负数），则需要进行适当的调整，例如通过添加一个常数来使所有数据变为正数。 - 尽管Box-Cox转换可以改善数据的正态性和其他统计特性，但并不能保证在所有情况下都能达到理想的效果。因此，在应用该转换后，仍需要仔细检查并验证数据的性质。 Box-Cox 转换是一种用于稳定方差和使数据更接近正态分布的幂转换方法。在 R 语言中，我们可以使用 `forecast` 包中的 `BoxCox` 函数来进行这种转换。 ```{r, message=FALSE} library(forecast) set.seed(123) # 为了可重复性 data