虽然术语数据科学和数据分析经常可以互换使用,但这两个术语由于其表现范围的不同而存在很大差异。与数据分析相比,数据科学是一个涵盖范围广泛的术语,数据分析更专注,可以被视为数据科学的一个子集。因此,要彻底了解数据科学,让我们首先尝试了解数据分析生命周期中的各个阶段。

数据分析主要涉及在一个周期中执行的六个重要阶段——数据发现、数据准备、数据模型规划、数据模型构建、结果交流和操作化。数据分析生命周期的六个阶段,一个接一个地完成一个周期。有趣的是,这六个数据分析阶段可以遵循每个阶段之间的向前和向后移动,并且是迭代的。

[Alt](https://res.cloudinary.com/practicaldev/image/fetch/s--rFXgUdSi--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://dev- to-uploads.s3.amazonaws.com/uploads/articles/7kh31g493oo16h1chk8g.png)

现在让我们简要讨论任何数据科学项目中遵循的数据分析生命周期的所有六个阶段:

数据发现

在数据分析的第一阶段,利益相关者定期执行以下任务 - 检查业务趋势,对类似数据分析进行案例研究,并研究商业领域。整个团队对内部资源、内部基础设施、所涉及的总时间和技术要求进行评估。一旦完成所有这些评估和评估,利益相关者就开始制定初始假设,以根据当前市场情景解决所有业务挑战。

数据准备

在数据发现阶段之后的第二阶段,通过使用沙盒平台将数据从遗留系统转换为数据分析形式来准备数据。沙盒是数据科学家通常用于数据预处理的可扩展平台。它包括巨大的 CPU、大容量存储和高 I/O 容量。IBM Netezza 1000 是 IBM 公司用于处理数据集市的此类数据沙箱平台之一。此阶段涉及的利益相关者主要参与使用标准沙箱平台对数据进行初步结果的预处理。

模型规划

生命周期的第三阶段是模型规划,数据分析团队在此适当规划要适应的方法以及在模型构建的下一阶段要遵循的各种工作流程。在这个阶段,决定了团队之间的各种分工,明确了团队成员之间的工作量。进一步探索在前一阶段准备的数据以了解各种特征及其关系,并执行特征选择以将其应用于模型。

建筑模型

生命周期的下一个阶段是模型构建,其中团队致力于开发用于培训和测试以及生产目的的数据集。此外,根据前一阶段的计划,执行模型。决定并准备执行模型所需的环境类型,以便如果需要更健壮的环境,则相应地应用它。

传达结果

生命周期的第五阶段检查项目的结果,以确定它是成功还是失败。结果由整个团队及其利益相关者仔细审查,以对关键发现进行推断并总结完成的整个工作。此外,还对业务价值进行了量化,并准备了有关关键发现的详细叙述,并在各个利益相关者之间进行讨论。

运营

在第六阶段,团队准备最终报告以及简报、源代码和相关文件。最后阶段还涉及运行试点项目以实施模型并在实时环境中对其进行测试。由于数据分析有助于建立模型,从而做出更好的决策,它反过来又为个人、客户、业务部门和其他组织增加了价值。

在进行这六个阶段时,可以参与规划、实施和决策的各种利益相关者是数据分析师、商业智能分析师、数据库管理员、数据工程师、执行项目发起人、项目经理和数据科学家。所有这些利益相关者都严格参与项目的适当规划和完成,并注意项目成功需要考虑的各种关键因素。

希望这会有所帮助。

Logo

华为、百度、京东云现已入驻,来创建你的专属开发者社区吧!

更多推荐