浏览数据科学学习曲线：初学者的 6 个基本技巧

几周前，我发现自己在一次对话中引出了一个有趣的问题。它是这样的：

Hans，您实际上在数据科学领域非常活跃。但是当你学习时，数据科学甚至还没有发明。尽管如此，在过去的几年里，您已经获得了数据分析和数据科学方面的知识和技能。所以，你必须了解一两件事。这就是为什么我有一个问题要问你。如果有人想自己学习数据科学并且必须从头开始，您会推荐什么？

哇，我没有立即回答这个问题。但这确实让我思考。我的建议是什么？这不是一个复杂的问题，但在我的脑海中引发了许多不同的想法和想法。您如何进行“从头开始学习数据科学”？当我思考时，我想出了一个包含六个技巧的清单。我很高兴在这里与您分享这些技巧。

提示 1：不要从编程开始，选择低代码解决方案

在深色模式下键入各种复杂的 Python 语句可能看起来非常酷，但这不是让我高兴的地方。我更喜欢像 KNIME 这样的低代码解决方案。在 KNIME 的帮助下，我能够极大地加速我的数据科学事业。在 KNIME 中，流程是核心，而不是代码。这有几个好处。KNIME 画布井井有条，允许您放大和缩小。您可以将节点封装到所谓的元节点中，并且通过注释，您在工作流中执行的（数据科学）流程得到支持并易于理解，将其转化为您可以共享和交流的故事。

特别是如果您是数据科学的新手并且没有编程背景或培训，那么专注于您想要解决的问题或您想要获得的洞察力非常重要。如何将业务问题转化为数据科学问题？对我来说，这就是数据科学的挑战。作为数据科学家，您需要能够专注于需要做出的选择，以得出一个好的解决方案。哪种算法最适合，我包括哪些记录，应考虑哪些变量，我使用哪些指标来评估我的解决方案的质量？诸如此类的事情。作为初学者，您不想每次都因为在代码中放错了逗号或忘记了括号等而卡住。

KNIME 的另一个优点是，在节点配置期间，会显示所有选项。许多选项是可配置的，但也具有默认值。这使您可以仔细配置每个节点，或者只是查看默认值会发生什么情况。

数据科学家的附加价值不在于编写好的代码（这就是 LLM 稍后会为您做的事情），而在于概念化、实施和做出选择，以达到将输入数据转化为有价值的输出数据的过程。但是要有一个好的计划并做出正确的选择，你确实需要一些知识，但你如何获得这些知识呢？

提示 2：开始，去做

你可以读书、看 YouTube 视频、浏览博客、参加在线课程，但如果你只消费这些内容，你的技能不会提高，你的知识只会在有限程度上增加。要真正在数据科学方面取得进展，最好围绕您正在进行的数据科学活动开始并积累知识。开始工作。

假设您想学习如何创建预测模型，并且您意识到需要将数据集拆分为训练、测试（和验证）集。深入研究此主题，并尝试找出针对您的特定使用案例拆分数据集的最佳方法。在设置分区令人满意后，请继续执行该过程的下一步。您不需要知道所有选项，但了解您在做什么（以及为什么）很重要。以小而易管理的步骤构建您的工作流程或代码。尝试创建一个具有尽可能少的节点或线的最小可行产品。

很明显。我选择 KNIME 作为我的环境来执行我的数据科学和分析项目。但选择是基于个人喜好。而这种选择并不是成功学习数据科学的关键。无论选择哪种方法，最重要的因素是解决实际数据科学问题时的一致实践和实践经验。是的，在我看来，KNIME 最能促进这一点。

提示 3：使用熟悉的数据集定义真实用例

总体而言，实际项目的动手实践是从头开始数据科学学习之旅的基本步骤。它为你提供实践经验，培养批判性思维和解决问题的能力，并为在分析和数据科学领域的进一步探索和发展奠定坚实的基础。

如果您想逐步掌握数据科学技能，主题、使用案例和数据集的选择非常重要。最好选择您熟悉的使用案例和数据集，而不是教程中常见的标准数据集（如 Iris 数据集）。如果您手头没有数据集，请查看 Kaggle Open Datasets。

处理您熟悉的主题以及与之关联的真实数据集有助于准确评估步骤的结果。例如，如果您的足球比赛结果预测模型预测 80% 的比赛为平局，那么作为足球专家，您知道这是不正确的（平均而言，25% 的比赛以平局结束）。这意味着要重新开始。或者，如果您遇到异常值，例如一支球队在一场比赛中进球超过 15 个，您可以使用您的足球领域知识来确定这是否可能是输入的数据或有效值。因此，建议使用真实数据集，因为这些数据集会给您带来需要注意的偏差和噪声。另一方面，使用“预先存在的数据集”（如葡萄酒数据集、Iris 数据集或波士顿住房数据集）的优势在于，它们会产生一致的结果，有时看起来好得令人难以置信。您可以有效地使用它们来使您的工作流程 “正常工作”。但是，您不需要考虑结果。

但解决问题的能力也是数据科学的一部分。在那里，您必须分析问题，质疑假设，并创造性地思考，以找到创新的解决方案并激发批判性思维和决策能力。

提示 4：采取小的、可控的步骤

创建预测模型等数据科学使用案例可以通过有限数量的节点来完成（见图）。

您可能无法立即拥有最佳模型，但您将拥有一个工作流，您可以通过简单地逐步添加功能（KNIME 节点）来改进该工作流。在每个节点添加时暂停，以考虑如何最好地配置它。我是接受默认设置，还是调查偏离标准设置的影响？扩展工作流程提供了通过阅读有关该主题的博客、遵循 YouTube 教程或参加简短的培训课程来寻求信息的机会，所有这些都专门针对您当前在工作流程中处理并希望了解更多信息的主题。Reflection 允许您评估自己的成长，确定需要改进的领域，并跟踪您掌握数据科学的旅程。

提示 5：遇到困难时，不要惊慌

处理数据科学用例的一个美妙之处在于，它不是一条通往终点的直线。我经常觉得总有改进的余地或以不同的方式做事。这意味着要进行大量的测试和实验，以得出一个好的、可接受的解决方案。然而，达到这个好的解决方案往往需要克服各种障碍。很高兴知道帮助总是在附近。如果您在互联网上聪明地搜索，有人可能已经找到了您面临的问题的解决方案。如果您在 KNIME 中遇到困难，这里有 KNIME 论坛、KNIME 视频和 KNIME 学习中心。

但也许最重要的是，不要放弃;继续尝试。这并不总是那么容易。在一周内成为一名成熟的数据科学家是一种错觉。学习新事物是分步进行的，当您将实践与理论相结合时，学习速度会更快。但要适度。最好每天花 1 小时学习 8 天新事物，而不是尝试在一天内 8 小时完成所有事情。