当前位置:数据分析 > 机器学习的八个步骤

机器学习的八个步骤

  • 发布:2023-10-06 12:19

机器学习带动了数十亿美元的行业收入,创造了前所未有的资源和大量就业机会。但这也意味着如何开始机器学习可能会有点令人困惑。我是这样开始的。如果你在本文中遇到困难,请搜索 Kaggle(也许以前有人遇到过同样的问题)并在 Kaggle 论坛上提出问题(如果以前没有人问过该问题),这是找到方向和解决问题的好方法。解决问题的好方法。 上个月,Kaggle 联合创始人兼 CTO Ben Hamner 在 Quora 上回答了一系列有关 Kaggle、机器学习和人工智能的问题。针对 Hamner 给出的《机器学习的八个步骤》建议,Kaggle 团队重新整理并做了核心总结。 现在学习机器学习和人工智能比以往任何时候都更好。近年来,该领域发展迅速,取得了丰硕成果。专家们开源了各种高质量的软件工具和库,新的在线资源和博客文章不断涌现。机器学习为行业带来了数十亿美元的收入,创造了前所未有的资源和大量就业机会。但这也意味着如何开始机器学习可能会有点令人困惑。我是这样开始的。如果你在本文中遇到困难,请搜索 Kaggle(也许以前有人遇到过同样的问题)并在 Kaggle 论坛上提出问题(如果以前没有人问过该问题),这是找到方向和解决问题的好方法。解决问题的好方法。 1. 选择一个您感兴趣的问题 从你想要解决的问题开始,而不是从令人生畏的、不系统的主题列表开始(你可以google很多机器需求资源列表,但我不会在这里提供),你会很容易集中注意力并主动学习。解决问题会让你更深入、更投入,而不是被动地阅读一些有关机器学习的文章。 选择好的介绍性问题有几个标准: 该问题涉及您个人感兴趣的领域 数据很容易获得并且非常适合解决问题(否则你的大部分时间都会被消耗掉) 您可以在一台机器上轻松地处理数据(或数据的某些相关子集) 没发现问题吗?担心!通过我们的入门竞赛系列,我们在 Kaggle 上遇到了一些很棒的机器学习问题。点击泰坦尼克号竞赛(https://www.sychzs.cn/c/titanic)即可开始。 2. 为你的问题制定一个快速、粗制滥造、笨拙的端到端解决方案。 很容易陷入实现细节或调试错误的机器学习算法,而您希望避免这种情况。您的目标是尽快获得超级基础的知识,端到端地解决问题:读取数据并将其处理成适合机器学习的形式,训练基本模型,创建结果并评估其性能。 3. 执行并改进你的初步计划 现在您已经有了功能基线,是时候进行创新了。尝试改进初始计划的每个组成部分并衡量影响,看看把时间花在哪里才有意义。很多时候,获取更多数据或改进数据清理和预处理步骤比优化机器学习模型本身具有更高的投资回报率 (ROI)。 此步骤的一部分应包括实际操作数据 - 检查行并可视化分布,以更好地理解其结构和特性。 4. 编写并分享解决方案 获得解决方案反馈的最佳方法是将其写下来并分享。写作的过程是一种梳理解决方案并带来更好理解的新方式。这也将使其他人了解您在做什么并提供反馈以帮助您学习。这也启动了你的机器学习组合,帮助你展示你的能力并获得这份工作。 Kaggle 数据集和 Kaggle 内核是您共享数据和解决方案、获取其他人的反馈、了解其他人如何扩展您的问题以及开始充实您的 Kaggle 文档的强大方式。 5. 对另一组问题重复步骤 1-4 既然您已经解决了一个感兴趣的问题,请在一系列不同的领域中多次执行此操作。 您是从表格数据开始吗?然后再解决一个涉及结构化程度较低的文本的问题,以及另一个涉及图像的问题。 机器学习问题最初是为您设计的吗?许多创新且有价值的工作正是解决了如何从一开始就将松散定义的业务或研究目标转变为明确定义的机器学习问题。以这种方式解决问题类型。 Kaggle 竞赛和 Kaggle 数据集为明确定义的机器学习问题和适合机器学习的原始数据资源提供了一个很好的起点。 6. 认真参加 Kaggle 比赛(如果你还没有的话) 为成千上万人正在解决的问题提出最佳答案是一个巨大的学习机会:它迫使您迭代同一问题,并让您发现解决问题的有效方法。 个人竞赛论坛提供了丰富的资源,介绍其他人如何使用您的方法来处理和调试问题,内核提供了对开始解决问题的简单方法的数据的探索性见解,以及获奖的博客文章 (http://blog. www.sychzs.cn/category/winners-interviews/) 最后显示了最好的结果。 Kaggle 竞赛还提供了与他人合作的独特机会。社区中的人们来自不同的背景和技能,每个人都可以扮演教学和学习的角色。你永远不知道,也许你未来的同事也在 Kaggle 社区。 7. 申请机器学习职位 这使您可以将大部分时间花在机器学习上并真正提高您的技能。决定您想要从事的角色类型并建立与之相关的个人项目组合是一个强有力的起点。如果您还没有准备好面试机器学习职位,那么在当前职位上承担新项目、寻求咨询机会、参加公民黑客马拉松和数据相关的社区服务机会是获得立足点的其他方法。专业工作需要强大的编程技能,这可以显着提高性能 - 并且通过重点项目进行的改进将产生许多下游效益。 专业机器学习工作的宝贵机会包括: 机器学习在生产系统中的应用 专注机器学习研究,推广最新进展 利用机器学习来改进产品和业务决策的探索性分析 8. 教别人机器学习 教学可以帮助您巩固对核心机器学习概念的理解。教别人的方法有很多种,选择最适合你的一种: 写研究论文 发表讲话 撰写博客文章和教程 在 Kaggle、Quora 和其他网站上回答问题 个人指导和辅导 分享代码示例(在 Kaggle 核心和 GitHub 上) 教 写一本书

相关文章