多读书多实践,勤思考善领悟

基于TensorFlow的机器学习速成课程(Google制作)

本文于1818天之前发表,文中内容可能已经过时。

简介

随着机器学习越来越受到公众的关注,很多初学者希望能快速了解机器学习及前沿技术。

Google在2008年上线了一个“机器学习速成课程”,英文简称MLCC。用他们自己的话来形容,这个课程节奏紧凑、内容实用。课程总共需要大约15小时,包含大量教学视频,还有对算法实际运用的互动直观展示,让用户可以更容易地学习和实践机器学习概念。课程共25节,还有40多项练习。

据Google介绍,这个课程本来是工程师教育团队为自家员工开发的,也就是说,它的前身是一份内部培训资料。目前,有18000多名Googler报名参加了MLCC课程,把从课程中学到的东西用到了Google的各种产品上。内部培训很成功嘛,于是Google决定,把这个课程送到更多人面前。

按照该课程所述,读者可能需要初级代数知识,如变量与系数、线性方程组和函数曲线等以理解基本的机器学习模型。此外,读者也需要一些 Python 编程经验,但一般只需要最基础的函数定义、列表/字典、循环和条件表达式等。本课程的实现是基于 Python 和 TensorFlow,不过读者在学习前并不需要任何 TensorFlow 知识。Google在课程页面上就明确地列出了课程的前提条件:

1. 掌握入门级代数知识。 您应该了解变量和系数、线性方程式、函数图和直方图(熟悉对数和导数等更高级的数学概念会有帮助,但不是必需条件)。

2. 熟练掌握编程基础知识,并且具有一些使用 Python 进行编码的经验。机器学习速成课程中的编程练习是通过 TensorFlow 并使用 Python 进行编码的。您无需拥有使用 TensorFlow 的任何经验,但应该能够熟练阅读和编写包含基础编程结构(例如,函数定义/调用、列表和字典、循环和条件表达式)的 Python 代码。

如果数学已经基本全还给老师了怎么办?Python从入门到放弃了好几次怎么办?

Google在前提条件下边,还列出了学习这门课的准备工作,你需要恶补的知识、事先了解的工具,全都列了出来。

这其中,包括课程涉及的数学概念,每个概念都附有Google工程师教育团队精选的教程或文档,有来自可汗学院的课程、维基百科的词条、TensorFlow和Python的官方文档等等。

不过,这些链接到的内容都是英语的,如果需要中文版,还是要自己动手寻找。

课程包括机器学习概念、机器学习工程、机器学习现实世界应用实例。

比较牛的地方是里面的视频教学有中文语音解说:

其实这个中文语音解说并不是课程讲解老师说的中文,而是通过“机器学习技术生成的”。其他语言还支持:英语、法语、韩语、西班牙语。我觉得大部分的讲师应该都是讲的英语。虽然说这个翻译和合成存在一点小瑕疵,其实你会发现已经非常牛了!

建议大家在学习此课程的时候,把网站的语言调整成英文的,视频中的语言也调整成英文的,在自己理解比较吃力的时候,再去切换成中文的来参考。

课程目录

简介

  • 前提条件和准备工作

机器学习概念

  • 框架处理(15 分钟)机器学习中的监督学习
  • 深入了解机器学习(20 分钟)什么是损失函数,权重和 bias 是什么
  • 降低损失(60 分钟)两种梯度下降,及对学习率的实验
  • 使用 TensorFlow 基本步骤(60 分钟)不能不懂的 TensorFlow
  • 泛化(15 分钟)什么是过拟合,怎样评价一个模型的好坏,把数据集分成测试和训练两部分
  • 训练及测试集(25 分钟)验证把数据集分成两部分的好处
  • 验证(40 分钟)担心过拟合?在测试和训练集外多弄一个验证集
  • 表示法(65 分钟)特征工程,75% 机器学习工程师的时间都在干的事
  • 特征组合(70 分钟)明白什么是特征组合,怎么用 TensorFlow 实现
  • 正则化:简单性(40 分钟)L2 正则化,学习复杂化和普遍化的取舍
  • 逻辑回归(20 分钟)理解逻辑回归,探索损失函数和正则化
  • 分类(90 分钟)评估一个逻辑回归模型的正确性和精度
  • 正则化:稀松性(45 分钟)L2 的其他种类
  • 介绍神经网络(40 分钟)隐藏层,激活函数
  • 训练神经网络(40 分钟)反向传播
  • 多种类神经网络(50 分钟)理解多类分类器问题,Softmax,在 TensorFlow 中实现 Softmax 结果。
  • 嵌入(80 分钟)什么是嵌入,这是干什么的,怎样用好。

机器学习工程

  • 生产 ML 系统(3 分钟)ML 生产中的宽度

  • 静态 vs. 动态训练(7 分钟)静态和动态训练的优缺点

  • 静态 vs. 动态推断(7 分钟)静态和动态推断的优缺点

  • 数据依赖(14 分钟)理解 ML 中的数据依赖

机器学习现实世界应用示例

  • 预测癌症(5 分钟)
  • 18 世纪文献(5 分钟)
  • 真实世界方针(2 分钟)

总结

  • 后续学习计划
    下一步要学习的内容,推荐了 TensorFlow,Google 的课程深度学习,及 Kaggle 比赛等。

学习地址

https://developers.google.cn/machine-learning/crash-course/?hl=zh-CN