All Machine Learning

Machine Learning Foundations 16: Three Learning Principles

    总结: Occam’s Razer: 简单是好的 Sampling Bias: 小心抽样的偏差 Data Snooping: 小心不要偷看资料         上一节: 很重要的工具 validation,留下一定的验证资料来模拟测试程序,来衡量和选择比较好的训练模型。     这一节: …

All Machine Learning

Machine Learning Foundations 15: Validation

    总结:Validation(验证) 从要选择一个好的模型来做切入:如果用 Ein 做选择是很危险的,但是你没有办法用 Etest 来做选择,我们用 Validation来做选择,我们做了相应的理论证明。 再讲 leave one out cross validation:假设validation最小达到1,然后做很多次取平均结果,理论上结果会比较好,但是这要花很大的计算上的时间。 实际上 leave one out vross validation没有那么可行,常用的是 v-fond …

All Machine Learning

Machine Learning Foundations 14: Regularization

    这里讲的内容: Regularizer hypothesis set 就是在原来 H 的基础上加上条件,这样以后可以把要解的问题转换成 augmented error 的问题,就是把 W 的平方加进去,这代表了我们会降低 effective 的 Dvc,最后我们说到 regularizer 是一个非常 general 的工具,我们可以设计使用 符合目标函数特性的,能说服自己的,又容易优化求解的 …

All Machine Learning

Machine Learning Foundations 13: Hazard of Overfitting

    内容 Ocerfitting 的概念: Ein 变低, Eout 变高 Overfitting 很危险很容易发生,原因是:两种noise,数据不够,目标太复杂 怎么解决 Overfitting:data cleaning/hinting/pruning, 等等,下面的课程继续介绍         上一次我们讲到原来我们的model是线性的,如果我们把linear model配上non-linear的transform,那就产生的非线性的model来扩展我们的学习,代价是付出额外的model的complexity。   …

All Machine Learning

Machine Learning Foundations 12: Nonlinear Transformation

    今天讲的是非线性的变换         上次讲到三个linear model都可以用在各式的classification问题上面,包括二元分类和多元分类的问题。但是这些model的重点是linear的,用线性的方式算一个分数,今天我们要把这个model衍生到non-linear的情况。         Linear hypotheses     如果今天是二元分类的话,视觉上就像切一条线,数学上表示就是 分数 = 权重 * …

All Machine Learning

Machine Learning Foundations 11: Linear Models for Classification

    我们要从之前学过的binary classification开始来看看我们学过的这些model怎样延伸出来处理更复杂的multi-classification的问题。     内容: 证明可以使用 linear/logistic regression 来求解 binary classification Logistic regression 的加速算法 stochastic gradient descent (SGD):做法就是使用随机梯度来替代真实梯度。 分多类的基本方法 One-Versus-All …

All Machine Learning

Machine Learning Foundations 10: Logistic Regression

    内容: 问题模型 推导Ein 找到 w 使得 Ein 最小 通过梯度下降法计算得到最小的 W         上一次介绍的是 linear regerssion,使用平方错误可以很方便的算出来最好的情况在哪里。 今天我们来看一下 logistic regression …

All Machine Learning

Machine Learning Foundations 9: Linear Regression

    内容: Linear regression 的原理和推导过程,就是求解Ein最小化的解。极其重要! Linear regression 的理论 Ein/Eout 平均错误是 2(d+1)/N 证明 linear regression 这个方法可以被用在classification 求解上面,只要其错误衡量是classification的上限         上一节我们讲了再前面花力气证明的二元的VC …

All Machine Learning

Machine Learning Foundations 8: Noise and Error

    如何在有noise的情况衡量错误。     内容: 再有杂讯的情况下,我们使用probabilistic函数来做描述(就是y由直接公式得到变成了几率分布)。 错误的衡量方式方式是和使用场景强相关的,我们考虑plausible/friendly的方式来挑选。 最后说 weighted classification 的理论。         到上一节,我们已经讲完了机器学习最重要的工具Dvc。 如果我们的H集合的Dvc是有限的,我们有足够多的资料,且Ein又很低,那么我们就大概学到了东西。     这里我们将说的是在原来Dvc推倒的时候设立了一些假设,我们怎么样放宽一些假设让Dvc可以应用到更广泛的机器学习问题中去。   …

All Machine Learning

Machine Learning Foundations 7: The VC Dimension

    介绍Dvc是什么:最大的non break point。 从 perception 上来说就正好是 d+1。 从物理意义上来说就是有多少个自由度。 Dvc可以用来决定我们大概需要多少资料,让你不需要再去考虑H的细节,一个变量就决定了其性质。         上节课讲过的:我们可以确保我们的Ein(训练时的表现)和Eout(测试的时候的表现)一致,当我们的成长函数露出一线曙光且资料量足够大。     从这里触发我们可以引入 VC 维度的概念。   …