All Machine Learning

Machine Learning Foundations 11: Linear Models for Classification

    我们要从之前学过的binary classification开始来看看我们学过的这些model怎样延伸出来处理更复杂的multi-classification的问题。     内容: 证明可以使用 linear/logistic regression 来求解 binary classification Logistic regression 的加速算法 stochastic gradient descent (SGD):做法就是使用随机梯度来替代真实梯度。 分多类的基本方法 One-Versus-All …

All Machine Learning

Machine Learning Foundations 10: Logistic Regression

    内容: 问题模型 推导Ein 找到 w 使得 Ein 最小 通过梯度下降法计算得到最小的 W         上一次介绍的是 linear regerssion,使用平方错误可以很方便的算出来最好的情况在哪里。 今天我们来看一下 logistic regression …

All Machine Learning

Machine Learning Foundations 9: Linear Regression

    内容: Linear regression 的原理和推导过程,就是求解Ein最小化的解。极其重要! Linear regression 的理论 Ein/Eout 平均错误是 2(d+1)/N 证明 linear regression 这个方法可以被用在classification 求解上面,只要其错误衡量是classification的上限         上一节我们讲了再前面花力气证明的二元的VC …

All Machine Learning

Machine Learning Foundations 8: Noise and Error

    如何在有noise的情况衡量错误。     内容: 再有杂讯的情况下,我们使用probabilistic函数来做描述(就是y由直接公式得到变成了几率分布)。 错误的衡量方式方式是和使用场景强相关的,我们考虑plausible/friendly的方式来挑选。 最后说 weighted classification 的理论。         到上一节,我们已经讲完了机器学习最重要的工具Dvc。 如果我们的H集合的Dvc是有限的,我们有足够多的资料,且Ein又很低,那么我们就大概学到了东西。     这里我们将说的是在原来Dvc推倒的时候设立了一些假设,我们怎么样放宽一些假设让Dvc可以应用到更广泛的机器学习问题中去。   …

All Machine Learning

Machine Learning Foundations 7: The VC Dimension

    介绍Dvc是什么:最大的non break point。 从 perception 上来说就正好是 d+1。 从物理意义上来说就是有多少个自由度。 Dvc可以用来决定我们大概需要多少资料,让你不需要再去考虑H的细节,一个变量就决定了其性质。         上节课讲过的:我们可以确保我们的Ein(训练时的表现)和Eout(测试的时候的表现)一致,当我们的成长函数露出一线曙光且资料量足够大。     从这里触发我们可以引入 VC 维度的概念。   …

All Machine Learning

Machine Learning Foundations 6: Theory of Generalization

    一般化理论:机器是如何做到举一反三的     内容: 只要你有一个breakpoint,他其实是对未来每一个的数量都加上了很大的限制,也就是上面公式的数学归纳法,最后可以得到上限可以用一个多项式来表示,这个多项式可以取代原来公式中的M,从而证明2维情况下有了一个breakpoint一定是可以学习的。         上一节讲到: 因为M无限大的时候没有办法做机器学习,因此提出了成长函数m来取代M。     这里将探讨两个问题: 这个m到底是不是长得很慢 这个m如果真的长得很慢,那到底其能不能取代M         …

All Machine Learning

Machine Learning Foundations 5: Training versus Testing

    训练和测试过程:     首先把learning拆解成两个问题: Ein/Eout相似;Ein约等于0 然后考虑合并M的情况能有几种,也就是成长函数 growth function 再考虑成长函数的性质,到底从哪里开始出现曙光,就是break point             上一节讲到在一定条件下机器学习是可行的。 这里开始探讨无限大的 h 会造成什么样的问题。 …

All Machine Learning

Machine Learning Foundations 4: Feasibility of Learning

        这里探讨的是:机器学习是否是可行的     一开始说机器学习做不到 但是加上一些统计上的假设,譬如资料的产生方式,表现衡量方法,就可以做推论做验证,就是机器学习。         上一节主要说的是机器学习的分类 这一节首先说什么情况下机器学习做不到,在做不到情况下怎样处理可以变的做得到。         首先看个小问题:     …

All Machine Learning

Machine Learning Foundations 3: Types of Learning

    内容 根据资料输出结果不同来分类:classification,regression,structured 根据资料输出的标记不同来分类:supervised,unsupervised,simisupervised,reinforcement(增强) 根据取得资料的方法不同来分类:batch,online,active 根据资料输入的抽象不同来分类:concrete, raw, abstract         上一节讲到的是对于回答是非题,我们可以采用 PLA 来解决         先复习一下是非题:例如银行要不要给顾客发信用卡,给机器资料,机器给出答案要或者不要。 两种可能性习惯用正负1来表示。 …

All Machine Learning

Machine Learning Foundations 2: Learning to Answer Yes/No

    内容:     线性可分相关处理 详细介绍了 PLA 以及变形:口袋算法         上一讲说的就是     机器学习 通过演算法A学习资料D,从H集合里面选择最符合数据D表现的G     今天讲的是怎么样的机器学习算法可以做是非题?   …