Machine Learning Foundations | Cheney Shen | Page 2

Technology blog

Archives

Machine Learning Foundations 6: Theory of Generalization


    一般化理论:机器是如何做到举一反三的     内容: 只要你有一个breakpoint,他其实是对未来每一个的数量都加上了很大的限制,也就是上面公式的数学归纳法,最后可以得到上限可以用一个多项式来表示,这个多项式可以取代原来公式中的M,从而证明2维情况下有了一个breakpoint一定是可以学习的。         上一节讲到: 因为M无限大的时候没有办法做机器学习,因此提出了成长函数m来取代M。     这里将探讨两个问题: 这个m到底是不是长得很慢 这个m如果真的长得很慢,那到底其能不能取代M         首先回顾一下m的定义: 这个有 N 个资料的 h 到底最多能有多少个 dichotomies(二分) Break point就是第一个小于 2 的 N 次方个 dichotomies 的地方     再是四个上次的举例的情况回顾。     上次讲的一个非常重要的知识点就是:当k是breakpoint的时候,K + … 都是breakpoint。         假设: 我有一个hypotheses,他最小的breakpoint在2的地方。意思就是任意取h中两个点都不存在完整的四种情况(oo/ox/xo/xx)。     也就是说:…

Read More

Machine Learning Foundations 5: Training versus Testing


    训练和测试过程:     首先把learning拆解成两个问题: Ein/Eout相似;Ein约等于0 然后考虑合并M的情况能有几种,也就是成长函数 growth function 再考虑成长函数的性质,到底从哪里开始出现曙光,就是break point             上一节讲到在一定条件下机器学习是可行的。 这里开始探讨无限大的 h 会造成什么样的问题。         当前的learning的整个流程图: 学习算法透过学习资料和g,通过前面的概率理论基础选择一个h。 上一节加上了两个条件: 训练资料和测试方法都来自同样的足够大的资料集,保证Ein、Eout相似 选一个Ein最小的h就可以得到一个Eout最接近0的最好结果 即可达到学习的效果。     上面12分别解释一下其实就是: 让Ein 接近0,让结果符合当前资料 让Ein 接近 Eout,让结果符合未知的资料,测试更准确         回顾一下过去四堂课学的内容 我们的数据符合的是位置的规则f,我们的盐酸法希望找出的是g,两者接近。也就是Eout(g)接近0。 我们从已有的资料可以让 Ein(g) 接近0。 我们是在一个很特定的情况下去做机器学习,就是有哪些学习类别。 处理Ein/Eout的关系:Eout 接近 Ein 最好  …

Read More

Machine Learning Foundations 4: Feasibility of Learning


        这里探讨的是:机器学习是否是可行的     一开始说机器学习做不到 但是加上一些统计上的假设,譬如资料的产生方式,表现衡量方法,就可以做推论做验证,就是机器学习。         上一节主要说的是机器学习的分类 这一节首先说什么情况下机器学习做不到,在做不到情况下怎样处理可以变的做得到。         首先看个小问题:     上面三张属于 -1 类,下面三张属于 +1 类 则下面的你会判断属于哪一类         答案是非常多的,根据不同的分类方式得到的结果是不同的。         再来一个例子:     输入是一个三个维度的向量,输出还是正负1 然后给了你5笔资料,则g会是怎样的?     做法可以是: 列出所有的可能性,然后标注5比资料,然后找一条线来区分资料。(类PLA算法)         你会发现符合5个资料的结果非常多,用他们再用来预测其他,结果会完全不一样。     想一下你会发现: 我们想要的不是把已知的都答对,而是对于未来的结果答对的最多。…

Read More

Machine Learning Foundations 3: Types of Learning


    内容 根据资料输出结果不同来分类:classification,regression,structured 根据资料输出的标记不同来分类:supervised,unsupervised,simisupervised,reinforcement(增强) 根据取得资料的方法不同来分类:batch,online,active 根据资料输入的抽象不同来分类:concrete, raw, abstract         上一节讲到的是对于回答是非题,我们可以采用 PLA 来解决         先复习一下是非题:例如银行要不要给顾客发信用卡,给机器资料,机器给出答案要或者不要。 两种可能性习惯用正负1来表示。         用图来表示就是给出一堆有标识的点,机器会把区域划分成两部分分别表示正负1的区域。划分可以是直线曲线甚至其他不规则划分方式。     二元分类是最基本的问题。         那么如果我们今天不是要把问题分成两类,就是多类问题。     譬如分美元铜板,有四种。 如果我们给机器的是硬币的重量,如图所示,我们希望机器可以通过相关数据分硬币为四类。这就是 multiclass 问题。     其他例子: 手写数字分类 0-9 一张图里面是什么水果 电子邮件分类:重要的,社交的,广告的,等等     Recognition 领域有非常多的应用。      …

Read More

Machine Learning Foundations 2: Learning to Answer Yes/No


    内容:     线性可分相关处理 详细介绍了 PLA 以及变形:口袋算法         上一讲说的就是     机器学习 通过演算法A学习资料D,从H集合里面选择最符合数据D表现的G     今天讲的是怎么样的机器学习算法可以做是非题?         先来复习一下机器学习流程图     那么具体的H会长什么样?         这里给大家介绍一个模型:     每个使用者一个x是一个向量,每一个维度表示的是一个衡量值。 我们把维度综合起来算一个分数,分数总和超过一定的数值就过关,给他发信用卡。     分数 = 加权和(维度x * 维度重要性权值w)     这里我们用两个值来表示:好的(1)不好的(-1) 这样判断就可以公式化为h:sin(上面的加权和 – 门槛值) 结果就可以来判断好坏     h…

Read More

Machine Learning Foundations 1: The Learning Problem


    课程基本信息         机器学习 学习的两条路径     理论:数学之美,但是不会用 方法:直接一个一个例子使用,但是不知道该在什么情况下用什么。         这门课里面是从基础切入。 每一个学习机器学习的人都因该会的东西。 不代表简单。     想听一个故事一样听课: 从问题出发,什么时候用得上机器学习,为什么这时候会用机器学习,机器学习是怎么样做的,怎么样让机器学习的更好。         NTU课程安排:     15-17周,每周两小时。 流程图表示的是学生专业分布。     Coursear课程安排:     前八周基础,后八周另开一门课讲应用。 从黑板教学变成投影片教学。         测验小问题。         答案:XXXV         开始讲第一部分:…

Read More
Page 2 of 212
  • Categories

  • Tags