Machine Learning Foundations 1: The Learning Problem | Cheney Shen

Technology blog

Machine Learning Foundations 1: The Learning Problem


 
 

课程基本信息

 
 


 
 

机器学习 学习的两条路径

 
 

理论:数学之美,但是不会用

方法:直接一个一个例子使用,但是不知道该在什么情况下用什么。

 
 


 
 

这门课里面是从基础切入。

每一个学习机器学习的人都因该会的东西。

不代表简单。

 
 

想听一个故事一样听课:

从问题出发,什么时候用得上机器学习,为什么这时候会用机器学习,机器学习是怎么样做的,怎么样让机器学习的更好。

 
 


 
 

NTU课程安排:

 
 

15-17周,每周两小时。

流程图表示的是学生专业分布。

 
 

Coursear课程安排:

 
 

前八周基础,后八周另开一门课讲应用。

从黑板教学变成投影片教学。

 
 


 
 

测验小问题。

 
 


 
 

答案:XXXV

 
 


 
 

开始讲第一部分:

 
 

我们什么时候用机器学习?

 
 

 
 


 
 

到底什么是学习?

 
 

学习是从观察出发,经过脑袋的转化过程,最后变成有用的技能技巧。

机器学习就是模拟上面的学习过程。电脑通过对数据的观察,来变成电脑的处理技巧。

 
 


 
 

技巧是什么?

对于某种表现的增进。

 
 

机器学习的过程就是从数据出发,通过运算得到某种表现的增进。

 
 

例子:电脑通过对股票数据的学习,来获得股票分析的增进,告诉你怎么炒股赚钱。

 
 

在这个定义之下,我们为什么要使用机器学习?

 
 


 
 

这张图里面是什么?

 
 

大家都知道是树,那么我们怎么去定义树?

 
 

如果我们要让机器认知到树,那么我们就必须去定义树的规则。而我们自己去手动的定义这个问题告诉电脑,然后电脑根据这个定义做分析,这个工作量几乎不可能实现。

而作为人的话,比如小孩是自己通过观察去了解到这是树,而机器学习就是来模仿着一个过程,让机器自己去学习了解这棵树,这会比较可行。

 
 


 
 

机器学习有如下方向应用:

 
 

有的系统很难去定义规则,人对其相关工作了解有限:比如火星车会遇到的问题。

人对其规则难以定义和表述:视觉和听觉

人想都没想过的事情:股票高频交易

个性化的提供服务。

 
 


 
 

机器学习的三个关键:

 
 

用来判断这个问题是否适合使用机器学习。

 
 

  1. 有某一种表现可以增进,有学习目标。
  2. 我们不知道怎样写下规则。
  3. 我们要有数据资料。

 
 


 
 

小测验:这些例子是否适合机器学习。

 
 


 
 

答案:XXVX

 
 

第一个表现难以增进,第二个有规则容易看出来,第四个没有数据资料。

 
 


 
 

机器学习应用:衣食住行 四大领域

 
 

从twitter上分析出餐厅好坏

学习怎样搭配衣服好看

预测房子的能源消耗

自动辨识交通信号灯,提升准确率

 
 


 
 

再来例子:教育

 
 

线上答题,系统自动知道学生会了什么,还不会什么,提高再学习效率。

 
 

解决方法:

正确率 = if ( 学生等级 > 题目难度 )

然后通过已有以分类资料来判断

 
 

当年台大拿下比赛第一

 
 


 
 

最后一个例子:娱乐

 
 

推荐系统

推荐给使用者更喜欢的电影

 
 

Netfilx 美国线上最大的电影租借公司

分享数据来让大家比赛,提升推荐解决方案

Yahoo music 也做了类似方法

 
 


 
 

我们怎么决定喜不喜欢这部电影

 
 

一种解决方案:

 
 

喜好 约等于 电影特征组合

人:描述成一串特征数字

电影:相同描述成一串特征数字

内积分数越高则表示会越喜欢

 
 

11 年台大又拿了第一名

 
 


 
 

小测验:哪个领域用不到机器学习

 
 


 
 

答案是都用得到

 
 

机器学习完整流程

 
 


 
 

接下来讲机器学习比较具体的长什么样子,就是机器学习完整流程。

 
 

这边举个例子是银行对信用卡使用者的分析

 
 

上面是一张申请表,机器学习希望通过这些数据来决定要不要给这个人发信用卡。

 
 


 
 

符号表示方法

 
 

X : 输入(申请人)

Y : 答案(要不要发卡)

F : 目标函数(目标,但是得不到)

D : 数据资料

G : 假说函数(机器学习学到的函数,理想就是等于F),然后用G来做判断

 
 

最后是机器学习做法的符号化表示

 
 


 
 

详细过程

 
 

数据资料 -> 机器学习演算法 -> 得到G(fg越像越好)

 
 

G 一般长什么样呢?

 
 


 
 

举三个G的例子:

年收入大于80万的给信用卡

负债大于十万的给信用卡

工作年限小于两年的给信用卡


所有的称H

 
 

机器学习演算法A:

从上面的一堆假设里面找出一个最符合当前已知数据的,当作G

 
 

机器学习模型:A & H

 
 


 
 

机器学习具体定义:

 
 

从资料出发,算出G要很接近期望的f

 
 


 
 

小测验:哪个是哪个表示

 
 


 
 

答案 2

 
 

机器学习和相关领域

 
 


 
 

Data mining:通过数据找出一些有趣的事情

 
 

比较两者定义

 
 

如果 有趣的事情 = f 则 两者一致

如果 有趣的事情 related to f 则相互帮助

DM 通常关注于有效的快速的计算大数据

 
 

两者密不可分

 
 


 
 

AI:通过计算做一些聪明的表现

 
 

机器学习是实现人工智能的一种方法

 
 


 
 

统计学:通过数据做推论

 
 

统计是实现机器学习的一种方法

 
 


 
 

小测验:3是对的

 
 


 
 

总结:这里讲了四个问题

定义

应用

描述

与其他领域的关系

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 
 


Post a Comment

Your email address will not be published. Required fields are marked *

  • Categories

  • Tags