Machine Learning 笔记(一):背景,应用领域,基本概念

人工智能、机器学习,数据挖掘,神经网络之间的关系:


关于课程内容

实践的机器学习和数据挖掘技术

  • 基本概念,核心工具
    • 学习系统的框架, 优化方法, 分类, 回归, 聚类,关联规则,
      链接分析
  • 主流技术,典型实际问题的解决方法
    • 深度神经网络, Boosting/随机森林+决策树
    • 并行化机器学习算法(大数据下的机器学习)
    • 应用: 搜索引擎、推荐系统、图像搜索,量化交易等
    • Kaggle, PASCAL VOC,腾讯社交广告预测比赛,百度快速人像
      识别比赛经验分享

Machine Learning Part

  • Optimization method(优化方法)
    • Gradient descent(梯度下降)
    • Stochastic gradient descent(随机梯度下降)
    • Coordinate descent(坐标下降)
  • Regression
    • Linear regression(线性回归)
  • Classification(分类)
    • Logistic Regression (Parallelization)(逻辑回归(并行化))
    • Boosting + decision trees, Random Forest (Parallelization)
    • Deep Neural Networks(深度神经网络)
  • Clustering(聚类)
    • K-means
  • Recommendation Systems(推荐系统)
    • matrix factorization / field-aware factorization machines

Data Mining Part

  • Association Rules
  • Similarity Search
    • Learning to hash
  • Link Analysis
    • Page Rank

背景

软件的现状

过去十多年,我们开发的软件系统主要是收集数据

  • ERP系统=单据电子化
  • 邮件系统=信件电子化
  • 企业运作产生大量的数据
  • 互联网的网页/图片/视频数据
  • 互联网/移动应用中的用户行为数据
  • 金融行情/交易数据,各种经济数据,上市公司财务数据
  • 监控摄像头(小区,交通,商铺)或其他传感器产生的数据
  • 医疗数据

软件的未来

从收集数据到分析数据,市场上需要“聪明”的软件

  • 能否给我推荐我喜欢的电影/衣服/新闻/游戏/朋友?
  • 汽车/无人机能否自动驾驶?工业机器人能否代替工人?
  • 机器能否理解图片内容、视频内容、自然语言?
  • 机器能否代替人工决策?

工业中的机器学习

  • 大规模数据+人工特征+线性模型为主

    • 高质量的人工特征(特征工程)+并行化训练+高吞吐量
      预测
    • 中等规模的数据,可用非线性模型(如Boosting+决策树,
      随机森林)
  • 深度学习

    • 在一些难以获得高质量人工特征的应用中获得巨大成功
    • 图像/视频/语音/自然语言理解,广告点击率预估
  • 关键技术

    • 并行化(分布式)学习算法,内存/训练时间限制

      典型场景:给你1000台机器, 10000GB数据,要求你的算法在1小时内完
      成训练

    • 高吞吐量预测

      典型场景:每个CPU每秒钟要完成800-1000个预测

    • 模型稳定性

    • 增量训练

  • 机器学习人才需求

    • Developer:负责实现并行化、高吞吐量的算法;特征工程
    • Researcher:设计新的机器学习算法,提升算法的效果(如准确率)

应用成果

  • 微软的“同声翻译”
  • Google 的语言机器人助手
  • AlphaGo 击败人类顶尖棋手
  • 网页分类
  • 垃圾邮件过滤
  • 手写识别
  • 人脸识别
  • 搜索引擎结果排序
  • 机器翻译
  • 广告排序,广告推荐
  • 相似图片搜索
  • 相机中的人脸检测

基本概念

machine learning vs. data mining

  • 机器学习:从数据中自动分析获得规律,并利用规律对未知数据进行预测
  • 数据挖掘:“数据模型”的发现过程,即从数据中发现有用的“规律”

机器学习擅长的典型场景是人们对数据中的寻找目标(规律)几乎一无所知,例如Netflix电影推荐。但是,当挖掘的目标能够比较清楚地描述时,机器学习的方法并不成功。例如“在web上定位人们的简历”,基于规则的方法优于机器学习方法。

机器学习类型

  • 有监督学习 (Supervised Learning):从标签化的训练数据集中推导出预测函数的过程,即对训练数据集中的每个样本,都给出对应的“正确答案”(标签 (label))。

    可根据输出变量的类型分为 分类回归 两类:

    • 分类 (classification):离散变量预测,为定性输出;
    • 回归 (regression):连续变量预测,为定量输出。
  • 无监督学习 (Unsupervised Learning):从无标签的训练数据集中推导出预测函数的过程,即只给定训练数据集,不给结果(标签)。

    • 聚类 (clustering):无监督学习的方法。聚类的结果是产生一组集合,一个集合中的对象与同集合中的对象彼此相似,与其他集合中的对象相异。
  • 半监督学习 (Semi-supervised learning):有监督学习和无监督学习的中间带。对于半监督学习,其训练数据一部分是有标签的,另一部分没有,而且没标签的数据量一般远大于有标签的数据量(这符合现实情况)。隐藏在半监督学习下的基本规律:数据的分布必然不是完全随机的,通过一些有标签数据的局部特征,以及更多没标签数据的整体分布,就可以得到可以接受甚至是非常好的分类结果。

    可根据不同的学习场景分为四大类:

    • 半监督分类 (Semi-supervised classification):在无标签样本的帮助下使用有标签样本进行训练,获得比只用有标签样本训练得到的分类器性能更优的分类器,弥补有标签样本的数据量不足的缺陷,其中标签取有限离散值。
    • 半监督回归 (Semi-supervised regression):在无标签样本的帮助下使用有标签样本进行训练,获得比只用有标签样本训练得到的回归器性能更优的回归器,弥补有标签样本的数据量不足的缺陷,其中标签取连续值。
    • 半监督聚类 (Semi-supervised clustering):在有标签样本的信息帮助下,获得比只用无标签的样本得到的结果更好的簇,提高聚类的精度。
    • 半监督降维 (Semi-supervised dimensionality reduction):在有标签的样本的信息帮助下找到高维输入数据的低维结构,同时保持原始高维数据和成对约束 (Pair-wise constraints) 的结构不变,即在高维空间中满足正约束 (Must-link constraints) 的样例在低维空间中相距很近,在高维空间中满足负约束 (Cannot-link constraints) 的样例在低维空间中距离很远。

开启 Machine Learning 学习之旅!

0%