这是吴军所著《智能时代》的笔记,前一段时间已经读完了,现在整理一下发出来。总体来说是本值得推荐的书。
数据是什么
- 数据:并非所有数据都承载信息
- 信息:对现实的描述
- 知识:系统性
相关性与统计学
其实只要数据量足够,就可以用若干个简单的模型取代一个复杂的模型。这种方法被称为数据驱动方法,因为它是先有大量的数据,而不是预设的
大数据与机器智能
机器智能与图灵测试:通过效果而不是实现方式判断是否智能
鸟飞派:首先了解人类是如何产生智能的,然后让计算机按照人的思路去做。
统计+数据派
- 先驱Fred Jelinek,语音识别
- Google翻译,Franz Och,对同样的方法使用了上万倍数据
大数据的特征
- 大量(Vast)
- 多样性(Variety):通过互联网和多维度解决传统统计中的采样问题
- 全面性(完备性):全面覆盖需要解决问题的可能性
- 及时性(Velocity):非必须
变智能问题为数据问题:通过大数据+统计方法实现对效果的复现
大数据思维
机械思维
- 世界的变化规律是确定的
- 规律可以通过简单公式或语言描述
- 规律具有普适性
机械思维引发了工业革命
信息时代的变化
规律难以用简单原理描述,因果关系难以找到
世界的不确定性
- 简单的规律通过复杂组合后难以处理,可以近似为随机
- 客观世界本身的不确定性:量子力学中的测不准,人类社会的测不准
信息熵:基于信息论,通过引入信息降低不确定性,因此谁掌握了信息,谁就能够获取财富,这就如同在工业时代,谁掌握了资本谁就能获取财富一样。
通过信息论诠释大数据的本质
- 数据量需要大到消除不确定性
- 多维度:互信息和交叉验证
- 完备性:建立模型的数据和使用模型的数据之间要有一致性,两个概率模型的交叉熵等于0
从因果关系到相关关系
大数据商业
相关性、时效性、个性化
通过穷举法解决问题
原有产业+大数据/机器智能=新产业
技术改变商业模式
- 技术革命导致商业模式的变化
- 生产持续过剩,需要通过对服务的需求拉动经济增长
- 商业模式的变化既有继承性,又有创新性
大数据和智能革命的技术挑战
数据的产生
- 用户产生内容
- 物联网传感器
- 历史信息数字化
数据的存储:磁带 - 磁盘 - SSD
- 数据压缩与备份
- 数据格式标准化 Google Protocol Buffer
数据的传输:4G、WIFI、蓝牙
数据的处理:云计算
- 并行计算
- 计算实时性
- 数据挖掘与机器学习
数据的收集:看似简单的难题
数据安全:安全性与易用性的平衡
隐私保护:大数据时代没有隐私,而且大众为了便利会牺牲隐私
未来智能化产业
农业:以色列精确灌溉
体育:通过数据分析指导训练和策略
制造业:特斯拉机器人化制造
医疗
- 降成本:AI医生,新药研发
- 资源短缺:AI医生
- 医疗水平提高:通过大数据研究基因
律师
记者编辑
未来社会
智能化、精细化、无隐私
对生产关系的冲击
- 蒸汽革命:开拓全球市场
- 电气革命:美国的全面开发和德国的世界大战
- 信息革命
- 尚未消化完,还要叠加上智能革命
- 全球化的推进导致没有新的市场
- 代替人类的大脑
被淘汰的产业工人很难进入新行业
成为使用和制造智能的2%,或被淘汰