招标管理
当前位置主页 > 招标管理 > 中标公告 >

UC Berkeley 机器人与工程实验

来源:未知  发布时间:2018-08-24 12:20

  雷锋网 AI科技评论按,北京时间10月19日凌晨,DeepMind在Nature上发布论文《Mastering the game of Go without human knowledge》(不使用人类知识掌握围棋),在这篇论文中,DeepMind展示了他们更强大的新版本围棋程序“AlphaGo Zero”,掀起了人们对AI的大讨论。而在10月28日,Geoffrey Hinton发表最新的胶囊论文,彻底推翻了他三十年来所坚持的算法,又一次掀起学界大讨论。

  究竟什么是人工智能?深度学习的发展历程如何?日前,雷锋网 AI科技评论邀请到UC Berkeley机器人与工程实验室讲座教授王强博士,他为大家深入浅出讲解了何为人工智能,深度学习的发展历程,如何从机器感知向机器认知演进,并解析了AlphaGo与AlphaGo Zero的原理、学习过程、区别等。

  嘉宾简介:王强博士,本科毕业于西安交通大学计算机科学与技术专业,后获得卡内基梅隆大学软件工程专业硕士学位、机器人博士学位。美国货币监理署(OCC)审计专家库成员、IBM商业价值研究院院士及纽约Thomas J. Watson研究院主任研究员。IEEE高级会员,并担任了2008、2009、2013及未来2018年CVPR的论文评委,同时是PAMI和TIP两个全球顶级期刊的编委。王强博士在国际顶级期刊发表了90多篇论文,并多次在ICCV,UC Berkeley 机器人与工程实验室讲座教授王强:Deep Learning 及 AlphaGo Zero(下) 分享总结CVPR等大会做论文分享。其主要研究领域图像理解、机器学习、智能交易、金融反欺诈及风险预测等。

  以下为他的分享内容,本文为下篇,主要内容是对AlphaGo和AlphaGo Zero详细的解释说明。上篇请参见:UC Berkeley 机器人与工程实验室讲座教授王强:Deep Learning 及 AlphaGo Zero(上) 分享总结

  今年9月19号,DeepMind在Nature上发表了一篇论文,这篇论文是在人工智能、深度学习上具有颠覆性的文章。

  我先说AlphaGo,AlphaGo其实是由两个网络组成的,第一个是人类的经验,第二个是双手互搏、自学习。第一部分是监督策略网络,第二部分是强化策略网络,还有一个价值网络,再加上rollout网络,即快速走棋的网络,这四个网络再加上MCTS,就组成AlphaGo。

  在AlphaGo里面输入了将近48种规则,但在AlphaGo Zero中,它的神经网络里面的输入只有黑子和白子,而且输入进的是一个网络,不是两套网络。这里所说的两套网络就是指价值网络和策略网络。AlphaGo和AlphaGo Zero的共同点是都用了MCTS。

  在这里会想到一个问题,为什么AlphaGo和AlphaGo Zero都会用到DCNN神经网络。

  第一,大家都知道解决围棋问题是比较有意思的,围棋是19个格,19×19,361个落子的可能性,这时候落子可能存在的向量空间就是361乘以N,这个向量的状态空间几乎是无穷无尽的,大概计算量是10的171次方,用100万个GPU去运算100年也是算不完的。

  第二,在这里MCTS的搜索方法是无效的。MCTS的搜索方式在这里我通俗地讲解下,随机拿一个苹果,和下一个苹果进行对比,发觉到哪个苹果比较大,我就会把小苹果扔掉,然后再拿这个大的和随机拿的下一个苹果去对比。对比到最后,我一定会挑出一个最大的苹果。

  第三是我们希望走棋的时候的探索空间必须要缩小,要看这个子落下之后另一个子有几种可能性,不要说别人下了一个子之后还有360个空间,那这360个空间里头都有可能性。DeepMind比较厉害的地方是做了一个随机过程,而不是说在三百多个里选哪个是最好的,这个用计算机是算不出来的。

  第四个问题,它必须要做一种类似于人类下棋的方法。那么刚才有朋友问到什么是端到。

地址:重庆市南川区金山大道19号中铝泰园1幢  电话:023-71451999 传真:023-71416180
Copyright 秒速飞艇投注网站_秒速飞艇彩票投注平台——秒速彩票十大平台  版权所有 备案号:渝ICP备08001132号|网站地图