百度研究院副院长张潼:互联网大数据发展趋势
2015年8月14日,由中国科协、中国科学院指导,中国人工智能学会发起主办的第五届中国智能产业高峰论坛在上海长荣桂冠酒店顺利召开。百度研究院副院长张潼
报告题目:《互联网大数据发展趋势》
以下是报告全文:
我们知道“数据量日益增多”这是一个背景,可能每十年要增长一千倍。以前可能仅是线下数据的增加,而现在为什么互联网在数据量增加的作用反而更大了呢?这是因为在今天大数据的驱动很大程度上是来源于互联网公司,包括:互联网和移动互联网。今后可能还会有传感器网,云端等一系列。但是有一个共同前提,这就是“数据量日益增多”。
“云”的概念,大家现在都很熟悉了,包括:IBM等一系列公司,都对“云”投入都是非常巨大的。还有和我们这个会议有关的,就是人工智能等等一些。李德毅院士讲的非常好,现在的智能基本上是用大数据驱动的,所以我把它叫“大数据智能”。其中一个很重要的是:机器学习,现在很多领域在人工智能包括在产业上,都有一系列的应用。
一个方面就是大数据在人工智能上的应用,这个跟我们的会议比较相关。另外一个方面,就是它的一些创新的应用已经其将来的趋势。从大数据我们要看未来或者今天,从发展上,我觉得主要会有三个趋势。
其一就是“个性化”。其实从整体来讲,我们要谈到大数据,包括大家看一些大数据的书籍都会讲到这个趋势,大数据的应用使我们了解每一个人,包括:有个很经典的例子,比如:一家美国公司,一位父亲接到了一个邮件,说他女儿怀孕了什么的。然后他就很生气找邮件发送者说到:我的女儿还没有结婚等等一些。最后说邮件发送方只能说:“这个我们可能错了”,但是实际上最后发现自己是对的,而那位父亲是错了。从这个例子上,我们可以得知:用数据大家能够非常精准的知道,甚至可能比大家身边的人知道的更多。
其二就是:智能化。智能化在整个的大数据发展是非常重要的。当然,其中可能一个关键因素是由于智能化是一个更加底层的技术。第三个方面就是:产业化。比如:互联网+、工业4.0等等一系列可以挂钩,可以更广泛。所以说,在后面的报告中,我会着重讲这三方面。从“个性化”来讲,往往是针对个人的;对于每一个人,“产业化”是对于工业的,“智能化”算是一个底层的技术。
我们先说一下“个性化”。大数据在“个性化”的发展趋势也是包括几点。之前,我们讨论了个“性化营销”,个性化营销在互联网应用中是非常重要的技术,也是互联网打广告,包括我刚才讲的例子都算是个性化营销,所以在这里面“个性化”起到了非常强的作用。还有在未来,个性化在医疗很重要的一个方面应用。因为我个人觉得,虽然在现在医疗中,大家没有提及“个性化”,但将来、未来会起到非常大的作用。包括美国有一些类似于这样的“个性化”计划,都是针对于医疗。
而在将来、现在也是发生的,“个性化的服务”。怎么去利用个性化,更广泛地做更全面的服务。我可能会主要讲“个性化营销”这一块,“个性化营销”就是其中有一个。比如:在互联网公司里面,举个例子,大家要是“个性化”,反映在什么地方呢?比如:他对于用户可以有很好的理解,通过大家的行为,包括:如果是传统的零售商,通过其购买行为,比如:通过网上的一些行为等。比如:阿里有用户的电商数据,百度有用户的搜索数据,这些都是用户的行为。通过用户的一系列,告诉用户这个人到底是什么样子的,你喜欢什么,将来可能更有倾向去对什么更感兴趣,这个是一种所谓我们叫“用户画像”。把给刻画出来,这是一个最主要的形式。有了客户画像以后,就可以做个性化的推荐和个性化的广告。这里面大家要知道,像广告是一个非常大的、重要的在支撑互联网企业的一个模式,就是商业模式。比如:百度基本上所有的收益都是来自于广告,阿里很大部分收益也是来自于广告,腾讯现在的广告业务也是慢慢起来更多,腾讯还有游戏业务。在这里,“个性化”起到非常重要的作用,我们能够精准的知道每个人想要什么,这样可以更好的推荐。如果用户要知道自己的用户兴趣,然后可以针对某一个用户更好的展现。其中有一个技术,广告的点击行为技术,这里就需要用到“机器学习”知识。
在百度公司中,所涉及到的数据量可以到千亿级,而服务器数量上也是上万台的。对于机器学习而言,就如同当时像李院士提到的大数据智能是一个核心,其前提是大数据,后面才有一系列的机器学习。这包括:用户可以有很好的计算,可以有更复杂的模型等。其次还包括:有很好的算法、在现有的时间内、现有的计算时间有很好的结果等。说到大数据在智能化上会起到的作用,这是一个未来的十年之内比较大的趋势。其中重要的一点:就是机器学习的能力。 诸如:百度等很多公司,都会投入很多的力量把大数据的智能化应用,就是将其作为做前沿研究,并设计实现更好的学习系统。还有一点就是:把这样的能力变成实际应用,即:做智能化的系统。从机器学习能力来看,到目前为止有一个比较经典的案例可以看出大数据在机器学习上的作用。
关于大数据机器学习案例包括:图象分类,ImageNet。在我们之前做了一些机器学习的模型都是基于浅层的模型,当时在这个数据上取得了百分之七十几的准确率。几年之内,它的错误率从20%几可以降到5%、6%。
我们用了大数据和复杂的模型,你需要有GPU等等一系列的更好的计算,更好的高效的算法,这样你就得出了一个非常强的系统,这个系统可以支持你的智能化。这里的智能化不仅是图象识别,还包括:语音、广告等等一系列,现在都是有这种智能化趋势。我们希望如果要是做这种底层的技术,能够产生智能的技术,我们希望把数据量加大,希望尝试更为复杂的模型,希望把计算能够在同等计算能力的情况下,能做更强的计算。这几个趋势,是目前很多的研究方向,而使我们整个的智能技术等方面得以集体提升。
对于百度本身来讲,搜索引擎技术其实就是一个智能化系统。它会为了提升用户体验,包括将来的“自动应答”体验等,也包括商业变现的广告系统等等一系列应用。在此,我认为智能化的技术在未来有一些关键的方面,特别是在人和物理世界相交换,机器能够从虚拟世界到物理世界的连接,包括机器人等等一系列;其中之一就是感知技术。比如:图象识别,语音识别等等一系列,还有自然语言识别等。然后,用户要能够理解对方的意义,把他变成一个“表示”,而这个“表示”就是能够自动的进行推理。另外一个关键点就是交互,对于智能化系统而言,其交互技术的实现也是非常重要的。所谓的交互就是用户和人进行的一个交流;尤其可见,“表示”和“交互”就是一个是使你能够更好的理解另外一个也是可以辅助的关系。最后还有一个就是用户决策。决策就是需要用户做的事情,用户能产生行动或者产生一个相应。这个包括:用户连接本身人还有其它的知识,这里面包括:用户要做分析、做决策等等,然后最后产生一个结果。其实搜索也是有类似的技术,或许将来可以有更好的其他技术。
我举个例子,搜索目前你就是输入文字进去,这是最主要的形式,其实,我们还可以用语音或者图象搜索。另外,用户还要把清楚语意。目前在搜索上交互用的比较少,但是实际上是应该有的。一方面,交互就是你搜了一个选项或者关键词以后,也许用户还会知道其它的方面内容提示,他(搜索引擎)会提示到:也许用户检索的是另外一个关键词或者是选词等等。然后,从行动上来讲,搜索就是根据所有的信息内容,包括之前的信息提示给用户做最好的搜索结果。 从这个方面来看,现在这些形式在搜索上其实是相对简单的。将来这里面可以做的更好的形式,这时候“更好”的一个就是设计者可以做出一个趋势,你要说机器人也行,说助理也行。可能大家都知道的话,也是因为动画片《大白》这里面是个人的健康助理,它是一个垂直领域的。百度也在做一些尝试,有一个比如:小度机器人。这些尝试希望可以集成到更好的,更加智能化的,然后可以有更好的用户体验,它可以比搜索引擎要更加进步能力。对于技术方面,比如:要使得具有个性化,包括我们前面提到的大数据个性化,包括“认知技术”,用户怎么去感知和交流。如果有这么一个助理的话,他希望和用户交流,包括:要资源整合。然后,我们可以有分析,接着处理一些需求。这里资源整合的意思,就是用户要知道什么地方有东西能够满足客户的需求,这个资源可以是线上资源,也可以是线下资源,然后搜索引擎会有这种努力。所以未来、将来就会有更加好的形式,能够满足用户想要知道的事情。
另外一个趋势,就是大数据的产业化。产业化其实有很多,包括:广告营销实际上算是一类,这跟“个性化”关联非常强。还有人工智能技术,人工智能技术也可能会产业化。另外就是大数据对于产业升级,还有整体社会上的作用。当然,产业化还有一些对科学技术将来会有非常大的影响,所以我这里还要讨论一下在互联网以及大数据技术对于产业上,对于社会变革能够有一些什么作用和影响。 这里面产业化,我觉得也是有几个重要的机会点,这个机会点其实在各个领域现在都有人在尝试,后面我也会举一些例子。其一,做智能连接,这是最早提出做“互联网+”的本意。互联网本身还是从把人连接到某种事情,是做智能的连接。现在希望人连到线下资源。其二,人机互补。大数据的智能技术要帮助人来辅助决策,就是人和计算机交流,而不是说计算机完全解决。也就是说:让人做原来做不了的事情,这使得人变的也很重要,但是计算机是能够辅助人。
最后是数据创新。其实所有的这几个事情的核心就是“提升效率”,这是因为传统的方式做事情有一些低效的地方。你就想在什么情况下是低效的,我们怎么能够提升效率、改变效率而使其变得高效,这是最核心的地方。而如果要是任何对我们想要知道机会的时候,进行这个思考,只要你觉得什么地方有机会能够提高效率,都应该是值得去尝试、值得去做的,所以这里面也是有很多的机会。实际上从互联网的思维,是连接的思维。它是把互联网从连接线上到线上,到连接线上到线下。可以做一些服务,比如:可以做医疗、出行、餐饮等等一系列的。怎么去用互联网增加它的效率?这是它的核心点,把效率增加。
一个例子,中国有嘀嘀,国外是Uber,它是连接人和车。这个大家可能都熟悉,但是其中有一个智能技术就是“智能发单”,当客户人过来了,他去要一个车,他周围可能有很多个车,但是客户需要知道哪一个车是最合适的,最大的优化效率,或者最愿意接单,或者是其整个的环境更好。 还有一块是“智能定价”,在Uber还是比较典型的,比如:上下班的时候定价会高。这些东西从本意,都是提升整体的行业效率。还有就是智能的需求,他能知道什么地方可能更好,告诉出租车司机客户可能去哪个地方等等一系列。像Uber买了SMU的一个整个实验室,他们想做智能驾驶,如果真的做成了,将来就直接用无人车来接就行了。实际上像这种新兴的互联网公司,像Uber这样的实际上既是一个大数据公司,也是一个人工智能公司,而且还有很多的技术含量在这其中。
另外一个是“人机互补”,美国也是有一个比较重要的公司在做这件事情,就是Palantir。大家如果看到过《从0到1》,也应该对Palantir科技比较熟悉。的确他们已经在很多地方在用了这样的技术,他们的思路就是用人和机。机器不是解决所有的问题,但是机器可以和人相对配合,用人快速的定位信息,快速的查找相关信息,帮助人来做决策。所以人能够很快的,从海量的信息里找到最关键的信息,找到最合适的信息,然后帮助用户来实现其所需要的目标。Palantir公司还去找一些保险金融的欺诈,这是他们原始的,因为原来他们做过一些金融欺诈的一系列的工作。这说明:首先,人机互补要包含了很多技术,一个就是大数据的技术在这里面,然后还有智能的查询,可视化的技术、关联分析,异常报警。如果你要用大数据辅助人,这些都是一些比较重要的数据。 百度也做过一些类似的应用,比如:用百度的地图数据,能够做一些相关的互补,包括“智能城市管理”。比如:用户可以做人口管理、城市优化、城市网络分析优化等等。百度本身是有定位数据,所以他知道人去了哪儿,他完全不需要知道外面的,只是从百度的数据人在地图上搜了些什么地方,他去了哪儿。这也属于人机交互、人机辅助的思想。包括用户可以对上海的外滩事件进行分析,也做过类似的尝试。包括:用户可以做智能选址。商业需要知道在哪个地方最合适开一个店怎么办?这里面也是可以运用这些数据,做辅助决策。这是一个很大的方向。
还有一些大数据的发展趋势就是“行业创新”。行业创新里面,用大数据怎么去把原来一些行业不是很高效的地方变得更高效?这里面我想说一点:当时百度曾经做了一系列的预测项目,我们也是辅助一些各个地方,其中有一个就是旅游景点的预测。比如:现在这个景点里面有很多的人,然后我们来预测人数等等一系列。当时还有一些报道。还有一个就是我们做的一些关于大数据在医疗上的一些创新。互联网也是愿意切入医疗,其实医疗主要有三个方面应用;一个就是病前,可能是用户希望知道一些基本信息。另外就是患者就医,就医现在的一个痛点就是“挂号”。也在尝试怎么利用互联网的方式解决挂号的问题。还有康复,康复包括一系列用户需要查询等等一系列的一些交互等等。
从我们研究来看,开始的就是从问诊开始。如果用户要是有一种疾病,他就会去咨询;但是很多情况下,很多病人都会愿意在互联网上去咨询。但是搜索现在这种形式并不是最好的,所以我们尝试的一个,就是说是把这个变得更加高效,而且更加自然。一方面:就是设计一套预诊系统。这一系列的流程并不是为了取代医生的,是为了给病人更好的体验,使他了解更多的疾病诊疗信息。
其次,就是尝试打通关于和零售业的一些线上和线下的交流。零售业关心的一个主要问题是如何带来客户,然后才是怎么维持客户。一方面从线上和线下的角度来考虑这个问题,从线下的客户,我们可以帮助找到他线上的行为;而线上的行为,当然零售业用的是线下的数据,这里面不但有线下的数据也有线上的数据。线上的数据可以找到相似的客户,知道这些商家什么客户对他的价值最高,这样可以带来新客户,而且价值是更高的。
未来的社会将是怎么样子?如果我们要是从大数据的角度来讲,一方面是“个性化”。这里的个性化提到的就是当数据足够多,如果用户要是有个地方有能力做这些数据的整合,这个当然难度还是比较大的,因为数据有很多问题,一个大的问题就是数据孤岛。虽然用户有好多不同的数据,这些数据没法整合在一起。但是如果我们做到这一点,机器也许比用户更知道他自己,或者比你周边的人更知道你自己。另外一个方面就是:“智能化”。智能化将来可以帮助使用者从人来讲,可以更好的来理解自己、帮助自己和进行交流,帮用户做决策。 也许有一些工作可能机器会替代人工,包括人工驾驶。这里指的不完全是替代,也许是辅助人工,包括我们刚才提到的辅助决策。总体来讲,它会比人工的效率更高。
最后一方面就是“产业化”,产业化一块“科学性”,在本报告中,我就没有过多涉及到,但是科学的发展我相信在大数据的年代会有加速的发展且会使其有更大的提升。最后一个方面就是“产业的升级”。产业升级包括:传统产业的连接项,现在的“互联网+”,包括产业在工业上的应用。 谢谢大家! 本文由人工智能学会供稿
页:
[1]