百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程字典 > 正文

国内AI研究「顶不了天、落不了地」,到底什么是基础研究

toyiye 2024-06-21 12:01 9 浏览 0 评论

机器之心报道

机器之心编辑部

谷歌 AlphaFold 2 在蛋白质结构预测方面取得的一系列重要成果引发了广大科研人员对国内 AI 研究现状的思考,中国工程院院士李国杰、中科院计算所研究员 & 博士生导师包云岗纷纷发表了他们对基础研究的看法。

近段时间,谷歌旗下 AI 公司 DeepMind 开发的 AlphaFold 2 在蛋白质预测领域接连迎来重大进展和突破。7 月 15 日,该公司在 Nature 发文表示 AlphaFold 预测的蛋白质结构已经能够达到原子水平的准确度,并正式开放了 AlphaFold 2 的源代码。

之后不久,DeepMind 再次在 Nature 上发文称他们已经使用新开发的 AlphaFold 预测出了 35 万种蛋白质的结构,并与欧洲生物信息研究所合作建立 AlphaFold 蛋白质结构数据库,将预测结果免费开放给公众。这将涵盖 98.5% 的几乎所有人类蛋白。

AlphaFold 2 在蛋白质预测领域的一系列重大进展吸引了国内科研人员的高度关注,并引发了他们对国内基础研究、理论研究和应用研究现状的反思。

近日,中国工程院院士、中科院计算所首席科学家李国杰在科学网撰写的文章《国内 AI 研究「顶不了天、落不了地」,该想想了》刷屏了各大平台,这是他在谷歌 AlphaFold 取得巨大成果之后对国内 AI 研究的一次深入思考。在文中,李国杰院士主要表达了以下几个核心观点:

第一,他认为蛋白质折叠问题的解决是生物学界和人工智能界长期合作努力的结果,但 AlphaFold 2 的「临门一脚」是取得胜利的标志性突破,它用精确的预测结果显示出 AI 技术在基础科研上的巨大威力。AlphaFold 2 的巨大成功给了我们许多耐人寻味的启示。

第二,虽然我们在国家层面已经高度重视 AI 技术的发展,开展了数据智能、量子智能计算、类脑智能灯基础理论研究,近年来也发表了大量的 AI 论文和专利等,取得了一些显著的 AI 落地成果。但他认为,我们的研究多数是技术驱动、论文导向,目标导向和问题导向的研究较少

第三,在选择科研课题时,他表示:「我们与一流科学家的差距之一是选择可突破的重大科学问题的眼光不够敏锐,布局的科研项目要么是增量式的技术改进,要么是几十年都难以突破的理想型目标。」谷歌研究者在利用 AI 预测蛋白质折叠结构上就充分体现了这种超前的预见性。他还认为使用机器学习的方法全自动地做集成电路的前端和后端设计也有可能在十年左右的时间里取得突破。

第四,AI 学者对人工智能的理解可能出现了偏差,一直以来都在追求机器「像不像人」这个目标,AI 研究普遍存在着模仿人、替换人的思想束缚。但是他认为「理性的人工智能发展模式应该承认人有人智,机有机「智」,要充分发挥机器「思维」的特长,做人不擅长做的事情。

第五,AlphaFold 的重大突破得益于跨学科科研人员的紧密合作,比如机器学习、计算机视觉、自然语言处理、分子动力学、生命科学、高能物理、量子化学。他认为基于最基础科学原理的机器学习需要人类多领域科学家的智慧和机器『智能』有机融合,并将「数据密集型科学发现」作为科研第五范式的雏形

第六,AlphaFold 的成果并没有提出新的科学原理,更像是一项技术集成工作,本质上是一种集成式的工程科学技术。因此,他认为「工程科学技术不只是工具,也不仅仅是基础研究成果的应用,而是在基础研究中可以发挥巨大作用的重要组成部分。

第七,他认为,目前我国大学和企业的人工智能实验室大多遇到顶天顶不了、立地又落不下去的困境。

李国杰院士的这篇文章可以使我们瞥见国内 AI 研究与国外的一些差异以及存在的一些问题,也为今后 AI 的发展道路提供一些可借鉴之处。

对此,中国科学院计算技术研究所研究员、博士生导师包云岗也在知乎发表了文章,表达了他对基础研究的一些看法。经包云岗本人授权,机器之心对他的观点进行了不改变原意的整理

包云岗关于基础研究的看法

包云岗主要从基础研究的定义、基础研究的具化、自研平台 / 材料 / 试剂 / 设备 / 仪器等基础设施对基础研究的作用以及基础研究的管理与组织四个方面阐述了他的观点。

选择合适的「基础研究」的定义

对于基础研究的不同定义,对应的具体实施方式也不同。过去几十年,主要有两种对研究的定义:

  • Vannevar Bush 在线性模型下定义基础研究和应用研究,这种模式就把基础研究看作是一个知识储备池,是技术进步的源泉。在这种定义下,基础研究的作用是产生知识,不需要考虑和具体技术的关系,因此在实施层面,采用广撒网的方式可能是最有效的产生多样化知识的方式。
  • Donald E. Stokes 通过四个象限来定义不同的研究类型,Stokes 把基础研究分为纯粹基础研究(玻尔象限)与「由应用驱动的」基础研究(巴斯德象限)。在实施层面,波尔象限和线性模型下的基础研究基本一致;而巴斯德象限中,要用尖端的基础科学研究来解决迫切、强烈且巨大的现实需求。在实践时,其实通过解决实际问题「倒逼」基础研究——把一些应用问题的底层原理搞清楚,这就属于基础研究。

个人更青睐 Stokes 的四象限模型。对于一个国家而言,「玻尔象限」、「巴斯德象限」和「爱迪生象限」都不可或缺,但其比例应该是随着时代变化而有所调整的。比如二战期间,美国的哈佛大学、耶鲁大学也都是以爱迪生象限为主,哈佛教授都在为美国海军研制新型鱼雷。但二战后巴斯德象限比例则显著提高。

中国的科研在这三个象限的比例还没有测算过,但我判断巴斯德象限还是偏低的。也许现在这个时局下,国家总体上还是应该有规划地提高巴斯德象限的比例。那需求来自哪里?「四个面向」给出了大方向。以面向经济主战场为例,以华为、阿里等为代表的业界领军企业的需求,就是一种很好的牵引。

基础研究可简化定义为「把问题的底层原理搞清楚」

其实波尔象限与巴斯德象限,在具体科研实践时其实是一样的,就是「把问题的底层原理搞清楚」,只是问题的来源有所不同。波尔象限的问题来源主要来自学科自身,如为什么会有量子纠缠现象;而巴斯德象限的问题来源主要来自现实应用,如为什么牛奶会腐败。

从这个角度来看,只要能提出一些未解的问题,那就有潜力做出好的基础研究工作。

高度重视自研的平台 / 材料 / 试剂 / 设备 / 仪器等基础设施对基础研究的作用

我们可能都有一个体会,「第一次」特别困难,比如第一架飞机、第一颗原子弹、第一颗人造卫星、第一款 CPU、第一次火星登陆等等。哪怕曾经有其他国家实现过,另一个国家要实现「第一次」依然很艰难。

为什么?这主要因为「第一次」研发的输出不仅仅的是一款原型系统,而且还需要构建出一套研制该原型系统的技术流程以及相应的平台 / 材料 / 试剂 / 设备 / 仪器等,也就是基础设施。这些基础设施的作用正是「把问题的底层原理搞清楚」,比如为研制飞机建设的风洞,研制 CPU 需要有高精度的仿真器和模拟器。即使在物理、化学、天文等领域的基础研究,现在也都离不开各种尖端设备和仪器,像研究核聚变的 EAST 托卡马克装置、研究天文的 FAST 望远镜等等。

在我从事的处理器芯片设计领域,很多人都看作是纯粹的工程技术,认为这里面没有基础研究。但在我看来,能把一些问题的底层原理搞清楚,就是基础研究。举个例子,苹果最近推出的 M1 采用了约 600 项 ROB,这完全颠覆了传统 CPU 架构设计人员的观念,因为以往 CPU 的 ROB 一般都不超过 200 项。

也许用反向工程思维,可以很快做出一个也具有 600 项的 CPU 架构设计来。但是,你知道苹果为什么敢这么设计?为什么是 600 项 ROB,而不是 800 项?反向工程只是工程技术,但是如果能把这些问题的底层原理彻底搞清楚,那就是 CPU 架构设计领域的基础研究。

真要搞清楚底层原理并不容易,这需要一整套 CPU 架构设计基础设施的支撑——从程序特征分析技术、设计空间探索技术、高精度模拟器、系统仿真技术、验证技术等等;还需要对大量程序特征进行分析,需要收集大量的原始数据,需要大量细致的量化分析,需要大量的模拟仿真…… 这些都是为了把底层原理搞清楚。

某种程度上,相比较于原型系统,平台 / 材料 / 试剂 / 设备 / 仪器等基础设施是更重要的输出。只有具备这些,才能不断地去深入探索各种现象的底层原理,才能支持后续的迭代优化,同时也能成为培养人才的基地。

基础研究也需要管理与组织

虽然很多基础研究是纯自由探索,但很多基础研究也需要管理与组织,例如探测「希格斯」粒子、研制 LIGO 观测引力波等。

DARPA 资助了很多颠覆性创新的项目。我们观察 DARPA 的项目立项与执行过程,可以看到有一些共性特征:

  • 首先会畅想未来;
  • 科学地把未来畅想分解为一系列子任务;
  • 制定具体子任务的实施计划,包括目标、时间节点等;
  • 子任务最后要集成到一个原型系统中。

项目主管(Program Director)负责上述 4 个任务,具有绝对的项目决策权,同时也对项目负责,相当于抓总。

这种模式其实对基础研究也有效。例如,清华大学施路平教授领导的类脑计算研究中心。2014 年成立,成员来自清华不同的院系。他们的研究模式就是类似 DARPA 项目,整个团队围绕「天机」类脑芯片开展全栈研究。从目前的成果来看,类脑计算交叉中心的成果还是很有显示度,也发表多篇 Nature、Science 论文好,入选中国十大科技进展等等。同时他们也把类脑计算这个学科建立起来。

知乎链接:https://www.zhihu.com/question/280235615/answer/2041990732?utm_source=wechat_session&utm_medium=social&utm_oi=56560353017856&utm_content=group3_Answer&utm_campaign=shareopn

相关推荐

为何越来越多的编程语言使用JSON(为什么编程)

JSON是JavascriptObjectNotation的缩写,意思是Javascript对象表示法,是一种易于人类阅读和对编程友好的文本数据传递方法,是JavaScript语言规范定义的一个子...

何时在数据库中使用 JSON(数据库用json格式存储)

在本文中,您将了解何时应考虑将JSON数据类型添加到表中以及何时应避免使用它们。每天?分享?最新?软件?开发?,Devops,敏捷?,测试?以及?项目?管理?最新?,最热门?的?文章?,每天?花?...

MySQL 从零开始:05 数据类型(mysql数据类型有哪些,并举例)

前面的讲解中已经接触到了表的创建,表的创建是对字段的声明,比如:上述语句声明了字段的名称、类型、所占空间、默认值和是否可以为空等信息。其中的int、varchar、char和decimal都...

JSON对象花样进阶(json格式对象)

一、引言在现代Web开发中,JSON(JavaScriptObjectNotation)已经成为数据交换的标准格式。无论是从前端向后端发送数据,还是从后端接收数据,JSON都是不可或缺的一部分。...

深入理解 JSON 和 Form-data(json和formdata提交区别)

在讨论现代网络开发与API设计的语境下,理解客户端和服务器间如何有效且可靠地交换数据变得尤为关键。这里,特别值得关注的是两种主流数据格式:...

JSON 语法(json 语法 priority)

JSON语法是JavaScript语法的子集。JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔花括号保存对象方括号保存数组JS...

JSON语法详解(json的语法规则)

JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔大括号保存对象中括号保存数组注意:json的key是字符串,且必须是双引号,不能是单引号...

MySQL JSON数据类型操作(mysql的json)

概述mysql自5.7.8版本开始,就支持了json结构的数据存储和查询,这表明了mysql也在不断的学习和增加nosql数据库的有点。但mysql毕竟是关系型数据库,在处理json这种非结构化的数据...

JSON的数据模式(json数据格式示例)

像XML模式一样,JSON数据格式也有Schema,这是一个基于JSON格式的规范。JSON模式也以JSON格式编写。它用于验证JSON数据。JSON模式示例以下代码显示了基本的JSON模式。{"...

前端学习——JSON格式详解(后端json格式)

JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScriptProgrammingLa...

什么是 JSON:详解 JSON 及其优势(什么叫json)

现在程序员还有谁不知道JSON吗?无论对于前端还是后端,JSON都是一种常见的数据格式。那么JSON到底是什么呢?JSON的定义...

PostgreSQL JSON 类型:处理结构化数据

PostgreSQL提供JSON类型,以存储结构化数据。JSON是一种开放的数据格式,可用于存储各种类型的值。什么是JSON类型?JSON类型表示JSON(JavaScriptO...

JavaScript:JSON、三种包装类(javascript 包)

JOSN:我们希望可以将一个对象在不同的语言中进行传递,以达到通信的目的,最佳方式就是将一个对象转换为字符串的形式JSON(JavaScriptObjectNotation)-JS的对象表示法...

Python数据分析 只要1分钟 教你玩转JSON 全程干货

Json简介:Json,全名JavaScriptObjectNotation,JSON(JavaScriptObjectNotation(记号、标记))是一种轻量级的数据交换格式。它基于J...

比较一下JSON与XML两种数据格式?(json和xml哪个好)

JSON(JavaScriptObjectNotation)和XML(eXtensibleMarkupLanguage)是在日常开发中比较常用的两种数据格式,它们主要的作用就是用来进行数据的传...

取消回复欢迎 发表评论:

请填写验证码