本文作者:xinfeng335

潘毅:大模型的优势和挑战

xinfeng335 2023-11-23 32
潘毅:大模型的优势和挑战摘要: 专题:第25届中国国际高新技术成果交易会_中国高新技术论坛  中国高新技术论坛于11月15日-17日举行。深圳理工大学计算机科学与控制工程院创院院长、中科院深圳先进院首席科学家...

专题:第25届中国国际高新技术成果交易会_中国高新技术论坛

潘毅:大模型的优势和挑战
(图片来源网络,侵删)

  中国高新技术论坛于11月15日-17日举行。深圳理工大学计算机科学与控制工程院创院院长、中科院深圳先进院首席科学家、美国医学与生物工程院院士、俄罗斯工程院外籍院士、欧洲科学与艺术院院士潘毅出席并演讲。 

  以下为演讲实录:

  谢谢王老师的介绍,各位老总,各位朋友们,大家好!

  今天我介绍的就是AIGC,大家知道AIGC这个领域自从有了ChatGPT以后非常火,我们介绍一下我在这里面做的工作。昨天李彦宏在西丽湖论坛讲到一个问题,现在是模型太多,应用太少,我也这么认为,所以我今天讲的就是我们做的应用,但是我们做的应用是在ChatGPT以前就做,所以不是吹牛,是追赶潮流。我来介绍一下,当前ChatGPT是一个程序,是AIGC里面的一个东西,现在我们用AIGC来产生音乐、图像都很好,当然我们也有很多大模型,特别是meta的模型都不错,大家都在用。有些公司用LLAMA。我觉得这是操作模型,我们用模型没关系,把自己的应用做得好才是标准。

  我讲一下AIGC的问题,原来人工智能只能做1和0的区别,AIGC突然可以产生内容了,老百姓用得更好,写一个文本确实非常好,也可以搞电影,搞音乐,甚至产生话语,这是改革性的革命,非常好,所以我们现在的大模型很多,每个公司都在搞,包括清华的唐杰的模型也不错,但是我没有测试过他的模型,是否跟ChatGPT一样,我不清楚。昨天李彦宏说要支持大模型,要去用文心一言,我觉得对,只是去用才能鉴别哪个好,哪个不好,我们现在用的是Open AI的ChatGPT为主的模型。

  华为的云大模型也是这样的情况,里面包括很多模块,它也是底层逻辑加上上面的行业逻辑,再加上应用逻辑,我今天要讲的是有了底层逻辑与行业逻辑,比如农业和医疗里面,医疗里面还有场景,我们要怎么样去做。在一月份的时候,ChatGPT出来的时候,有一个对我的访,我当初就说ChatGPT肯定是太消耗CPU了,今后的可能性一定是专有的GPT,比如写个诗歌,你就把李白、杜甫的诗歌放进去产生的新诗歌。我和黄旭东在新加坡讨论,他给我一个例子,他说专用GPT很好,但是有缺点,比如LawGPT是法律的,涉及到医疗还需要配合BioGPT。律师找相关资料需要用LawGPT和BioGPT。我平时用自己的LawGPT,需要的时候出去用ChatGPT调用一下资料,问题导回来以后再用lawGPT,可以省钱。他的意思就是一个臭皮匠合成诸葛亮的概念,这个概念很好,文心一言做不好的地方,可以到别的地方调用信息来做,这是一个方法。    最近美国有一个4岁的孩子,看了很多的医生,17个医生看不懂一个病,ChatGPT诊断以后出来了诊断。这个案例告诉我们,ChatGPT有一个功能,但是一定要有一个检查功能,以后我们问题产生后,我们要有一个检查功能,比如说最近美国有一个法律的律师的证据是的,我们要一个辅助工具帮助,我们医生是ABCD六种疾病,ChatGPT判断出第七种,医生要去检查是否是真的。现在哈佛有一个实验,ChatGPT给出的癌症治疗建议有62%还是比较不错的,也就是说ChatGPT还是给出建议,哪怕有50%有错误,人工进行检查之后还可以用,但是不能百分之百的信赖,它的东西还是有错误的。这里面是具体的数据,60%是怎么得来的,很多东西还是比较准的,请看这个表。比如哪个时候吃药、休息等等。

  大模型有很多优势也有很多挑战,我最近提出一个问题,人工智能的挑战在哪里呢?除了算法、算力、数据三驾马车,我又加了三个,叫赋知识识、可解释、低能耗,为什么叫赋知识?就是我在能源上用的AI和医疗不一样,你不懂医疗就做不好,所以大模型只是一个框架,一定要在行业和领域用得好。我今天举两个例子,我们把我们做的工作给大家介绍一下。我们BIOTECH里面的生成式内容有数据恢复、信息学、文献摘要、创新药设计等等。我现在用了两个例子,比如说文献摘要,你把这个文章灌进去以后,它给你产生的内容给你记录。创新药我举一个例子,我今天讲的是这么一个故事,我们做了一个自闭症的语言模型的向量库的系统,底下是LLM,模型是别人的,我们在应用。比如一个自闭症的家长问一个问题,医生的知识是有限的,比如问他自闭症是父母产生的吗,自闭症跟家族有关系吗,是哪一年产生的?ChatGPT都可以回答。我们做了一个什么系统呢?因为ChatGPT有一些胡说八道的问题,我们用专业只是的文章,我们不看别的文本,我们输入一百篇专业知识有关联的自闭症的文章,我们这个系统做出来以后,回答出来的东西就比较准确,也就是说它要么回答不出来,当然说不知道。还有可能就回答出来基本上准的,因为它是一百篇文章搜集出来的东西。当然也有缺点,缺点就是知识面局限,只有这一百篇文章。ChatGPT的文献是几十万的文献进去的,它都有各自的问题,我们下一步要做的就是看看我们的系统和ChatGPT究竟好还是不好,这个质量很难判断,比如我有一个系统产生一个答案,ChatGPT产生的好,还是我们好,这是人类很难回答的问题,因为我们不能用数量来回答,因为这个是文字的,所以今后也可能用五个专家来评分,如果五个专家有四个认为好,我们就可以确定。我们最终是一百篇自闭症的综述、文件输入进去,我们来训练。我们这个系统的好处是模型是别人的,我们只有一百篇论文,数量比较少,时间比较短,还是有优点的,大家可以从这个意义上学一下,从这方面看还是有很多好的好处,至少时间训练少。

  下面我要讲的是一个药。大家知道制药是很费钱的,今后AI制药,你看这个曲线,今后是AI制药来预测药和制造药方面,AI制药也是时间长,钱花得多等等。今天我要讲的故事是用AIGC,就是ChatGPT出来以前我们已经做的工作,我们用药物数据库、蛋白质数据库、疾病数据库、集成数据库等等产生药,这就是我们的先进性,ChatGPT还没有产生,我们已经做了。大家设想一下,这个故事就是这样,ChatGPT再造就是一个模型再造,我们的输入的李白的诗歌产生一个新的诗歌,无非就是把老的诗歌打乱产生一个新诗歌,这个药也是一样。我们看看这个药怎么做呢?我们用了深度学习等等,什么叫药?药实际上就是有一个靶标,有一个匹配的分子给它吻合,就是非常融合得好,这就是药。再举一个例子就是咬合点,蛋白的一个靶标,这个靶标是生物学家告诉你,药就是把它怎么咬合,就是这样找到这个药。

  这里面我举一个例子,这个药就是一个钥匙,靶标有了,药有了,我怎么找到这个钥匙开这个锁,这个钥匙就是用生物做实验,要做几万次、几亿次,一个一个去做太花时间,计算机怎么做?我就一个一个试,很快试出来,很快做好了,钥匙找到了,生物学家就做实验了。这个故事就是这样,我们现在蛋白质已经有预测的结构,AI设计的蛋白质也已经有很多的算法,怎么去设计AI算法。

  我今天讲三个故事,匹配的项目、作用、预测,也就是这个蛋白质跟我的匹配,我们这篇文章就是我们的AI可以预测这个靶标和里面的关系预测,我们的文章牛,牛在哪儿?意思是我们质量高,做好了以后,下面人家找不到的小分子,我们找到了,这个不具体讲。接下来我讲的是筛选药,我们BIOTECH上面找到筛选的药。还有是病毒的S蛋白和ACE2蛋白质,我们用8888个小分子库,进入以后,经过我们的筛选以后减成5个,最后一个一个层次,每个软件层次减少,什么叫减少呢?有没有紧密,紧密了,我们放进去。有没有稳定性?什么叫稳定性?就是它的能量很低,稳定很好,放进去,能量很高,稳定性不好就抛弃,最后找到5个。5个以后就做生物试验,两个红的是最后成功了,就是生物试验告诉我们这两个紧密合作,也就是说AI起的作用是原来8888个要做几年,要花费几亿才能找到这两个,现在AI马上找到5个,做出两个就成功,这个就是我们要做的工作。

  下面我来讲讲小分子问题,我们知道如说这是一个ChatGPT,诗歌进去产生新的诗歌,同样的内容呢?想想别人的小分子已经找到了,癌症有关小分子,我把它打乱,把它小分子弄成一段一段小的,把它输入进去以后产生新的小分子,新的小分子有可能是更好的药,李白的诗歌进去产生诗歌,当然有可能是臭的诗歌,比他差,当然也是一个新型的诗歌,也不错。我们的药也是一样,老的进去打乱产生新的药,这就是小分子设计的概念。这个工作我们在2021年做了,在2022年发表了文章,是在ChatGPT以前恩。大家可以看到这个关键就是小分子进去产生新的小分子,新的小分子也有可能产生新的药,所以我们用了三个概念,三篇文章,这三篇文章都是2022年发表的,意味着ChatGPT还没火,我们用AIGC,人工智能产生内容,我们已经产生新药,设计药。设计药什么意思呢?这个概念就是把老药打进去以后,我们始终在那儿转,产生新的小分子,产生一万个新的小分子,很可能都是旧的,但是这一万个其中有两个跟靶标契合,我们就成功了。也就是李白的诗歌进去了,产生一万个诗歌,但是有一个诗歌王族喜欢,这个诗歌比李白更好,有一个诗歌李总认为更好,就够了,我们的靶标无非就是有一个诗歌,有一个小分子跟靶标匹配就行了。我们最后发现有有的小分子产生确实生物试验还是不错,就是匹配得很好。当然一个药匹配只是万里长征的第一步,最后还要毒性等等,还要很多的系统做。

  下面是多肽药和小分子不一样,它是比小分子大一点的药,我们也可以把它一段一段放进去,就像诗歌把它弄成一个一个词汇,词汇弄进去打乱之后产生新的词汇,就是新的诗歌。以后元宇宙可以让我们所有的体外实验、动物实验、临床实验用数字来做,也许能更好。所以今天我讲的人工智能生成内容就是用在医疗上,第一个我产生的文本比ChatGPT有可能质量高,但是计算量少得多,因为一百篇,当然今后有一千篇跟自闭症有关的输入。ChatGPT是输入所有的东西,我是一百篇好的文章。第二是内容生成,我进来是旧的小分子,我产生一个新的小分子,有可能产生新的药,药库里面有四万种药,我产生一个新的小分子,有可能跟靶标匹配。

  这就是我讲的内容,谢谢大家。

  新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。

文章版权及转载声明

作者:xinfeng335本文地址:http://www.cdwannan.com/post/4710.html发布于 2023-11-23
文章转载或复制请以超链接形式并注明出处义乌市挈宇网络科技有限公司

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享