对话Peter Lee：大模型在医疗健康行业运用的机会与战斗

发布日期：2023-05-19 作者：康为点击：

编者按：今年3月，OpenAI 颁布了大话语人工自动模型 GPT-4，其在推断、解决问题和话语等方面的本领都有了明显提升，促使成长长达数十年的人工自动加入了1个新阶段。微软世界资深副总裁、微软研发院负责人 Peter Lee 是微软内部最早应用 GPT-4 进行评价和试验的成员之一。短期在微软研发院最新的 AI 前端系列播客栏目中，Peter Lee 与微软研发院副总裁、微软出色首席科学家 Ashley Llorens 进行了一次深度对话，表示了他针对大模型在医疗健康行业运用后劲和战斗的见解，并且在大模型潮流的领导下，微软研发院对将来计算的研发计划。本文节选了对话中的部分内容，完整版请点击播客收听。

视频加载中...

??点击收听对话播客

Ashley Llorens：通过科学研发为社会缔造更多机会和价值，带给全部社会更有意义的影响是咱们一同的目的。你始终存眷情境研发（research in context），在 GPT-4 等大模型领导人工自动潮流的当前，你有何新的见解？

Peter Lee：情境研发是1个十分首要的课题。设想一下，你知晓将来某个时刻世界的模样，接着再倒推回今日的工作会是如何的？举个例子，科学家们相信10年以后咱们将在较大程度上解决癌症问题，但跟着人口老龄化加重，将来与年纪有关的神经体系疾病将大大加大。假设咱们如今就阔以意识到神经体系疾病在将来的首要性，并加大投入，那么这将使将来的世界与咱们今日的处境截然不同。但是现在的医学研发更聚焦于癌症研发，而非神经体系疾病。

这类改变象征着甚麽，能否在引导咱们的科研方向？固然科学研发仍是将来导向的，但它既要预测将来十年，也要着眼现实世界，也就是情境研发。如今看来，通用人工自动超过人类自动也许是不可以免的，乃至在将来5-10年就会爆发。那这对科研会有甚麽影响？它也许比癌症和神经体系疾病更具推翻性和战斗性，影响也更长远。

此前我已然历经过五次相似的技术变化。第一次是上时代80年代后续，我在卡内基梅隆大学当担助理老师，那时不少尖端大学计算机科学系都在 3D 计算机图形学行业做出了优质的研发成果，像灯光跟踪（ray tracing）、辐射度（radiosity）、硅构造（silicon architectures）这类思想全是在当时提出的。还有 SIGGRAPH 大会，那时每年都会聚焦世界数百名科研职员展现各自的成果。到了90年代初，有类始创企业开始采取这类革新思想，企图将 3D 计算机图形变为现实，这此中的一家就是英伟达（NVIDIA）。终极， 3D 计算机图形学变成了人们生活的根基设备，这是根基计算机科学研发获得的一次较大顺利，以致于今日你的口袋中假设没带“GPU”，没带手机，全部人都会感觉不舒服。这类变化，对研发形成踊跃影响的同时，也拥有推翻性。

当某类行业扩展为人类社会的根基设备时，就摆脱了根基研发的范围，一样的状况还含盖编译器设计（这是我自己的研发行业）、无线网络、超文本和超链接文档、并且操控体系等研发。如今它们已然变成咱们生活中不可或缺的物品，都代表着计算机科学的伟大造诣。而今日，咱们正处于向大话语模型的过渡阶段中。

Ashley Llorens：你认定此次技术过渡能否在实质上与其余后台（background）技术有所不同？你提到咱们每日外出时口袋里都装着“GPU”，但我不是如此想的，也许我对我的手机有某种拟人化的思想。但阔以必定的是，话语模型是一类拥有前台效应（foreground effect）的技术，我想知晓，你在此中能否看见了不同之处？

Peter Lee：我认定，对研发机构、学术界、行业内的研发职员来说没有甚麽不同，但针对技术的消费者和应用者，感触却有较大不同。相比一样从学术研发走入现实的触控可扩缩放的客户体会，大话语模型的影响也许会更长远。

这又带来1个大问题，当咱们与大话语模型交互时，纵然知晓它不是有情感、有情感、有知觉的生物，但又不由自主地如此想，这是进化中的固有想法。就像咱们形成视觉幻像时，明智上深知这是幻觉，但大脑却不能战胜，这类硬性连通疏导咱们将体系拟人化，也因而让它们走到了前台。

Ashley Llorens：接下来咱们把话题转向现在你正在尽力的医疗健康行业并且在微软的历史。你曾说过把前端的人工自动技术引入医疗健康体系面对诸多战斗，在 GPT-4 和大范围人工自动模型成长的背景下，人工自动与医疗健康结合时能否会有不同？

Peter Lee：GPT-4 能否真的会给医疗健康行业带来新的不同还须要检查。由于咱们已经也对计算机技术辅助医疗健康行业或促成医学进步持乐观立场，但却一次次绝望。这类战斗也许源自过量乐观。

作为计算机科研职员，咱们看见了医疗行业的许多问题，比如对读取放射图片和丈量肿瘤生长的研发，或对辨别诊疗选项或医治选项排序问题的研发，咱们认定自己知晓怎样用计算机科学解决这类问题。而医学界也在存眷着计算机科学研发和技术的成长，他们对人工自动、机械学习和云计算印象深刻。因而，来自2个行业的这类难以置信的乐观情感，终极成为了过量乐观。由于将计算机技术整合到医疗健康和医学工作过程中的实际战斗，是要保证它的安全性，以及真实施展计算机技术的最大本领，但这是十分艰难的。

此外，在医学实际运用中，诊疗和医治流程都爆发在不安稳的环境中，这就造成在机械学习的环境中牵扯许多混同原因。因为医学是创建在对因果关系的准确解读和推断之上的，因此这类混同原因至关首要，但如今机械学习里最佳的工具实质上是有关性的机械（correlation machines）。有关性和因果关系是不同的，比如，抽烟能否会致癌，参考到混同原因的影响并了解此中存在的因果关系是十分首要的。

谈到 GPT-4 ，我第一次见到它时，是 OpenAI 的职员演示代号为 Davinci 3 的 GPT-4 初期版本，并让它答复 AP Biology（大学进阶生物学）的问题。在此次测验中，我认定它得了最高分5分。AP Biology 的试题往往是选取题，但该体系却可以应用自然话语对其选取的谜底做出阐明，让我吃惊的是，它在阐明中应用了“由于”这个词。

比如，它会说“我认定谜底是 C。由于当你从这个角度看问题时，会激发其余生物学问题，因而咱们阔以消除谜底 A、B 和 E，接着又由于其余原因，消除谜底 D，一切的原因和结果全是一致的。”咱们都不清晰为甚麽1个大话语模型会拥有因果解析本领。

这不过 GPT-4 百分之一的本领，它仿佛战胜了许多妨碍机械自动步入医疗健康和医学中的原因，比如推断、阐明本领。再加上 GPT-4 的泛化本领，这仿佛让咱们对其在医学行业的功效更乐观，认定它有也许带来不同的将来。

另一方面，咱们不用完全专注于临床运用。GPT-4 很善于填写表格，减少文本工作的包袱，它知晓怎样申报医保报销的事先受权，这是医师现在首要的行政和文本包袱。有关工作并没有真实影响到攸关生死的诊疗或医治的决议，但这类后台性能一样也是微软的首要营业。有许多原因阔以让咱们相信，与 OpenAI 的协作可以带来推翻性的变化。

Ashley Llorens：每一项新技术的显现都会随同着有关的机会微风险。这类新式的人工自动模型和体系具有基本的不同，由于它们不是学习特定性能的映照。而在各类各样的运用中，纵然是如此的机械学习也有许多悬而未决的问题。你怎样对待这类通用技术在医疗健康等行业所带来的机会微风险？

Peter Lee：我认定有一件事引发了批量交际媒体和公共媒体不用要的存眷，那就是体系显现幻觉（hallucination）或者脱轨的时候。这是 GPT-4 和其余相似体系偶尔会碰到的问题，例如它们会编造许多数据。过去几个月，跟着 GPT-4 的稳步成长，它形成的幻觉越来越少。咱们也了解到，这类偏向仿佛与 GPT-4 的缔造力相关，它能做出理智的、有依据的猜想，能进行自动的揣测。

这是第1个你阔以问它没有所有已知谜底的问题的人工自动体系。而问题是，咱们能完全相信它所给出的谜底吗？GPT-4 拥有限于性，特别在数学问题中。它很善于解根本的微分方程和微积分，而在统计中却会犯根基性错误。我在哈佛医学院的同事就碰到过1个问题，在1个规范皮尔逊有关的数学问题上，它仿佛总忘掉对1个信息项进行平方。有趣的是，当你向 GPT-4 指出错误时，它的第一答复是，“不，我没犯错，是你错了。”跟着体系的改善，如今这类责怪客户犯错误的言行不会再爆发了。

此外1个更大的问题与“负责任的人工自动”相关，这始终是全部计算机科学行业的首要研发课题，但我想这个词如今有也许不再适合了，咱们阔以称之为“社会性的人工自动（societal AI）”或其余的术语。它不是准确与错误的问题，也不单仅是它会被误用而形成有害的数据，而是在监管层面的更大的问题，还有在社会层面的工作流逝，新的数字鸿沟，并且富人和贫民获取这类工具的权利。这类亟待解决的问题也会直接影响着它在医疗健康行业的运用。

Ashley Llorens：信赖问题是多方面的，既含盖在机构层面，也含盖做出抉择的个体。他们须要作出艰巨的决策，例如，在工作过程中，何时何地并且能否应用人工自动技术。你怎样对待医疗健康专业职员做出此类决议？在将这类抉择付诸运用时，存在哪类障碍？尽力的方向又是甚麽？

Peter Lee：对于 GPT-4 及同类技术理应在多大程度上运用，并且怎样监管，具有许多研讨。美国有1个监管机构是食品和医药治理局（FDA），他们有权监管医疗设施。有一种医疗设施叫做软件即医疗设施（software as a medical device，SaMD），在过去四五年中大家研讨最多的是怎样监管基于机械学习或人工自动的 SaMD。逐渐地，FDA 越来越多地核准应用机械学习的医疗设施。在我看来，FDA 和美国已然趋近于具有真实公道的根基框架，来验证基于机械学习的医疗设施在临床的用处。但这类新兴框架不应用于 GPT-4，也就象征着用这类方式对 GPT-4 进行临床验证没有意义。

你的第1个问题是，这件事理应被监管吗？假设要监管，理应如何做？这相当于把医师的大脑放在1个盒子里。如果，有一位伟大的脊柱外科医师，假设把他的大脑放在1个盒子里，请你验证这个物品，你会如何想？甚麽样的框架应用于它？监管机构也许会做出反应并施行许多规则，但我认定这将是错误的，起码在现在，施行的规则理应是对于人的，而不是机械。

如今的问题是医师和护士、招待员和保险理赔员，并且一切有关职员，他们的引导方针是甚麽。这类决议不是监管机构的事件，而是医学界自身理应对这类引导方针和规则的制订负责，乃至通过医疗许可和其余认证来强制施行。这就是咱们今日所处的位子，人类要自我负责，自我监管和标准自己的言行。

Ashley Llorens：围绕测验和评价，并且有关的许可问题进行研发，也和创立模型自身同样有意思。

Peter Lee：在这里，我想借机歌颂一下 OpenAI 队伍的成员。咱们在微软研发院的同事十分幸运，阔以提早了解新技术对人类成长主要行业的影响，如健康和医学、教育等。OpenAI 队伍看见了如此做的必须性，他们与微软研发院进行了深入地讨论，给了咱们较大的自由度，让咱们尽也许诚恳且不加润饰地深入开拓 GPT-4。这很首要，当咱们与世界分享这类开拓时，就能对它愈加了解，能辩证地研讨。咱们须要研发、参考，以辩证的想法去对待它，而不是过量反应。

Ashley Llorens：就你的观念而言，一切围绕各类社会首要性框架的思索都在企图追逐上一代技术，还没有完全对准这类新技术。在这类状况下，你认定计算机研发的下一步是甚麽？

Peter Lee：咱们是让技术从研发到变成生活中真实的根基设备这之间的纽带。微软研发院处于1个十分有趣的位子，既是研发的奉献者，让 OpenAI 正在做的事件变成也许，也是微软企业的一部分，期望与 OpenAI 一块让技术变成每1个人生活中的根基设备。作为变化的一部分，微软研发院已然确认了5个人工自动方向。

第1个是咱们研讨的人工自动在社会中的功效和影响，含盖负责任的人工自动等。其次，微软研发院的同事始终在推进 AGI（通用人工自动）运行的理论根基。计算机科学理论始终是机械学习中首要的主线。这类研发样式越来越应用于解读大话语模型的根本性能、边缘和形势。即使你不再须要获取那些解读艰难的数学定论，但它仍旧是数学导向的，就像宇宙和大炸裂的物理学原理同样，AGI 的原理也是这样。

第三方面是运用层面的。在微软研发院内部，咱们称它为副驾驶（copilot）。咱们希望让它变成你的同伴，辅助你高效、高质地完结任务。

再有就是 AI4Science，咱们在这方面做了许多工作，同时越来越多的证据标明，大型人工自动体系阔以供应刷新的方式，促成物理学、天文学、化学、生物学等方面的科学发掘。

最终是中心的根基，咱们称之为模型革新。不久此前咱们公布了新的模型架构 KOSMOS，用来进行多模态机械学习并且分类和辨认交互。咱们还革新提出了 VALL-E，基于三秒钟的语音样件就可以确认你的语音模型并复刻语音。将来，这类模型革新还将持续爆发。

从深远来看，假设微软、OpenAI 等企业获取顺利，那么大模型将会真实变成生活根基设备产业化的一部分。我估计，大话语模型的研发将在将来十年开始衰退，可是，崭新的视线将会启动，这是在咱们在网络安全、隐私和安全、物理科学等方面所做的一切其余事件之上的。阔以必定的是，如今人工自动正处于1个特殊期间，特别是在以上这5个维度上。

新闻分类