前不久,赛诺菲宣布和OpenAI合作,与AI药企Formation Bio一道构建一款AI驱动的药物开发软件。
这是OpenAI首次和药企大规模全流程合作,被认为是OpenAI大举进入生物医药的信号。
根据官方的说法,这次合作将汇集制药界一流的数据、软件和调整模型,开发贯穿药物开发全周期的定制化专属解决方案。
要知道,OpenAI的拿手好戏是聊天机器人,例如近期发布的GPT-4o,能够自然而富有情感地和人类进行对话。
无独有偶,OpenAI此前和Moderna宣布合作,双方共同创造了750个GPTs,覆盖了公司业务的各个环节,包括法律、研究、制造和商业化。
两笔合作是否意味着,生物医药的对话助手开始走入人们的视野?
相较于普通AI模型,生物医药对话模型的前沿产品哪儿,又能够解决什么样的困难?
01 为什么出现对话AI模型?
当前绝大多数的AI+药物研发模型都是高度专业化、用于特定任务的模型。
这些模型通常有较高的学习成本,操作通常比较复杂,并且这些需要针对每个特定应用进行微调,从而阻止任务之间的迁移和泛化。
ChatGPT等大语言模型开始蓬勃发展,给了模型开发者们不少灵感。
试想一下,如果化学家能够直接和大语言模型对话,仅通过多轮聊天就能让AI帮助生成分子,并且能进一步进行试验,并预测各种理化性质,是不是能够极大地简化药物发现流程?
前不久,mRNA头部公司BioNtech收购的人工智能公司InstaDeep发布了一款ChatNT,公司表示这是*个对用于 DNA、RNA 和蛋白质任务的多模式聊天助理。
简单来说,ChatNT建立在经过微调后的通用大语言模型上,而后在大量科学文本和生物分子序列上进行过训练, 包含总共 6.05 亿个 DNA 标记(即 36 亿个碱基对)和 2.73 亿个英文标记的数据集。
该模型能够理解单词与分子之间的关系,ChatNT不仅能理解生活语言,还能理解人类对话。它使用大量聊天数据进行训练,可以与用户进行互动。
据介绍,该模型能够回答关于DNA序列的40多个任务,涵盖了各种生物过程和模式。
这意味着研究人员可以为 ChatNT 提供 DNA 序列,并直接提出问题,例如“这个 DNA 序列是否可能使蛋白质发出绿光?”或“这个基因可能在哪些组织中活跃?”。
图:ChatNT的使用界面
总结就是 ChatNT能够对蛋白质、DNA、RNA等生物学分子执行多类任务。
蛋白质:ChatNT能检查蛋白质序列,并且预测其功能,可能有助于我们了解生物过程,甚至有助于设计新药。
DNA:DNA 不仅仅是静态遗传代码;一些区域控制着基因活动。在这方面,ChatNT识别调控元件,从而能够了解基因是如何开启和关闭的。
RNA:RNA 是 DNA 和蛋白质之间的信使,在加工过程中会发生不同的修饰。因此,通过分析 RNA 序列,ChatNT 可以揭示此过程中涉及的复杂步骤,从而深入了解基因表达。
多任务:ChatNT能够不断扩展自身,以便现在可以个性化医疗,以后诊断疾病,甚至在未来设计治疗方法。
实际上除开 ChatNT之外,2023年以来业界已经发布了多款关于生物医学的对话模型,尤其集中在科研领域,例如BioGPT、SciBite Chat等。
除开文本为主的医学文献对话模型外,业界也出现了例如蛋白质语言模型、化合物生成、临床试验等能执行复杂任务的AI对话助手。
02 生物医药对话模型,难点在哪儿?
实际上,当前对话大模型在生物医药领域还不是主流AI模型,仍然面临着不少困难。
首先,通用大语言模型以文本信息为主,这些数据有明确的定义且有顺序。但是生物和医药数据通常是结构化和非结构化的数据,它们复杂且没有组织,将这些数据处理成语言模型能够理解的形式非常重要。
生物数据往往包含多种模态的信息,如文本、图像、实验数据等。大语言模型需要在不同模态间进行有效的信息转换和融合,这对其跨模态理解能力提出了挑战。
其次,涉及到复杂的数据大语言模型可能无法捕捉和理解。例如对于药物研发非常重要的QSAR,因为这类关系极为复杂,语言模型无法直接描述,许多相互作用可能过于微妙而难以捕捉。
还有,AI幻觉现象仍然是较大的阻碍,生物对话系统在记忆和理解能力上存在局限性。这些系统可能会记住错误的知识,或者在理解能力不足的情况下产生偏见。
当然,很多团队已经意识到了这类问题,并且希望给出一定的解决方案。例如,ChIP-GPT就是一个专门针对生物医学数据库记录提取的大型语言模型,它在理解生物医学数据库中的复杂记录方面取得了显著成效。
除此之外,不少公司对于使用对话大模型有非常多的顾虑,尤其是大型制药公司。
一份针对200多名生命科学从业者的调查显示,超六成的Top20的大型制药公司已禁止员工使用 OpenAI 的生成式人工智能工具 ChatGPT,原因主要是担心敏感的内部数据可能泄露给竞争对手。
对于制药公司而言,内部数据的管控一般非常严格,任何数据事故的后果都比任何可预见的结果更为严重,尤其是涉及高度敏感的专利和临床数据。而此前ChatGPT有信息泄露的前科,被曝出许某些用户查看其他用户的聊天记录。
尽管如此,许多生命科学专业人士仍在定期使用 ChatGPT。超过一半的受访者表示,他们每月至少使用几次,超过四分之一的受访者每周使用该工具几次,甚至每天都使用。
这或许也是为什么Moderna和赛诺菲更愿意和OpenAI进行合作,不仅能够定制化GPT,还能极大程度地保护内部数据。
当合作的窗口被打开,这或许是大语言模型公司和制药企业可以效仿的案例。
03 对话生物模型的未来
即使到现在,生物医药版本的ChatGPT们并不是AI制药的主流。
对于生物学和药物研发这样复杂的工程,当前生物医药版本的ChatGPT对于复杂问题预测和模拟的能力有限。
况且,这类模型受限于自身的知识水平,无法回答开放边界的问题。这意味着它们只能处理已知的、封闭域的问题,而无法应对未知或开放性问题。
我更想讨论的是,对话机器人/AI Agents未来会不会成为生物学家和药化专家与AI进行深度互动的工具?
通过聊天,对话大模型能够使复杂的生物医药知识变得直观,使每个人都能轻松获得储存在里面的知识。
而大语言模型有潜力执行非常广泛的下游任务,而不需要对特定条件进行调整,个性化医疗有可能因此而大幅度受益。
但想象一下,如果未来科学家们能够通过与AI交互和迭代的方式获得查询的答案,拓展人类知识的边界,这样的图景正在缓缓展开。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
特别推荐