登陆网站空间的后台惠州手机模板建站-宁德市网站建设公司-Seo优化

登陆网站空间的后台,惠州手机模板建站,推广引流app,网站制作招聘黑言炭语其实就是一个综述大盘点#xff0c;核心主题就是LLM目前在虚拟细胞研究哪些方面有所应用#xff0c;大家理解成一个list就可以啦目录一#xff0c;研究概述与作者介绍二#xff0c;精华总结三#xff0c;主要观点四、挑战与未来方向一#xff0c;研究…黑言炭语其实就是一个综述大盘点核心主题就是LLM目前在虚拟细胞研究哪些方面有所应用大家理解成一个list就可以啦目录一研究概述与作者介绍二精华总结三主要观点四、挑战与未来方向一研究概述与作者介绍这篇名为Large Language Models Meet Virtual Cell: A Survey的综述于2025年10月9日发表在arXiv上系统性地回顾LLMs如何变革性地推动“虚拟细胞”的发展并将现有方法归纳为两大范式和三大核心任务为理解这一快速发展的领域提供了清晰的路线图。类别作者单位第一作者Krinos Li伦敦帝国学院第一作者Xianglu Xiao伦敦帝国学院第一作者Shenglong Deng伦敦帝国学院第一作者Lucas He伦敦大学学院二精华总结三大核心任务**细胞表征**细胞聚类、细胞注释、细胞状态预测**扰动预测**药物扰动、遗传扰动、逆向扰动**基因功能与调控预测**基因功能预测、基因调控网络GRNs推断。两大核心范式LLMs as Oracles用于对细胞状态和分子相互作用进行建模LLMs as Agents用于自主推理、规划与实验并涵盖了相关的数据集、基准测试和评估方案。交流群我们【罗小罗同学】团队建立了多个【虚拟细胞】【医学AI】等方向交流群交流群设立的初衷是提供交流平台方便大家后续课题合作。目前推销人员较多我们开启了入群验证可以扫码添加我的微信拉您进群请备注要进入的交流群方向和姓名-单位-科室/专业。团队全平台关注量120,000交流群总成员2000大部分来自国内外顶尖院校/医院期待您的加入LLMs as Oracles 模型总结细分方向模型核甘酸DNABPNet, Enformer, ExPecto, NT, GPN, GeneBERT, Borzoi, HyenaDNA, GROVER , DNAGPTRNARNA-FM, RNAErnie, RiNALMo, RNA-MSM, SpliceBERT蛋白质相互作用基于多序列比对Alphafold-Multimer, AlphaMissense, RoseTTAFold2-Lite, RoseTTAFold2-PPI基于蛋白质语言模型MINT, SWING, ProteomeLM大分子纯序列Evo, Evo2, LucaOne含结构AlphaFold3, Chai-1单组学转录组学scBERT, Geneformer, GeneCompass, scPRINT, AIDO.Cell, TranscriptFormer, UCE , scVI, tGPT, xTrimoGene, scFoundation, CellFM, STATE表观基因组学scBasset, EpiGePT多组学整合scGPT, GET, scGPT-spatial, spaLLM, GLUE , PertFormer, EpiBERT转译scPER2P, scTEL多模态文本-细胞对齐scMMGP , scGenePT, C2S ,InstructCell, scELMo, ChatNT, CellWhisperer推理rBio1, C2S-Scale, CellReasonerLLMs as Agents 模型总结细分方向模型架构单智能体Biomni-A1, BIA, scExtract多智能体**** scAgents, OmicsNavigator, PrimeGen文献与知识信息检索BioRAG, GENEVIC ,CompBioAgent数据管理SRAgent实验设计假设生成SpatialAgent, PROTEUS流程指令CRISPR-GPT, PerTurboAgent, BioResearcher计算工作流自动化数据分析CellAgent, AutoBA自动化执行 CellForge, BioMaster全栈研究CellVoyager, BioDiscoveryAgent, OmniCellAgent优化训练后优化Biomni-R0自我优化TransAgent, PhenoGraph, GeneAgent, BioAgents自主进化OriGene, STELLA数据集总结任务数据集预训练CELLxGENE, NCBI GEO, ENA, ImmPort, GeneOntology, scBaseCount, Protein Data Bank细胞表征Segerstolpe dataset, Zheng68K, Tabula Sapiens V2, Spermatogenesis扰动预测Adamson dataset, Norman dataset, Systema基因功能与调控预测scEval, BEELINE, geneRNIB, CausalBench评估基准总结任务评估基准细胞表征ARI, NMI, Accuracy, Precision, Recall, Macro F1扰动预测RMSE, MSE, Recall, False Discovery Proportion (FDP), ROC-AUC, Pearson Correlation, Spearman Correlation基因功能与调控预测AUPRC, Early Precision Rratio (EPR), Enrichment Scores (ES)三主要观点下面说的一张图全包含进去范式一LLMs as Oracles模型可直接从原始数据中学习细胞组分及相互作用的表征能够直接模拟细胞系统的内部状态与动态过程强调了模型编码生物信息并进行内在推理的核心能力。细分为以下不同的领域1. 核苷酸序列建模能够基于核苷酸序列预测染色质状态、转录因子结合及遗传变异的功能性影响。代表性模型-DNADNABERT基于Transformer用于启动子/转录因子结合位点预测Nucleotide Transformer基于Transformer架构的基因组学模型能够捕捉DNA的长程依赖关系HyenaDNA基于隐式卷积架构的基因组基础模型能够处理长达100万个单核苷酸的序列显著提升了基因组序列建模的上下文长度和分辨率**Borzoi**从DNA序列中学习预测细胞类型特异性和组织特异性RNA-seq覆盖度的模型。代表性模型-DNARNA-FM通过自监督学习的方式从约2300万条RNA序列中学习RNA的通用表示能够捕捉RNA分子的复杂进化关系和序列特征RINALMo该模型通过学习3600万条RNA序列的语法能够预测RNA的折叠方式、相互作用及功能表现RNAErnie基于BERT架构的模型专门针对非编码RNA序列设计通过自监督预训练学习RNA序列的特征表示适用于多种RNA相关的下游任务RNA-MSM基于多序列比对的RNA语言模型主要用于RNA结构预测和功能分析SpliceBERT 针对前体mRNA序列的预训练语言模型主要用于提升RNA剪接预测能力。2. 蛋白质相互作用预测基于进化信息和基于蛋白质语言模型的两大类方法用于预测蛋白质复合物结构和相互作用。代表性模型-基于多序列比对AlphaFold-Multimer 基于AlphaFold 2的扩展工具主要用于预测蛋白质复合物的三维结构尤其擅长处理多聚体如二聚体、多聚体的相互作用RoseTTAFold2-Lite/RoseTTAFold2-PPI 快速的深度学习模型主要用于系统地识别和结构化表征蛋白质组范围内的蛋白质-蛋白质相互作用AlphaMissense通过系统评估错义变异在蛋白质组范围内的功能影响间接反映互作稳定性。代表性模型-基于蛋白质语言模型MINT一种可扩展的多聚体交互Transformer利用掩码语言建模技术直接对相互作用蛋白质集合进行建模SWING引入创新的滑动窗口机制捕捉肽段-蛋白质互作的内在规律ProteomeLM运用掩码语言建模框架实现了跨多个物种全蛋白质组的相互作用与基因必需性预测。3. 多域分子统一建模对多种分子类型及其相互作用进行全面表征是揭示细胞功能背后复杂动态与调控机制的关键。代表性模型-纯序列Evo/Evo2在涵盖生命全域的数万亿核苷酸序列上进行训练能学习DNA、RNA及蛋白质序列的联合表征支持变异效应预测与基因组设计等下游任务。LucaOne基于掩码语言建模技术对来自近17万个物种的核酸与蛋白质序列进行预训练用于基因表达分析、蛋白质功能预测以及核酸-蛋白质相互作用的预测。代表性模型-含结构AlphaFold3 一种强大的生物分子结构预测工具能够高精度预测蛋白质、核酸、小分子等生物分子的相互作用。Chai-1用于分子结构预测的多模态基础模型适用于药物发现等任务。4.单一组学组学是指能够全面捕捉细胞分子状态的大规模分子谱分析技术其数据整体反映了细胞的生理状态。**代表性模型-**转录组学scBERT将Transformer 架构应用于 scRNA-seq 数据分析可以提供具有基因水平可解释性的细胞类型注释Geneformer 通过自监督学习捕捉基因间的复杂调控关系用于细胞水平和基因水平的分类预测**CellFM**能够模拟细胞对基因敲除、过表达或药物处理的响应快速筛选潜在的药物作用机制或基因调控结果GeneCompass一种基于跨物种基因调控的分析工具主要用于解析基因调控机制、预测细胞命运和药物反应scPRINT一种双向变压器模型通过对 5000 多万个细胞的训练能够生成细胞类型特异性的全基因组基因网络TranscriptFormer一种新颖的生成架构联合建模基因和转录本使其能够作为探测细胞生物学的工具STATE是 Arc Institute开发的首个虚拟细胞模型主要用于预测细胞对药物、基因或细胞因子等扰动的响应。**代表性模型-**表观基因组学scBasset一种深度CNN模型用于从DNA序列预测染色质可及性EpiGePT能够通过直接基于自注意力分数、基于模型微调、基于三维基因组数据引导后的自注意力分数三种方式预测增强子-启动子、沉默子-启动子等顺式调控关系同时也能够通过梯度筛选出特定细胞类型中发挥关键调控作用的转录因子。5.多组学考虑到单一组学无法完整捕捉细胞状态因此多组学整合为全面解析细胞行为的复杂性提供了可行路径。代表性模型-整合scGPT提出GPT风格的自回归架构将多组学数据统一表征为共享词汇通过语言建模目标实现多组学谱的联合建模scGPT-spatial是 scGPT的空间拓展版本进一步引入组织坐标作为空间标记实现细胞特征与空间环境的协同解析spaLLM通过融合图神经网络显式建模空间转录组中的细胞邻域关系GLUE采用图结构变分自编码器将scRNA-seq、scATAC-seq与snmC-seq对齐至共同潜在空间GET采用类Enformer的CNN-Transformer混合架构处理scATAC-seq与scRNA-seq数据EpiBERT通过掩码建模预训练策略整合DNA序列与scATAC-seq数据PertFormer将模型规模扩展至30亿参数基于9种单细胞组学数据进行预训练具备零样本泛化至多种下游任务的能力。代表性模型-转译scPER2P采用Transformer解码器架构将scRNA-seq输入转化为对应蛋白质组谱scTEL专为实现单细胞级scRNA-seq向CITE-seq测量的精准映射而设计。6.多模态除了利用细胞数据最新研究正开始挖掘大语言模型的通用语言理解能力——通过引入科学文本作为新模态既为细胞预测提供知识锚点又显著增强任务泛化能力代表性模型-文本-细胞对齐CellWhisperer采用类CLIP对比学习框架在共享语义空间中对齐单细胞RNA测序数据与文本描述的潜在表征C2S通过数值分箱方法将基因表达量离散化为标记并将其映射至固定词表从而实现对GPT-2的直接微调使文本大模型具备处理单细胞RNA测序数据的能力scMMGPT借鉴BLIP-2的图文对齐思想构建文本-基因对齐架构集成单细胞大模型与通用文本大模型通过细胞与文本潜在表征的双向交叉注意力机制实现生物状态与自然语言的双向转换InstructCell利用Q-Former模块提取单细胞RNA测序表征并将其作为软提示注入T5-base语言模型ChatNT 将DNA、RNA、蛋白质序列与自然语言统一于单一系统其采用NT v2作为分子编码器并融合Vicuna-7B作为文本主干网络。代表性模型-推理C2S-Scale使用强化学习技术和GRPO算法为虚拟细胞模型注入自主发现能力使单细胞RNA测序表征与自然语言理解及演绎推理相协同CellReasoner通过提炼DeepSeek-R1-671B生成的思维链作为监督微调信号使其70亿参数模型获得类推理能力rBio1基于生物学世界模型的软验证框架让AI在虚拟环境中与“数字细胞”进行交互预先检验其假设。范式二LLMs as Agents大型语言模型可作为虚拟细胞的智能代理通过协调外部工具、数据库与模拟环境实现超越传统建模、生成与预测功能的复杂科研任务。与被动生成响应的基础模型不同智能代理能在自适应目标驱动框架中主动执行规划、推理与决策行动。1.不同的架构分为单智能体系统一个LLM管理整个工作流和多智能体系统多个专门化的LLM智能体协作后者在复杂任务中更具可扩展性和透明度。**代表性模型-**单智能体Biomni-A1/BIA单个LLM作为统一智能中枢通过内部推理或动态提示管理全流程。此类设计常依赖结构化系统提示或内部角色切换机制实现虚拟模块化无需调用独立模型。**代表性模型-**多智能体scAgents/OmicsNavigator/PrimeGen多智能体系统将职责分配给多个专用LLM每个智能体作为独立角色如规划者、分析器或执行器通过对话或共享内存进行协作。这种架构在复杂细胞建模流程中更易实现可扩展性、透明化与分工协作。2.知识整合智能体通过检索增强生成等技术访问科学文献和权威数据库确保其输出的 factual 准确性。代表性模型-信息检索BioRAG通过构建超过2200万篇科学文献的索引为复杂生物学问题提供基于事实的解答GENEVIC运用RAG技术实现对PubMed等专业知识库的交互式访问CompBioAgent专注于单细胞RNA测序资源的智能体允许用户通过自然语言直接查询基因表达模式。代表性模型-数据管理SRAgent能自主采集并处理单细胞RNA测序数据持续扩展其scBaseCount数据库的规模。3. 实验设计智能体能够将高层次的生物学问题转化为可操作的实验计划。代表性模型-假设生成SpatialAgent通过解读空间转录组数据提出关于组织结构和细胞相互作用的新颖机制假说PROTEUS能直接从蛋白质组学数据集中发现规律无需人工干预即可生成数据驱动的新型生物学假设。代表性模型-流程指令CRISPR-GPT专为CRISPR基因编辑工作流设计能自动分解全流程并运用领域知识筛选出高质量候选方案PerTurboAgent通过规划迭代式Perturb-Seq实验智能选择最优基因组合进行连续多轮扰动从而最大化生物学发现BioResearcher依托检索增强生成框架将其推理过程锚定于最相关的科学文献并将宏观研究意图转化为可执行的实验流程。4. 工作流自动化可以端到端地自动化单细胞数据分析流程的构建和执行。代表性模型-数据分析CellAgent通过自然语言交互实现对单细胞RNA测序与空间转录组数据的端到端解析AutoBA能在最少用户输入条件下自主构建自适应多组学分析流程并在各类数据集与分析场景中展现稳定性能。代表性模型-自动化执行CellForge可直接根据原始组学数据与高层任务描述自主构建细胞行为的预测性计算模型支持扰动预测等应用BioMaster通过融合检索增强生成技术并优化智能体协作机制显著提升了长周期工作流的执行效能。5. 全栈研究旨在自动化从问题提出到发现的完整科研闭环实现自主假设提出、模拟验证和迭代优化。代表性模型CellVoyager在通用计算生物学场景中运行通过迭代自查询与工具增强推理探索数据驱动的假说自主解析多组学数据并产生新发现突破了固定任务模板的限制BioDiscoveryAgent专注于功能基因组学与疾病机制挖掘通过循环执行遗传扰动提议、计算机模型结果模拟、效果评估及假说优化实现闭环式全栈研究OmniCellAgent面向精准医疗应用将临床问题转化为多组学分析流程并生成可解释报告全程管理研究生命周期。6. 优化策略为了提高智能体的可靠性和适应性研究者采用了训练后优化、自我验证和自我进化等高级策略。代表性模型-训练后优化Biomni-R0通过在多元生物医学任务中采用多轮强化学习培育出性能显著超越基础模型的智能体架构。代表性模型-自我优化GeneAgent在基因集分析时启动自验证机制实时交叉比对权威生物数据库大幅减少幻觉并提升生物学合理性TransAgent通过整合多组学数据流的反馈动态优化对转录调控网络的解读精度PhenoGraph将空间表型发现锚定于结构化知识图谱确保假说兼具数据驱动性与生物学合理性BioAgents采用智能体即裁判机制由专用评估员对输出进行自我评判全面提升结果可信度。代表性模型-自主进化OriGene通过双循环系统一方面采用ReAct式迭代反思与重规划执行任务同时维护受专家反馈持续演进的可解释推理模板库STELLA通过迭代更新推理模式模板库、持续扩展其动态工具资源库构建了完整的自进化架构。四、挑战与未来方向可扩展性LLMs as Oracles需实现多模态统一表征将分子层面与组学层面的序列数据整合为连贯的联合表征并采用能处理超长细胞上下文的高效架构LLMs as Agents依赖长期记忆机制在持续实验工作流中保持推理连贯性与上下文感知确保经历数十次工具调用与假设迭代后仍能维持规划一致性。五、泛化性能力和基准建设LLMs as Oracles对新细胞类型的泛化能力仍是核心挑战这要求不仅需改进训练策略与模型架构更要建立更具生物学意义的严谨评估基准LLMs as Agents目前缺乏系统公正的评估框架标准化任务、环境与指标的缺失阻碍了对其优劣的客观认知。六、可解释性与可解释性LLMs as Oracles需通过不确定性估计与可解释性技术保障模拟过程的稳定可靠从而量化预测置信度LLMs as Agents需借助这些技术实现决策过程的透明化与可验证确保行为一致性的同时增强科研可信度。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

登陆网站空间的后台惠州手机模板建站

学校网站建设计划兰州网站

建站免费空间google登录

如何建设简易网站宁德城乡住房建设厅网站

常州建设局考试网站网站开发文档范例

南宁网站建设费用开封网站建设zducm

网站设计公司官网最简单的企业简介