山东NEWS CENTER
山东新闻中心
公司始终坚持,品质至上,精益求精,用户至上,诚实取信,服务尽善尽美
山东加州大学为小分子打造搜索引擎,2秒内完成10亿张质谱图的比对
[ 时间:2024-06-20 阅读:5837次 ]
事实上在 2021 年底,李渊越和所在团队就曾在 Nature Methods 上发表了关于新型质谱谱图比对算法的论文,该算法通过熵相似性降低了分子鉴定的错误率,相比传统方法有着显著的改进。
2022 年 6 月,李渊越参加在美国明尼阿波利斯举行的美国质谱学会,发现他们的熵相似性算法受到了广泛的好评。
他说:“在会议期间,我有幸认识了卡耐基梅隆大学的米希尔·蒙吉亚(Mihir Mongia)博士和密歇根大学的 Fengchao Yu 博士。Mongia 博士向我介绍了他们的一种新算法,可以在一小时内比对七亿多个质谱谱图。而 Yu 博士则告诉我他们也开发了一种快速鉴定肽段的方法。”
听完他们的介绍之后,李渊越深感质谱学领域对于快速比对质谱谱图的方法有着迫切需求。这使他开始思考如何提高熵相似性算法的运行速度。
参加完美国质谱学年会之后,他重新分析了熵相似性算法。尽管这个算法在分析质谱谱图方面表现出色,但其计算过程稍微有些复杂。
为此,他开始寻找提高计算速度的可能性。经过对原公式的推导和分析,他发现了一个新的公式来计算熵相似性。
新公式与旧公式的结果相同,但在形式上更加优雅,并且在计算上比原来的公式更为简单。
接下来,李渊越花费几天时间用 Python 编写了一个原型,并测试了计算时间。结果令人惊喜,新算法的效果非常好,计算速度远超预期,比之前的方法快了近十万倍。
最终,相关论文以《利用快速熵搜索算法实时查询质谱文库》(Flash entropy search to query all mass spectrallibrariesin real time)为题发在 Nature Methods[1],李渊越是第一作者,美国加州大学戴维斯分校奥利弗·费恩(Oliver Fiehn)教授担任通讯作者。
图 | 相关论文(来源:Nature Methods)
李渊越表示:“在我们论文发表的前后,还有一些实验室也发表了他们的论文。但经过对各种方法的速度和精确度的比较,我们认为我们的算法仍然处于领先地位。”
目前,课题组已经从公共数据库搜集并整理了近十亿张代谢物的质谱谱图。针对这些数据李渊越和同事正在使用本次方法对其进行索引,并打算创建一个类似百度的网站,供大家免费检索。
通过这个网站,人们可以查询代谢物究竟在哪些样品中被检测到,或者在哪里出现过。比如,不粘锅的涂层会释放全氟辛酸。而该团队也在很多人类血液的样品中检测到全氟辛酸,因此可以利用本次系统来追踪全氟辛酸在人体不同组织中的分布,从而研究其对人类的影响。
参考资料:
1.Li, Y., Fiehn, O. Flash entropy search to query all mass spectral libraries in real time.Nat Methods 20, 1475–1478 (2023).