助力新药研发腾讯推全球最大耐药性数据库- DoNews

DoNews7月5日消息，腾讯公司5日宣布，已搭建一个海量的 MdrDB 耐药性数据库，提供最全的数据信息，为 AI 研发新药提供耐药性预测测试的「练兵场」。

据悉，这是腾讯量子实验室的最新研究成果，相关研究论文已登上了国际学术期刊 Nature 的子刊 Communications Chemistry。

看过电影《我不是药神》就知道：癌症患者后期，使用的靶向药物经常出现耐药性，需要寻找新的替代药物。不止癌症，艾滋和抗生素药物都会产生耐药性。这是由于癌细胞和病原体的蛋白突变所导致的。

打个比方，关键蛋白是解决癌细胞/病原体的「门锁」，但由于细胞进化和药物刺激，蛋白突变几乎不可避免。而无法预知蛋白的突变方向，就无法定向研发能够解决疾病的药物来做“钥匙”。

AI 学习，可以为预测蛋白、研制新药提速。但全世界都面临的最大问题是——蛋白突变的数据样本不足，对耐药性测试造成了很大的数据缺口。

针对数据量不足，腾讯发布的 MdrDB 耐药性数据库，首先在量上做到第一：从包括 GDSC、DepMap 等公开的行业数据集内，搜集了接近 10万个样本，总共收纳了 240 种蛋白质（总共 5119 个 PDB 结构）、2503 个突变和 440 种药物，涵盖了各种蛋白质家族的突变信息。

这个样本量总共达到了 10 万，是行业第二名的 100 倍。丰富的数据量，能够为 AI 进行药物的耐药性测试提供足够的训练样本。

为了让 AI 更好消化数据，量子实验室耗时半年，搭建了一套数据的加工流程：通过细胞系的数据清洗，数据库内将野生型蛋白、突变性蛋白等蛋白质类型，单点突变、删除突变等突变类型分门别类，方便AI随时「调阅」。

最后，通过自研的 Mutfold 蛋白质突变预测平台和蛋白质折叠算法，能就生成一个可视化的蛋白质三维结构「锁孔」样本，可供进行药物分子的结合模拟，提供耐药性数据。

新药研发，必须经过大量的测试，以确认能够匹配突变蛋白。更全面、更多维的数据库，能更有效助力进行突变诱导耐药性的预测、联合治疗策略的开发以及创新药物的研发。

在海量数据的加持下，MdrDB 也实现了性能的突破：在就 MdrDB 与其它行业公开耐药数据库作为训练数据、分别在10种经典机器学习模型上进行测试的实验中，与其它数据库相比，模型的预测值与真实值的均方根误差从 0.907 下降至 0.656，相关性从 0.094 提升至 0.607，耐药性的分类性能则从 0.243 提升至 0.538。

经过测试，使用 MdrDB 的AI耐药性预测精准度提升30%。这也是自2020年打造 AI 药物研发平台云深智药（idrug）以来，腾讯又一次探索前沿技术助力药物研发。

目前，MdrDB 已向行业和学术机构全面开放。未来，MdrDB 还将持续更新耐药性数据。