解决药物研发中的数据难题

3 - 3月- 2016

处理更多的数据并不一定意味着降低工作效率。爱思唯尔研发解决方案化学和生物医学产品总监Thibault Geoui博士关注数据发展

解决药物研发中的数据难题

德勤(Deloitte)最近的一项调查显示，生命科学公司在研发上的投入越来越多，但从中获得的收益却越来越少。虽然从2010年到2015年，开发一项资产的成本增长了三分之一，从12亿美元左右增长到16亿美元，但同一时期，每项资产的平均峰值销售额下降了一半，从8.16亿美元降至4.16亿美元。这些差异至少在一定程度上反映了制药公司在下一代测序等数据生成技术上的过度投资，以及随之而来的对数据管理和数据分析技术的投资不足，这些技术可以理解所有的输入。

一项研究的作者自然正确地指出，制药业正面临着“对其商业模式的前所未有的挑战”，这些挑战可以通过将投资转移到药物发现的早期阶段来解决。公司可以通过将I-III期研究的部分资金(目前占研发总预算的63%)分配到临床前阶段来实现这一目标;增加临床阶段的支出与提高投资回报无关——恰恰相反。此外，已经证明，如果公司投资于能够生产更优化的引线的硅工具，他们在第二阶段的技术成功概率将提高50%，并且每个新医疗实体的成本降低30%。

只有当企业能够获得正确的数据——即与手头项目相关的所有可用数据——时，更多的数据才有好处

只有当企业能够获得正确的数据——即与手头项目相关的所有可用数据——时，更多的数据才有好处。为了有效地做到这一点，他们需要一个确保数据正确准备和“协调”的系统，即根据测量、方法和术语之间的差异和不一致进行调整，并以干净、准确和结构化的方式生成。然后，研究人员就可以进行集中搜索。爱思唯尔(Elsevier)等文本挖掘系统不仅从蓬勃发展的文献中提取输入(PubMed现在包含超过2500万篇生物医学相关的引用)，还从临床试验和以患者为中心的来源中提取输入，如药房和健康保险概况、电子健康记录以及移动诊断和监测设备。

对于与发现早期阶段相关的最可靠的结果，具有整合美国食品和药物管理局(FDA)新药批准包中医学、化学、统计和临床药理学/生物制药评论部分的监管数据的能力也很有用，以及来自欧洲药品管理局的类似输入。具有关键协变的重要人类数据可能会完全丢失，如果这些文件中引用的研究没有在文献中发表，这是经常发生的情况。

越来越多的原始数据集——通常定义为未经处理、分析或其他智力输入的观察或实验的直接结果——也正在变得可用。例如，爱思唯尔(Elsevier)最近推出了一项开放数据试点，使所有用户都可以在线访问随文章提交的原始研究数据，例如测量设备的输出、社会调查和数字扫描的数据，以及已发表的文章。此外，国际医学期刊编辑委员会(International Committee of Medical Journal Editors)刚刚提出了新的规则，要求作者分享临床试验数据，这是考虑发表抄本的先决条件。虽然这种输入增加了需要转换为可搜索格式的数据量，但合并这些数据集可以帮助研究人员识别、验证和建立适用于他们自己工作的发现。

促进再现性

特别是在线索识别和优化过程中，在大量数据源中进行集中搜索可以节省大量成本。例如，通过确保内部结果与已经发表的结果相似，结果可以帮助验证公司关于候选化合物的内部发现;反过来，这可以减少内部额外实验的数量和成本。

为了利用这些功能，公司可以投资于一个数据挖掘系统，该系统可以搜索文章的全文，而不仅仅是摘要，并使研究人员能够选择应用哪些指标来获得最相关的高质量结果。例如，为了验证内部发现，研究人员会改进他们的搜索，以确保在论文的“结果”部分提到某个特定的事实，也就是说，它肯定是一个科学发现，而不仅仅是在介绍、讨论或结论部分引用别人的工作。此外，为了消除引用偏差，他们可以确定，对于每个实例，一个特定的事实是由一个完全不同的研究小组报道的。

许多风险管理系统使用不同的平台和不同的数据集，彼此之间不一定能相互沟通

大多数公司都有一个适当的系统，使他们能够保持符合当前的监管要求。但是，如果一家公司试图在发现过程的早期就尽可能地了解药物的安全影响，而不是在后期或上市后处理意想不到的不良事件或药物-药物相互作用，那么这些系统可能会有不足之处。许多风险管理系统使用不同的平台和不同的数据集，彼此之间不一定能相互沟通。结果不容易比较，经常导致重复努力。对于那些在不同业务部门、地理位置和以前收购的公司实施不同方法的公司来说，缺乏标准化尤其困难。在这样的环境下，即使有持续的文献监测，也很容易错过报道特定候选人药物不良反应的文章。

一种解决方案是投资于一个通用平台，该平台承载所有相关数据，并具有适当的共享权限。单一、全面的平台有助于制定前瞻性(即上市前)风险管理行动计划，将多个数据集纳入监测过程，有助于确保将重要信息(无论是否已发布)标记为后续调查。主动监测安全事件以更好地管理药物整个生命周期的风险，并告知仍在研发中的产品，这一想法相对较新。但FDA和EMA等监管机构正在共享信息并修改其要求，以促进在尽可能早的过程中从尽可能多的来源持续收集和分析数据。

数据挖掘工具在研发中变得越来越重要

在公司和组织之间，数据共享越来越受到鼓励(如果不是强制的话)——这是投资于强大的文本和数据挖掘系统的另一个强有力的理由。例如，美国国立卫生研究院(NIH)和欧盟委员会(EC)正在发起倡议，鼓励共享研究数据，特别是为了实现重用。美国国立卫生研究院最近宣布，它打算“让公众获取数字科学数据成为美国国立卫生研究院资助的所有研究的标准”，而欧盟委员会则优先考虑开放科学，其长期目标是提高“科学的影响和质量，使科学更高效、更可靠，对我们时代的重大挑战更有反应，并促进共同创造和开放创新”。

扩大资源

此外，作为NIH大数据到知识计划的一部分，NIH最近发布了一个资助机会，用于开发NIH数据发现索引，以实现生物医学数据的发现、访问和引用。其他资助机会鼓励专门的数据搜索引擎的发展。例如，在一个由美国国家科学基金会EAGER基金共同资助的项目中，爱思唯尔正在与卡内基梅隆大学计算机科学学院进行数据搜索试点，以方便查询从文章中提取的表格内容和从研究数据库中导入的表格内容。这些举措为企业投资技术提供了更多的动力，这些技术可以管理和从迅速扩大的多样化数据库中筛选相关信息。当组织通过开源和合作获得类似的数据集时，结合并成功挖掘这些数据集可以更容易地得出有关特定实体的结论，并进行有意义的元分析。

挖掘共享数据的一个经常被忽视的好处是促进药物的重新利用

挖掘共享数据的一个经常被忽视的好处是促进药物的重新利用，因为现在人们普遍认为大多数批准的药物对单一靶点或信号通路没有选择性。公司已经应用文本和数据挖掘成功地确定了肿瘤肿瘤因子抑制剂阿达木单抗(Humira)和抗癌药物伊马替尼(Gleevec)的新适应症。精简药物再利用，使用发现和描述疾病和治疗机制的最佳工具，为公司带来了巨大的经济效益，也为患者带来了巨大的健康效益。

挖掘社交媒体输入

社交媒体输入是下一批非结构化数据，企业将被要求将其纳入决策过程。在最近修订的不良事件报告指南中，EMA指出，上市许可持有人应定期筛查互联网或数字媒体，以发现疑似不良事件的潜在报告，并评估这些信息是否符合向该机构报告的资格。此类报告还可用于为具有与已知可引发不良反应的药物类似作用机制的候选药物的决策提供信息。

有效地聚合和挖掘社交媒体输入的技术仍在发展中

2014年6月，FDA发布了一份关于使用社交媒体平台向公众宣传风险和效益信息的行业指南草案。该指南是FDA、行业和患者团体之间持续合作的结果，以确定参与患者的最佳实践，并开展通过社交媒体征求患者意见的试点项目。这项合作预计将影响药物开发以及不良事件报告。有效地聚合和挖掘社交媒体投入的技术仍在发展中;然而，一个可能的解决方案是将“推文”和其他社交媒体评论视为文本，并启用先进的文本挖掘软件，以帮助企业至少了解人们对特定产品的评论。

此外，爱思唯尔还开始启用“情绪分析”的应用，这是一种新兴的数据挖掘策略，可以识别表明观点、态度和缺乏确定性的单词和短语(例如“建议”、“似乎表明”)，以跟踪出现在社交媒体和生物医学文献搜索中的潜在相关输入。尽管存在诸如对语言资源的需求、词语和意图的模糊性(如讽刺、讽刺)等挑战，但情感分析很可能在为药物发现和开发研发提供信息方面发挥越来越重要的作用。

解决药物研发中的数据难题

促进再现性

扩大资源

挖掘社交媒体输入

公司

相关内容