在刚刚过去的2021年,生物医药企业大量上市,截至2021年11月1日,生物医药企业占科创板已经受理申请公司总数的20.25%(652家中的132席)[1]。而在港股18A方面,到2021年12月31日为止,共有48家生物科技公司已发行,23家生物科技企业已递表[2]。在科创板受理的132家生物医药企业中,有五分之一的企业属于生物制品领域,而71家18A生物科技企业中生物制药企业有47家,占了绝大多数。
无论是科创板首先关注的科创属性,还是港交所18A政策所强调的“核心产品”的研究和开发,都意味着投资者最关心的问题是生物医药公司核心产品的先进程度,以及知识产权是否存在瑕疵。因此,贯穿生物大分子药物投融资的专利侵权风险排查(FTO),无论是针对蛋白还是核酸药物,作为整个IP尽职调查的重要且核心内容,必须更加缜密和细致。
工欲善其事,必先利其器。目前可用作大分子序列FTO检索分析的主流数据库有三个:STN Biosequences,GenomeQuest(GQ)和Patsnap Bio。其中,STN是美国化学文摘社(CAS)的老牌数据库,历史悠久,用户基数大,数据范围不仅包括CAS自己的数据(CAS REGISTRY),而且加入了德温特的数据(DERWENT GENESEQ)。新晋后辈GQ是一个专注大分子序列的美国数据库,对比STN,GQ收录了更多的专利和非专利文献中的序列信息。而智慧芽公司的Patsnap Bio,在不断完善数据收录量的同时,在满足中国本土需求方面做得相对比较好。三个商业数据库都对序列检索算法不断迭代优化,同时努力扩宽对专利和非专利文献的收录范围,三者的使用费用均相当高昂,例如GQ,单条序列检索的价格为850美元。既然鼠标轻轻一点,850美元就花出去了,那么我们在序列检索之前,首先要慎重考虑的问题就是检索策略和数据库的选择。
这些昂贵的数据库,会不会遗漏高风险专利?
我们以一个常见的抗体序列检索为例(参见图1),三个数据库都支持对抗体CDR分别进行检索的策略。
图1:抗体轻重链可变区全长序列示例
不论是STN和Patsnap沿袭自NCBI的Blast算法,或者GQ独特的GenePAST算法,在简单的抗体CDR检索上并不会有显著的差别。对于检索结果影响比较大的,反而是三个数据库不同的结果显示和导出方式(参见表1)。
表1:数据库检索结果显示和导出方式比较
表1中所谓的“以专利归并”,就是指相同的一段序列,如果出现在多个专利中,则会被合并成一条结果进行显示和导出,比如在图1的例子中,我们检索到一条目标序列,能同时匹配轻链的三个CDR(L1、L2和L3),而这条序列出现在748篇专利中,那么根据STN和Patsnap的规则,将只作为一条结果输出,而按照GQ的规则,会被作为3X748=2244个结果输出。
因此,虽然GQ有高达一百万的结果显示容量,由于输出规则的制约,很可能出现的情况是,某些短CDR匹配到的序列数量超出一百万条。例如在下图2所示的情况中,由于重链CDR1只有五个氨基酸,匹配到的序列数量超出了规则的上限。
黄任重,《科创板生物医药企业上市案例的实证分析研究》,金杜研究院,2021.11.26
沙利文捷利(深圳)云科技有限公司,《港股18A生物科技公司发行投资活报告》,2022,.2.4
图2:短CDR匹配的目标序列数量超过上限的情况
在抗体FTO检索中,高风险专利的选取标准首选三个CDR全部匹配的情况。再看本文的例子,GQ识别到的高风险序列有211条(参见图3)。
图3:GQ检索结果的并集处理
很明显,由于CDR1结果不完整,实质上导致这个FTO检索最后识别出来的211条高风险序列并不是穷尽的,如果以此作为尽调报告的分析基础,则显然是存在根本性问题的。反观STN和Patsnap,由于将序列进行归并,检索结果超出上限的情况就会比较少。
读到这里,大家可能有点晕,会问:那么在工作中任选STN和Patsnap其一是不是就可以了呢?
答案是“不一定”!我们还是来看本文示例的抗体检索的结果,在下图4中可以看到,STN和Patsnap的结果并不完全一致,在轻链的检索结果中,两个数据库都识别出的高风险专利数为454篇,两者各丢失了一定数量的高风险专利,重链检索的结果亦然。
图4:STN和Patsnap检索结果比较
通过逐一比对专利,我们发现,Patsnap对中国专利的收录及文本加工做得比较好,有些中国专利即使在STN的收录范围之内,但是由于STN对序列文本识别的问题,无法被算法找到。对比Patsnap,STN对国外专利的收录以及文本加工更胜一筹。
由此可见,要做一份缜密的大分子序列的检索报告,特别是当其中的侵权风险排查工作需要涵盖中美欧等主要市场的时候,仅仅使用一种数据库,无论检索策略如何周全,受制于数据库的先天缺陷,总是会百密一疏。因此需要同时使用两个数据库做交叉覆盖检索。当然,如果预算充足,用三个主流数据库叠加检索,会更有保障。
专利检索与分析是很多专利工作的基础,本文比较了做大分子药物FTO使用的主流数据库,后续我们将逐一介绍不同数据库、不同领域的检索策略,以及检索分析的不同应用实例,敬请期待。