-
LogP,LogD
对有机化合物
的
QSAR
的研究
< br>摘要:
自从
20
世纪
60
年代
QSAR/QSPR
研究兴起以来
,
人们研究有
机化
合物的脂水分配系数和溶解度的计算方法已经有近半个世纪
.
目前存在众多方法用于计算有机化合物的脂水分配系数和溶解度
.
相对而言
,
脂水分配系数的计算方法更为成熟一些
,
应用范围更广
,
效果也更好
.
关键词:
脂水分配系数
; logP/logD; QSAR
1.
基本概念
1.1
脂水分配系数的定义
有机化合物的脂水分配系数
(
P)
通常是指化合物在正辛醇和水两
相间的分配系数
,
以其对数值来表示其大小,标记为
其中
Coct
和
Cw
分别为化合物在正辛醇和水两相间达到平衡时的浓
度<
/p>
. logP
在许多
QSAR
研究中都是用于衡量有机化合物疏水性的重要
参数
.
当今各大制药公司都已经将
logP
列为活性化合物必测的标
准参数之一
.
通常
< br>P
给出的是中性化合物在两相间的分配系数
.
对
于
可
电
离
的
化
合
< br>物
,
情
况
则
变
得
相
当
复
杂
,
这
时
使
用
分
p>
配
率
D(distributionrat
e)
来表示溶质在两相间总的分配系数
.
例如
,
对
于
可电离的溶质
HA
可有
:
其中
[HA],
[A-]
分别代表溶质的中性状态和离子状态的浓度
.
D
是与
溶质的酸碱解离常数
pKa <
/p>
以及溶液的
pH
值相关的参数
.
假设溶质
HA
是仅在
水相电离的一元酸
,
则有
:
然而
,
如果溶质分子含有不止一个电
离中心而且在正辛醇相中
也是可以电离的
,
此时溶质在溶液中的存在形式就变得相当复杂
,
像公式
(4)
这样的简单关系就已经不再成立
.
对于含多个可电离基团
的复杂溶质分子<
/p>
, D
的具体表达式可描述为
:
这里
表示溶质在溶液中的第
i
种离子形式
,
根据电离平衡关系
,
其在两相间的浓
度与溶液
pH
值以及可电离基团的
pK
a
都密切相关
.
1.2
、
QSAR
研究的兴起
有机化合物的定量结构一活性相关
(Quantitative
Structure
—
Activity Relations
hip)
最初是作为定量药物设计的一个研究分支
领域而发展起
来的。
早在
l9
世纪,
人们对化学结构有了初步口识后,
就有人设法建立化合物的生物活性与结构的关
系。
后来发现,
当时归
纳的所谓通用规
则并不存在。到了
20
世纪初,人们普遍认为化合物
的生物效应主要取决于它们的物理性质,如溶解度、表面张力、分配
系数等
Hansch
(
1962)
和
Free
—
Wils
on( 1964)
运用统计方法并借助
计算机建立起结构——
活性关系表达式标志着
QSAR
时代的开始,从
此成为一个相当活跃的前沿领域。
QSAR
之所以有如此令人振奋的发展,一方面是化学品评价的需
要。据
美国化学文摘
(CA)
统计,化学物质已达近千万种.而且已有
约
十万种化学物质进入了人类环境。
那么这些进入人类环境的化
学物质
中,哪些对环境中的生物和人类有危害,危害的程度如何.怎样控制
和减少危害
都需要对这些化学物质进行理化性质和
生物活性实验。
但是,
据估计仅每个化学物质的急性皮肤毒性、
双周吸入毒性和二年
饮食毒性三个指标的测试费用即达
2900
―
5000
万
美元。所以,要对
所有化合物进行毒理学、生态学的全面测试,财力上不可能,人力上<
/p>
也无法傲到。必须找到一种行之有效的方法进行定量计算或近似估
计,
QSAR
则可做到这一点。
p>
2.
现有主要的
logP
< br>计算方法简介
脂水分
配系数的概念最早是由
Hansch
和
Fujita
提出的
,
同时他
们也发展出了第一种
logP
计算方法
.
随后
Rekker
等提出了第一种片
段加合法模型
. Broto
等进一步完善了
Rekker
模型中的片段划分策
略
,
发展出第一种原子加合法模型
.
一直
以来研究者们对改进和发
展新的
logP
预测方法有着浓厚的兴趣
,
更多的
logP
预测模型相继出
现
,
方法的准确度也不断提高
.
现有的<
/p>
logP
预测方法主要可以分成
两大类<
/p>
:
片段加合法和基于描述符的方法
.
2.1
片段加合法
在过去几十年里
,
许多基于片段加合法的
logP
计算模型相继被
提出
,
有些还实现了商业化
.
目前国际上比
较流行的此类方法主要
有
:
,
,
,
,
以及
,
,
,
各种方法的基本信
息总
结于表
2
中
.
这些方法的主要区别在于片段划分规则以及矫正项的
设计
.
2.1.1 CLOGP
CLOGP
是由
Hansch
和
Leo
最早发展起来的一种预测化合物
log
P
的模型
,
也是目前应用最广泛的<
/p>
logP
预测方法之一
.
在
CLOGP
模型
中最基本
片段的贡献值是由一些具有
logP
精确实验值的简单化合物<
/p>
(
如甲烷等
)
推
导而来的
.
然后其余片段的贡献值在前面的基础上由
复杂化合物的
logP
实验数据推导而来
.
最值得注意的是此方法在定
义片段的规则
中使用了
“孤立碳原子”
的概念
. <
/p>
这里一个孤立碳原子
是指不与杂原子相连的碳原子
,
或者与杂原子相连
,
但
是不是通过
双键或叁键相连的碳原子
.
在较早期的
CLOGP
版本中使用了
200
种类
型的片段和
25
种矫正项
.
从最早被
C
hou
和
Jurs
推广应用到后来商<
/p>
业化的几十年中
,
CLOGP
在学术界以及工业界得到了广泛的使用
,
一
直以来被作为有机化合物脂水分配系数计算方法的标准
.
2.1.2 ACD/LogP
ACD
/LogP
由
ACD/Labs
公司研
发
,
也是目前最常用的计算有机化
合
物
logP
值的商业软件之一
.ACD
/LogP
算法考虑基本原子类型、特
征结构片段以及加入不同
片段之间的相互作用矫正项
.ACD/LogP
所使
用的片段分类规则与
CLOGP
有所不同
,
定义的特征结构片段超过
1200
个
.
分子内相互作用矫正项依据相互作用的末
端基团类型及相
互作用体系的片段长度和类别进行划分
,
p>
包括超过
2400
对基团的相
互作用
.
以上每一项的贡献值通过对
ACD/Labs
内部数据库
(>18400
个化合物
)
的
log
P
实验值进行统计分析获得
.
ACD/LogP
的计算方法可用下述方程表示
:
其中
fi
表示提问分子第
i
种片段的贡献
, Qj
表示提问分子
第
j
种特殊片段的贡献
,
,
和
分别表示提问分子被
k
个数目的脂肪类、乙烯基类和芳香类原子分隔的第
i
种和第
j
种片
段的相互作
用矫正项贡献值
.
ACD/LogP
的基本计算步骤如下
: (1)
结
构分割和计算
f
值
,
缺失的片段使用原子加合法计算
;
p>
(2)
计算
值
,
没有相互作用的片段使用类似于
Hammett
方程的方式计算
;
(3)
加
合所有
f
和
值
.
目前
ACD/Labs
还发展了计算可电离化合物
< br>logD
值的功能
,
但是其具体算法未见公开报道
.
2.1.3 KOWWIN
KOWWIN
是由
Meylan
和
Ho
ward
发展的基于原子类型和特征片段
加合法估算有机化合物
logP
值的模型
.
模型中使用的
13062
个化合
物的
logP
实验数据中有
9500
个来自
CLOGP
方法所使用训练集中
较为
可靠的数据
.
这些数据划分为一个训练集
,
包含<
/p>
2473
个简单的有机
分子
;
另一部分作为测试集
,
包含
10589
个简单、
中等以及复
杂的分
子
.
在建立
KOWWIN
模型的过程中
,
使用两步多元线性回归分析来给
出片段以及矫正项的贡
献值
.
首先不考虑矫正项
,
仅采用简单化合物
作为训练集通过回归分析得出每种特征片段的贡献值<
/p>
.
其后再使用
包含复杂化合物的训练集
,
在前一步结果的基础上
,
以仅由特征
片
段的贡献值估算的
logP
值与实验
值的差值进行回归分析
,
得出每种
矫正项的贡献值
.
目前最新版本的
KOWWIN
方法使用
150
种原子类型和特征片段
以
及
250
种矫正项
< br>.
模型可表达为
:
其中
分别是提问分子中第
k
< br>种原子或片段对
logP
的贡献值和
数目
; Fj, Nj
分别是提问分子中第
j
种矫正项对<
/p>
logP
的贡献值和
出现次数
. 0.229
是多元线性回归得出的常数
. <
/p>
最近
Meylan
等提出
一
种
改
进
策
略
.
他
们
在
KOWWIN
方
法
中
应
用
了
“
experimental
valueadjusted(EVA)
”
算法
,
其基本思想是
:
对于提问分子
,
可以使
用一个
logP
实验值已知的类似物作为参考分子<
/p>
.
但是由于在他们的
方法中参考分子必
须由用户自己指定
,
使用起来很不方便
.
2.2
基于描述符的方法
当溶质分子在正辛醇和水两相间平衡时
,
根据热力学循环可以
得出以下关系式
: