分子類似性検索 用語集
このページでは、分子類似性検索で使用される専門用語を、文系出身の方や初心者にもわかりやすく解説します。
基本概念
分子類似性検索 (Molecular Similarity Search)
簡単に言うと: 「似ている分子を見つける技術」
既知の効果がある薬と似た構造を持つ化合物を探す方法です。これは、人の顔認識技術に似ています。特定の人に似た顔を持つ人を見つけるように、特定の薬に似た構造を持つ化合物を見つけます。
なぜ重要?: 新しい薬を一から作るのは時間とお金がかかるため、既に効果が分かっている薬と似た構造の化合物から始めることで、成功確率を上げることができます。
SMILES記法 (Simplified Molecular Input Line Entry System)
簡単に言うと: 「分子の住所表記」
分子の構造を文字列で表現する方法です。郵便番号で住所を特定するように、文字と記号の組み合わせで分子を特定できます。
例:
- 水 (H₂O):
O - アスピリン:
CC(=O)OC1=CC=CC=C1C(=O)O
参考リンク: SMILES記法について(英語)
フィンガープリント技術
分子フィンガープリント (Molecular Fingerprint)
簡単に言うと: 「分子の指紋」
人間の指紋が個人を識別するユニークなパターンを持つように、分子フィンガープリントは分子の構造的特徴をビット列(0と1の並び)で表現します。
日常的な例え:
- 人の特徴を「背が高い=1、低い=0」「髪が長い=1、短い=0」のように数値化するのと同じ
- 分子の場合は「ベンゼン環がある=1、ない=0」「炭素原子が10個以上=1、未満=0」など
Morgan フィンガープリント(ECFP)
簡単に言うと: 「近所の環境を考慮した分子の特徴抽出」
各原子の周りの環境(どんな原子と結合しているか)を段階的に広げながら特徴を抽出する方法です。
日常的な例え:
- あなたの「近所」を説明するとき、「隣の家」→「同じ町内」→「同じ区」と範囲を広げていくのと同じ
- 分子でも原子の「近所」を段階的に広げて特徴を調べます
MACCS キー
簡単に言うと: 「分子の基本的なチェックリスト」
166個の決まった構造パターン(「ベンゼン環がある」「アルコール基がある」など)があるかないかをチェックする方法です。
日常的な例え:
- アパート探しの条件チェックリスト(「駅近い=○」「ペット可=×」「築浅=○」など)
- 分子でも決まった構造があるかを○×でチェック
類似性指標
Tanimoto係数
簡単に言うと: 「2つのものがどれくらい似ているかを0~1で表す数値」
2つの分子がどれくらい似ているかを表す最も一般的な指標です。
計算方法(簡単版):
類似度 = 共通する特徴の数 ÷ (分子Aの特徴数 + 分子Bの特徴数 - 共通する特徴の数)
日常的な例え:
- 2人の趣味の類似度を計算する場合
- AさんとBさんが共通して持つ趣味 ÷ 2人の趣味の総数(重複除く)
値の意味:
- 1.0: 完全に同じ
- 0.8: かなり似ている
- 0.5: まあまあ似ている
- 0.2: あまり似ていない
- 0.0: 全く似ていない
Dice係数
簡単に言うと: 「Tanimoto係数より少し甘い類似度計算」
Tanimoto係数と似ていますが、一般的により高い値を示します。
薬物設計の基準
Lipinski’s Rule of Five
簡単に言うと: 「飲み薬になりやすい分子の条件」
クリストファー・リピンスキーが提唱した、経口薬(飲み薬)として適している化合物の4つの条件:
- 分子量 ≤ 500: 大きすぎると体に吸収されにくい
- LogP ≤ 5: 水と油のバランス(親水性と疎水性)
- 水素結合ドナー数 ≤ 5: 水素を提供できる部分の数
- 水素結合アクセプター数 ≤ 10: 水素を受け取れる部分の数
日常的な例え:
- 良い飲み薬の条件は、良い従業員の条件に似ています
- 「適度なサイズ」「バランスの取れた性格」「協調性がある」など
参考文献: Lipinski, C.A. et al. (1997) Advanced Drug Delivery Reviews
高度な手法
バーチャルスクリーニング
簡単に言うと: 「コンピュータ上での大規模な薬候補探し」
何百万もの化合物データベースから、既知の薬と似ている化合物をコンピュータで効率的に探し出す技術です。
日常的な例え:
- マッチングアプリで理想の相手を探すのと同じ
- 条件を設定して、大量のデータから候補を絞り込む
クラスタリング分析
簡単に言うと: 「似ている分子同士をグループ分け」
類似した特徴を持つ分子を自動的にグループに分類する技術です。
日常的な例え:
- 音楽をジャンル別に分類する
- 顧客を購買行動によってセグメント分けする
化学空間の可視化 (Chemical Space Visualization)
簡単に言うと: 「分子の世界地図を作る」
多次元の分子情報を2次元の地図のように表示して、分子間の関係を視覚的に理解できるようにする技術です。
使用技術:
- PCA (主成分分析): データの中で最も重要な特徴を抽出
- t-SNE: 複雑な関係を2次元で表現
MaxMinアルゴリズム
簡単に言うと: 「バランス良く多様な化合物を選ぶ方法」
似すぎていない、バラエティに富んだ化合物セットを効率的に選択するアルゴリズムです。
日常的な例え:
- パーティーの参加者を選ぶとき、似たような人ばかりではなく、多様な背景を持つ人を選ぶ
- 投資でリスク分散するために、異なる業界の株を選ぶ
創薬における応用
QSAR (Quantitative Structure-Activity Relationship)
簡単に言うと: 「分子の構造と効果の関係を数式で表す」
分子の構造的特徴と生物学的活性(薬効)の関係を数学的に解析する手法です。
ADMET予測
簡単に言うと: 「薬になった時の体内での動きを予測」
- Absorption (吸収): 体に取り込まれやすいか
- Distribution (分布): 体内のどこに行くか
- Metabolism (代謝): 体内でどう変化するか
- Excretion (排泄): どう体外に出るか
- Toxicity (毒性): 副作用はあるか
関連リンク・参考資料
入門書籍
- 「化学と生物の接点を探る」(化学同人)
- 「コンピュータ創薬学入門」(東京化学同人)
オンラインリソース
- RDKit Documentation
- ChEMBL Database - 薬物データベース
- PubChem - 化学物質データベース
学術論文(入門レベル)
- Willett, P. (2006). “Similarity-based virtual screening using 2D fingerprints.” Drug Discovery Today
- Bajorath, J. (2002). “Integration of virtual and high-throughput screening.” Nature Reviews Drug Discovery
注意: この用語集は教育目的で作成されています。実際の創薬研究では、より詳細で正確な定義を参照してください。