化合物データベース用語集

基本概念

化合物データベース (Compound Database)

意味: 化学物質の構造や性質などの情報を整理・保存したデジタル図書館
例え: 本の図書館のように、化学物質の情報を体系的に整理した巨大な倉庫
重要性: 世界中の研究者が化学物質の情報を共有・活用できる

CID (Compound Identifier)

意味: 各化合物に割り当てられた固有の識別番号
例: PubChemでは各化合物にCID番号が付与される
例え: 住民票番号や学籍番号のように、化合物を特定するためのID
用途: データベース検索や化合物の正確な特定

API (Application Programming Interface)

意味: プログラムがデータベースにアクセスするための窓口
例え: ATMのように、決められた方法でデータベースと「会話」する仕組み
利点: 手動検索ではなく、自動的に大量のデータを取得できる

主要データベース

PubChem

運営: 米国国立医学図書館（NCBI）
規模: 1億以上の化合物
特徴: 無料で利用可能、構造・物性・生物活性データ
例え: 化学の「Wikipedia」のような存在
用途: 一般的な化合物情報の検索

ChEMBL

運営: 欧州バイオインフォマティクス研究所（EBI）
規模: 200万以上の化合物
特徴: 生物活性データに特化
例え: 薬の「効き目データベース」
用途: 薬効・毒性研究、標的タンパク質研究

DrugBank

運営: カナダ・アルバータ大学
規模: 約15,000の薬物
特徴: 承認薬・実験薬・栄養補助食品の包括的情報
例え: 薬の「百科事典」
用途: 薬物相互作用、薬理学研究

ZINC

運営: カリフォルニア大学サンフランシスコ校
規模: 7億5000万以上の化合物
特徴: バーチャルスクリーニング用ライブラリ
例え: 薬の候補となる化合物の「カタログ」
用途: コンピュータ創薬、化合物ライブラリ構築

検索・分析手法

構造検索 (Structure Search)

意味: 化学構造を基準とした検索方法
種類:

完全一致: 全く同じ構造の化合物を検索
部分構造検索: 特定の構造部分を含む化合物を検索
類似性検索: 似た構造の化合物を検索

例え:

完全一致 → 「全く同じ顔の人」を探す
部分構造 → 「青い目の人」を探す
類似性 → 「似た顔の人」を探す

SMARTS (SMILES Arbitrary Target Specification)

意味: 部分構造検索のためのパターン記述言語
例: c1ccccc1 = ベンゼン環を含む化合物を検索
例え: 正規表現のように、構造パターンを文字列で表現
用途: 特定の官能基や構造モチーフを持つ化合物の検索

バーチャルスクリーニング (Virtual Screening)

意味: コンピュータ上で大量の化合物から薬の候補を絞り込む手法
例え: オンラインショッピングの「絞り込み検索」を化学の世界で行う
利点: 実験前に候補を大幅に絞り込める（時間・コスト削減）

分子特性・記述子

IC50

意味: 生物活性を50%阻害するのに必要な化合物濃度
単位: μM（マイクロモル）、nM（ナノモル）など
例え: 「この薬を何mg飲めば効果が現れるか」の指標
重要性: 薬の効き目の強さを数値で比較できる

EC50

意味: 最大効果の50%を引き起こすのに必要な化合物濃度
用途: 薬の効果の強さを測定
例え: 「この薬を何mg飲めば期待する効果の半分が得られるか」

毒性データ (Toxicity Data)

種類:

LD50: 50%の個体が死亡する投与量
肝毒性: 肝臓への悪影響
心毒性: 心臓への悪影響

例え: 薬の「副作用情報」
重要性: 安全な薬を開発するために不可欠

データ統合・管理

化合物ライブラリ (Compound Library)

意味: 特定の目的のために集められた化合物のコレクション
例: 抗がん剤候補ライブラリ、天然物ライブラリ
例え: テーマ別に整理された本の「特別コレクション」
用途: 効率的な薬物探索

重複除去 (Deduplication)

意味: 同じ化合物が複数回登録されているのを統合する処理
例え: 図書館で同じ本が複数ある場合に1冊にまとめる作業
必要性: データの整合性確保、解析の正確性向上

データクリーニング (Data Cleaning)

意味: データベース内の不正確・不完全な情報を修正する処理
例: 構造の誤り、単位の統一、欠損値の処理
例え: 住所録の誤字脱字や重複を修正する作業

高度な分析手法

SAR (Structure-Activity Relationship)

意味: 化学構造と生物活性の関係性
例: 「分子のこの部分を変えると効果が強くなる」
例え: 料理のレシピで「この調味料を増やすと辛くなる」関係
用途: 薬の最適化、新薬設計

QSAR (Quantitative Structure-Activity Relationship)

意味: 構造と活性の関係を数式で表現
例: 分子記述子から活性値を予測する数学モデル
例え: 身長・体重から適正カロリーを計算する式
用途: 新化合物の活性予測

化学空間 (Chemical Space)

意味: 全ての可能な化学構造を表現する多次元空間
例え: 地図上のように、化学物質を「配置」した仮想空間
可視化: PCA、t-SNEなどで2D/3Dプロットとして表示
用途: 未探索領域の特定、多様性の評価

実用的概念

Hit化合物

意味: 初期スクリーニングで活性が確認された化合物
例え: オーディションで「1次合格」した候補
特徴: まだ最適化が必要、副作用等は未検討

Lead化合物

意味: Hit化合物を最適化した、開発候補となる化合物
例え: オーディションで「最終候補」に残った人材
特徴: 効果・安全性・薬物動態が一定水準を満たす

薬物再配置 (Drug Repurposing)

意味: 既存の薬を別の病気の治療に使用すること
例: バイアグラ（心臓病薬）→ ED治療薬として再利用
利点: 開発期間・コストを大幅削減
方法: データベース解析で新しい適応症を発見

学習リソース

公式ドキュメント

PubChem API - PubChem REST API仕様
ChEMBL Web Services - ChEMBL API
DrugBank - DrugBankデータベース

チュートリアル・教材

RDKit Cookbook - 化学情報学の実践例
Chemical Databases - Wikipedia化学データベース
Introduction to Cheminformatics - 学術論文集

実践演習

Jupyter Notebookでの実際のAPI使用例
化合物検索・解析の段階的チュートリアル
実際の創薬事例を用いたケーススタディ

💡 学習のポイント:

各データベースの特徴と使い分けを理解する
APIを使った自動データ取得の方法を習得する
実際の創薬研究での活用例を学ぶ
段階的に複雑な解析手法にチャレンジする

化合物データベース用語集