タンパク質設計
タンパク質設計(たんぱくしつせっけい、英: protein design)とは、新規の活性、動作、または目的を設計し、タンパク質機能の基礎的な理解を深めるための、新しいタンパク質分子の合理的な設計である[1]。タンパク質設計には、ゼロから設計する方法(de novo設計、デノボせっけい、de novo design)と、既知のタンパク質構造とその配列を数理モデルで作る方法(タンパク質再設計、protein redesign)がある。合理的タンパク質設計(英: rational protein design)のアプローチでは、特定の構造に折りたたまれるようにタンパク質の配列を予測する。次に、これらの予測された配列は、ペプチド合成、部位特異的変異誘発、または人工遺伝子合成などの方法で実験的に検証される。
合理的タンパク質設計の歴史は1970年代半ばにまでさかのぼる[2]。しかし最近では、タンパク質の構造安定性に寄与するさまざまな要因の理解が深まり、より優れた計算手法が開発されたこともあって、水溶性および膜貫通型のペプチドやタンパク質の合理的設計に成功した例が数多く見られるようになった。
概要と歴史
編集合理的タンパク質設計の目標は、特定のタンパク質構造に折りたたまれるアミノ酸配列を予測することである。可能なタンパク質配列の数は膨大で、タンパク質鎖の大きさとともに指数関数的に増加してゆくが、その一部の集まりだけが確実かつ迅速に1つの天然状態に折りたたまれる。タンパク質設計は、この部分集合の中から新規配列を見つけ出すことである。タンパク質の天然状態とは、その鎖の配座自由エネルギーの最小値である。したがって、タンパク質設計とは、選択された構造を自由エネルギーの最小値とする配列を探索することである。ある意味では、タンパク質構造予測の逆を行くものである。設計では、三次構造が指定され、それに折りたたまれる配列が特定される。そのため、逆フォールディング(inverse folding)とも呼ばれている。つまり、タンパク質の設計は最適化問題であり、いくつかのスコアリング基準を用いて、目的の構造に折りたたまれる最適な配列を選択するものである。
1970年代から1980年代にかけて、最初のタンパク質が合理的に設計されたとき、これらの配列は、他の既知のタンパク質の分析、配列構成、アミノ酸電荷、および目的とする構造の幾何学性に基づいて、手作業で最適化された[2]。最初に設計されたタンパク質は、Bernd Gutteが、既知の触媒であるウシリボヌクレアーゼを還元したものと、DDTの結合体を含むβシートとαヘリックスからなる三次構造を設計したことによる。Urryらはその後、配列組成のルールに基づいてエラスチン様繊維状ペプチドを設計した。Richardsonらは、既知のタンパク質とは配列相同性のない79残基のタンパク質を設計した[2]。1990年代に入り、強力なコンピューター、アミノ酸立体構造のライブラリ、そして主に分子動力学シミュレーションのために開発された力場の出現により、構造ベースの計算機タンパク質設計ツールの開発が可能になった。このような計算ツールの開発を受けて、過去30年間でタンパク質設計は大きな成功を収めてきた。完全に新規に設計することに成功した最初のタンパク質は、1997年にStephen Mayoらによって作られたもので[3]、その直後の1999年にはPeter S. Kimらによって、非天然の右巻きコイルドコイルの二量体、三量体、四量体が設計された[4][5]。2003年、David Bakerの研究室は、自然界ではこれまでに見たことのない折りたたみ方をした完全なタンパク質を設計した[6]。その後、2008年に、Bakerのグループは、2つの異なる反応のために酵素を計算で設計した[7]。2010年には、計算機で設計されたタンパク質プローブを用いて、患者の血清から最も強力な広域中和抗体の1つが分離された[8]。これらの成功やその他の成功により(例えば、以下の例を参照)、タンパク質設計は、タンパク質工学で利用できる最も重要なツールの一つとなっている。大小さまざまな新しいタンパク質設計が、生物医学や生物工学に役立つことが期待されている。
タンパク質の構造と機能の基礎となるモデル
編集タンパク質設計プログラムは、in vivo(生体内)環境でタンパク質を動かす分子間力のコンピュータモデルを使用する。問題を扱いやすくするために、これらの力はタンパク質設計モデルによって単純化されている。タンパク質設計プログラムはさまざまであるが、4つの主要なモデル化の問題に対処しなければならない。設計のターゲット構造、ターゲット構造に持たせる柔軟性、探索に含める配列、および配列や構造のスコアリングに使用する力場である。
ターゲット構造
編集タンパク質の機能は、タンパク質の構造に大きく依存しており、合理的タンパク質設計では、この関係を利用して、ターゲット構造や折りたたみを持つタンパク質を設計することにで機能を設計する。したがって、定義上、合理的タンパク質設計では、ターゲット構造や構造のアンサンブルを事前に知っておく必要がある。これは、さまざまな方法で特定の機能を果たすタンパク質を見つける定向進化や、配列はわかっているが構造が不明なタンパク質構造予測など、他のタンパク質工学とは対照的である。
多くの場合、ターゲット構造は、他のタンパク質の既知の構造に基づいている。しかし、自然界では見られない新規折りたたみ方がますます可能になっている。Peter S. Kimらは、これまで自然界では見られなかった、非天然のコイルドコイルの三量体や四量体を設計した[4][5]。David Baker研究室で開発されたタンパク質Top7は、タンパク質設計アルゴリズムを用いて完全な新規折りたたみが設計されている[6]。最近では、Bakerらが、二次構造予測と三次構造の橋渡しをするタンパク質フォールディングファンネルに基づいて、理想的な球状タンパク質構造を設計するための一連の原理を開発した。これらの原理は、タンパク質構造予測とタンパク質設計の両方に基づいており、5種類の新規タンパク質トポロジーを設計するために使用された[9]。
配列空間
編集合理的タンパク質設計では、既知のタンパク質の配列や構造からタンパク質を再設計することも、de novoタンパク質設計で完全にゼロから設計することもできる。タンパク質再設計では、配列中のほとんどの残基は野生型アミノ酸として維持されるが、いくつかの残基には変異が許される。de novo設計では、過去の配列を基にして、配列全体が新たに設計される。
de novo設計でもタンパク質再設計でも、配列空間にルールを設けることができ、それは、それぞれの変異可能な残基位置で許容される特定のアミノ酸の決定である。たとえば、HIV広域中和抗体を選択するためのRSC3プローブの表面の組成は、進化的データと電荷平衡に基づいて制限されていた。初期のタンパク質設計の試みの多くは、配列空間上の経験則に大きく基づいていた[2]。さらに、繊維状タンパク質の設計は、通常、配列空間の厳格なルールに従う。例えば、コラーゲンベースで設計されたタンパク質は、Gly-Pro-Xの繰り返しパターンで構成されていることが多い[2]。計算技術の登場により、配列選択に人間が介在しなくてもタンパク質を設計できるようになった[3]。
構造の柔軟性
編集タンパク質設計では、タンパク質のターゲット構造(または複数の構造)がわかっている。しかし、合理的タンパク質設計アプローチでは、その構造に合わせて設計できる配列の数を増やし、配列が別の構造に折りたたまれる可能性を最小限に抑えるために、ターゲット構造がある程度の柔軟性を持つようモデル化する必要がある。たとえば、タンパク質再設計において、密に詰まったコア内にある1つの小さなアミノ酸(アラニンなど)を再設計する場合、周囲の側鎖が再パッキングを許さなければ、合理的設計手法によってターゲット構造に折りたたまれると予測される変異体は非常に少ない。
このように、設計プロセスの重要なパラメータは、側鎖と主鎖の両方にどれだけの柔軟性を持たせるかということである。最も単純なモデルでは、タンパク質の主鎖は剛体のまま保たれ、タンパク質の側鎖の一部が立体配座を変更できる。ただし、側鎖は、結合長、結合角、およびχ二面角に多くの自由度を持つことができる。この空間を単純化するために、タンパク質設計法では、結合長と結合角に理想的な値を想定する回転異性体ライブラリを使用し、χ二面角を回転異性体(rotamer、ロータマー)と呼ばれるいくつかの繁盛に観察される低エネルギー配座に限定する。
回転異性体ライブラリは、多くのタンパク質構造の分析に基づいて回転異性体を記述する。主鎖非依存の回転異性体ライブラリは、すべての回転異性体を記述する[10]。一方、主鎖依存型回転異性体ライブラリでは、側鎖周辺のタンパク質主鎖の配置に応じて、回転異性体がどの程度出現する可能性があるかを記述する。回転異性体ライブラリで記述される回転異性体は、通常、空間上の領域である[11]。ほとんどのタンパク質設計プログラムでは、1つの立体配座(例えば、空間内の回転異性体二面角の再頻値)または回転異性体によって記述される領域内の複数の点を使用する。対照的に、OSPREYタンパク質設計プログラムは、連続領域全体をモデル化する[12]。
合理的タンパク質設計では、タンパク質の一般的な骨格を維持する必要があるが、骨格の柔軟性をある程度確保することで、タンパク質の一般的な折りたたみを維持しながらその構造に折りたたまれる配列の数を大幅に増やすことができる[13]。タンパク質再設計においては、配列変異は骨格構造に小さな変化をもたらすことが多いため、骨格の柔軟性は特に重要である。さらに、主鎖の柔軟性は、結合予測や酵素設計など、タンパク質設計のより高度な応用に不可欠である。タンパク質設計の主鎖の柔軟性のモデルには、小さくて連続的な大域的主鎖の動き、ターゲットフォールドの周りの離散的な主鎖サンプル、バックラブ(backrub)の動き、およびタンパク質ループの柔軟性などがある[13][14]。
エネルギー関数
編集合理的タンパク質設計のためには、ターゲットフォールドの下で安定する配列を、他の低エネルギーの競合状態を好む配列から区別しなければならない。そのため、タンパク質設計には、ターゲット構造にどれだけうまく折りたためるかによって配列をランク付けし、スコアリングできる正確なエネルギー関数が必要である。しかし同時に、これらのエネルギー関数は、タンパク質設計における計算上の課題を考慮しなければならない。設計を成功させるための最も困難な要件の1つは、計算機計算上の正確さと単純さを兼ね備えたエネルギー関数である。
最も正確なエネルギー関数は、量子力学的シミュレーションに基づくものである。しかし、このようなシミュレーションは時間がかかりすぎるため、通常、タンパク質設計には実用的ではない。その代わりに、多くのタンパク質設計アルゴリズムでは、分子力学シミュレーションプログラムを改造した物理ベースのエネルギー関数、知識ベースのエネルギー関数、またはその両方を組み合わせたハイブリッドのいずれかを使用している。最近の傾向としては、より多くの物理ベースの位置エネルギー関数を使うようになってきている[15]。
AMBERやCHARMMのような物理ベースのエネルギー関数は、通常、量子力学シミュレーションや、熱力学、結晶学、分光学などの実験データから導出される[16]。これらのエネルギー関数は通常、物理エネルギー関数を単純化し、ペアワイズ分解可能にしている。つまり、タンパク質の立体配座の総エネルギーは、各原子ペア間のペアエネルギーを加算することで計算できるため、最適化アルゴリズムにとって魅力的なものとなっている。物理ベースのエネルギー関数は、一般的に、原子間の引力-反発レナード-ジョーンズ項と、非結合原子間のペアワイズ静電クーロン項[17]をモデル化する。
統計的ポテンシャルは、物理ベースのポテンシャルとは対照的に、計算速度が速く、複雑な効果を暗黙的に説明することができ、タンパク質構造の小さな変化にも影響されにくいという利点がある[19]。これらのエネルギー関数は、構造データベース上の出現頻度からエネルギー値を導き出したものである。
ただし、タンパク質の設計には、分子力学的な力場では制限されるような要件がある。分子動力学シミュレーションで主に使われてきた分子力学力場は、単一配列のシミュレーションに最適化されているが、タンパク質設計では多くの配列の多くの立体配座を探索する。そのため、分子力学力場は、タンパク質設計に合わせて調整する必要がある。実際には、タンパク質設計のエネルギー関数には、統計項と物理ベース項の両方が含まれていることが多くある。たとえば、最も使われているエネルギー関数の一つであるRosettaエネルギー関数には、CHARMMエネルギー関数に由来する物理ベースエネルギー項と、回転異性体確率や知識ベースの静電気などの統計エネルギー項が組み込まれている。一般的に、エネルギー関数は研究所間で高度にカスタマイズされており、すべての設計に合わせて特別に調整されている[16]。
効果的なエネルギー関数の設計課題
編集水は、タンパク質を取り巻く分子のほとんどを構成しており、タンパク質の構造を決める推進力となっている。したがって、水とタンパク質の間の相互作用をモデル化することは、タンパク質設計において極めて重要である。ある時点でタンパク質と相互作用する水分子の数は膨大であり、それぞれの水分子は多数の自由度と相互作用パートナーを持っている。その代わり、タンパク質設計プログラムでは、そのような水分子のほとんどを連続体としてモデル化し、疎水性効果と溶媒和分極の両方をモデル化している[16]。
個々の水分子は、時に、タンパク質コアや、タンパク質-タンパク質またはタンパク質-リガンドの相互作用において、重要な構造的役割を果たすことがある。このような水のモデル化に欠点があると、タンパク質-タンパク質間の界面の最適配列を誤って予測する可能性がある。別の方法として、水分子を回転異性体に加えることができる[16]。
最適化問題として
編集タンパク質設計の目的は、ターゲット構造に折りたたまれるタンパク質の配列を見つけることである。したがって、タンパク質設計アルゴリズムは、ターゲットフォールドに対する各配列のすべての立体配座を探索し、タンパク質設計エネルギー関数によって決定される各配列の最低エネルギー立体配座に応じて配列をランク付けする必要がある。このように、タンパク質設計アルゴリズムへの典型的な入力は、ターゲットフォールド、配列空間、構造の柔軟性、およびエネルギー関数であり、出力はターゲット構造に安定して折りたまれると予測される1つ(または複数の)配列である。
しかし、候補タンパク質配列の数は、タンパク質残基の数とともに指数関数的に増加する。たとえば、長さ100のタンパク質配列が20100個あるとする。さらに、アミノ酸側鎖の立体配座が少数の回転異性体に限定されるとしても(「構造の柔軟性」参照)、これにより、各配列の立体配座数は指数関数的に増加する。したがって、100残基のタンパク質において、各アミノ酸がちょうど10個の回転異性体を持つと仮定すると、この空間を探索する探索アルゴリズムは、200100以上のタンパク質の立体配座を探索しなければならない。
最も一般的なエネルギー関数は、回転異性体とアミノ酸タイプの間のペアワイズ項に分解できるため、問題を組み合わせ問題として計算し、強力な最適化アルゴリズムを用いて解決することができる。このような場合、各配列に属する各立体配座の総エネルギーは、残基位置間の個別項とペアワイズ項の和として定式化できる。設計者が最良の配列のみに関心がある場合、タンパク質設計アルゴリズムは、最低エネルギー配列の最低エネルギー配座のみを必要とする。このような場合には、各回転異性体のアミノ酸の同一性を無視し、異なるアミノ酸に属するすべての回転異性体を同じように扱うことができる。タンパク質鎖の残基位置 i にある回転異性体を ri とし、回転異性体の内部原子間の位置エネルギーを E(ri) とする。E(ri, rj) を、残基位置 j における ri と回転異性体 rj の間の位置エネルギーとする。そして、最適化問題を最小エネルギー (ET) の立体配座を見つけることの1つと定義する。
ET を最小化する問題は、NP困難な問題である[14][20][21]。問題のクラスがNP困難であるにもかかわらず、実際には、タンパク質設計の多くの事例は、ヒューリスティックな方法によって正確に解決したり、十分に最適化することができる。
アルゴリズム
編集タンパク質設計問題に特化したいくつかのアルゴリズムが開発されている。これらのアルゴリズムは、大きく2つのクラスに分類でき、実行時間の保証はないが解の質を保証するデッドエンド削除などの厳密アルゴリズムと、厳密アルゴリズムよりも高速だが結果の最適性が保証されていないモンテカルロ法などのヒューリスティックなアルゴリズムがある。厳密アルゴリズムは、最適化プロセスがタンパク質設計モデルに従って最適解を生成することを保証する。したがって、これらが実験的に検証されたときに厳密アルゴリズムの予測が失敗した場合、エラーの原因は、エネルギー関数、許容される柔軟性、配列空間、またはターゲット構造(たとえば、設計できない場合)に起因すると考えられる[22]。
いくつかのタンパク質設計アルゴリズムを以下に示す。これらのアルゴリズムは、タンパク質設計問題の最も基本的な定式化である式(1)のみに対応しているが、設計者がタンパク質設計モデルに改良や拡張を導入することで最適化の目標が変化した場合、例えば、許容される構造的な柔軟性(タンパク質の主鎖の柔軟性など)の改善や、洗練されたエネルギー項の追加などを含め、モデリングを改善するタンパク質設計の拡張機能の多くは、これらのアルゴリズムの上に構築されている。例えば、Rosetta Designでは、洗練されたエネルギー項や、最適化アルゴリズムとしてモンテカルロ法を用いた主鎖の柔軟性などが組み込まれている。OSPREYのアルゴリズムは、デッドエンド削除アルゴリズムとA*探索アルゴリズムをベースに、主鎖と側鎖の連続的な動きを取り入れている。このように、各アルゴリズムは、タンパク質設計に利用できるさまざまな種類のアルゴリズムについて、優れた展望を提供している。
2020年7月、科学者たちは、新規タンパク質の進化的設計の開発のために、ゲノムデータベースを利用した人工知能(AI)ベースのプロセスを報告した。彼らはディープラーニングを用いて設計ルールを特定した[23][24]。
数学的な保証付き最適化アルゴリズム
編集デッドエンド削除
編集デッドエンド削除 (dead-end elimination、DEE) アルゴリズムは、大域的最低エネルギー配座(global lowest energy conformation、GMEC)の一部ではないことが証明できる回転異性体を削除することにより、問題の探索空間を反復的に縮小する。各反復において、デッドエンド削除アルゴリズムは、各残基位置で可能なすべての回転異性体のペアを比較し、別の回転異性体 ri よりも常に高いエネルギーを持つことが示すことができ、したがってGMECの一部ではない各回転異性体 r′i を除去する。
また、デッドエンド削除アルゴリズムに対する他の強力な拡張として、ペア削除基準や一般化デッドエンド削除基準がある。このアルゴリズムはまた、証明可能な保証付きで連続的な回転異性体を扱えるようにも拡張されている。
デッドエンド削除アルゴリズムは、各反復において多項式時間で実行されるが、収束を保証するものではない。ある一定の反復回数の後、デッドエンド削除アルゴリズムがそれ以上の回転異性体を刈り込まない場合、回転異性体を合併するか、別の探索アルゴリズムを使用して残りの探索空間を探索する必要がある。このような場合、デッドエンド削除は、探索空間を縮小するための事前フィルタリング・アルゴリズムとして機能し、A*、モンテカルロ、線形計画法、FASTERなどの他のアルゴリズムを使用して残りの探索空間を探索する[14]。
分枝限定法
編集タンパク質設計の立体配座空間は、タンパク質残基を任意の順序で並べ、残基内の各回転異性体で木が分岐するような木構造で表現することができる。分枝限定アルゴリズム(branch and bound algorithms)は、この表現を用いて立体配座木を効率的に探索する。各分岐で、分枝限定アルゴリズムは、立体配座空間を結合し、有望な分岐のみを探索する[14][25][26]。
タンパク質設計のための一般的な探索アルゴリズムは、A*探索アルゴリズム(A* search algorithm)である[14][26]。A*は、各部分木のパスに対して、展開された各回転異性体のエネルギーを(保証付きで)下限とする下限スコアを計算する。おのおのの部分立体配座は優先キューに追加され、各反復において、最も低い下限値を持つ部分的パスがキューから取り出されて展開される。このアルゴリズムは、完全な立体配座が列挙されると停止し、その立体配座が最適であることを保証する。
タンパク質設計のA*スコア f は、 f=g+h の2つの部分から構成される。g は、部分立体配座ですでに割り当てられている回転異性体の正確なエネルギーである。h は、まだ割り当てられていない回転異性体のエネルギーの下限値である。それぞれは、以下のように設計されている。ここで、d は部分立体配座の最後に割り当てられた残基のインデックスである。
整数線形計画法
編集ET を最適化する問題(式(1))は、整数線形計画(integer linear program、ILP)として簡単に定式化できる[27]。最も強力な定式化の一つは、最終解における回転異性体とエッジの存在を表すために二値変数を使用し、各残基に対して回転異性体を正確に1つ、各残基のペアに対して1つのペアワイズ相互作用を持つように解を制約するものである。
ここに次を仮定する。
CPLEXに代表されるILPソルバーは、タンパク質設計問題の大規模な事例に対して、正確な最適解を計算することができる。これらのソルバーは、問題の線形計画緩和(linear programming relaxation)を使用し、qi と qij が連続した値をとることができ、ブランチ・アンド・カットアルゴリズム(branch and cut)を組み合わせて、最適な解を求めて立体配座空間のごく一部を探索するものである。ILPソルバーは、側鎖配置問題の多くの事例を解決することが示されている[27]。
線形計画法双対問題に対するメッセージ伝搬法に基づく近似法
編集ILPソルバーは、シンプレックス法やバリアベース法などの線形計画法(LP)アルゴリズムに依存して、各分岐でLP緩和を実行する。これらのLPアルゴリズムは、汎用の最適化手法として開発されたものであり、タンパク質設計問題(式(1))に最適化されたものではない。そのため、問題のサイズが大きくなると、LP緩和がILPソルバーのボトルネックになる[28]。最近では、タンパク質設計問題のLP緩和の最適化のために、メッセージ伝搬アルゴリズム(message-passing)に基づくいくつかの代替案が設計された。これらのアルゴリズムは、整数計画の双対問題または主問題の両方を近似することができるが、最適性の保証を維持するためには、タンパク質設計問題の双対を近似するために使用するのが最も有効である。なぜなら、双対を近似することで、解を見逃さないことを保証するからである。メッセージ伝搬法に基づく近似法には、ツリー再重み付け最大積メッセージ伝搬アルゴリズム(tree reweighted max-product message passing)[29][30]や、メッセージ伝搬線形計画アルゴリズム(message passing linear programming)[31]などがある。
保証のない最適化アルゴリズム
編集モンテカルロ法とシミュレーテッドアニーリング法
編集モンテカルロ法は、タンパク質設計に最も広く用いられているアルゴリズムの一つである。もっとも単純な形式では、モンテカルロアルゴリズム(Monte Carlo)がランダムに残基を選択し、その残基でランダムに選択された(任意のアミノ酸の)回転異性体が評価される[21]。タンパク質の新しいエネルギー Enew は、古いエネルギー Eold と比較され、新しい回転異性体が次のとおり確率的に受け入れられる。
ここに、 β はボルツマン定数であり、温度 T は、初期ラウンドでは高く、局所的な最小値を乗り越えるためにゆっくりアニーリング(annealing)されるように選択できる[12]。
FASTER
編集FASTERアルゴリズムは、決定論的基準と確率論的基準を組み合わせて、アミノ酸配列を最適化する。FASTERは、最初にDEEを使って、最適解に含まれない回転異性体を排除する。次に、一連の反復ステップにより、回転異性体の割り当てを最適化する[32][33]。
確率伝播法
編集タンパク質設計のための確率伝播法(belief propagation)では、アルゴリズムは、各残基が近隣する残基の各回転異性体の確率について持っている確率を記述したメッセージを交換する。このアルゴリズムは、反復ごとにメッセージを更新し、収束するまで、または一定の反復回数まで反復する。タンパク質設計において収束は保証されていない。ある残基 i が隣接残基 j のすべての回転異性体 (rj に送るメッセージ mi→ j(rj は次のように定義される。
max-productとsum-productの両方の確率伝播が、タンパク質設計の最適化に使用されている。
タンパク質設計の応用と事例
編集酵素の設計
編集新規酵素の設計は、計り知れない生物工学や医用生体工学への応用が期待されるタンパク質設計の一つである。一般に、タンパク質構造の設計と酵素の設計は異なり、これは、酵素の設計では触媒機構に関わる多くの状態を考慮する必要があることによる。しかし、タンパク質の設計は、de novo酵素設計の前提条件であり、それは少なくとも触媒の設計には、触媒機構を挿入できる足場が必要というためである[34]。
21世紀の最初の10年間で、de novo酵素設計と再設計は大きく進展した。David Bakerらは、3つの主要な研究で、逆アルドール反応[35]、ケンプ離脱反応[36]、およびディールス・アルダー反応[37]のための酵素をde novo設計した。さらに、Stephen Mayoらは、ケンプ離脱反応において最も効率的な既知の酵素を設計するための反復法を開発した[38]。また、Bruce Donaldの研究室では、計算機的タンパク質設計を使用して、グラミシジンSを生成する非リボソームペプチド合成酵素のタンパク質ドメインの1つの特異性を、その天然基質フェニルアラニンから荷電アミノ酸を含む他の非同族基質に切り替えることに成功し、再設計された酵素は野生型に近い活性を持っていた[39]。
親和性のための設計
編集タンパク質間相互作用は、ほとんどの生物学的プロセスに関与している。アルツハイマー病、多くのがん(TP53など)、ヒト免疫不全ウイルス(HIV)感染症など、治療が最も困難な疾患の多くは、タンパク質間相互作用が関係している。したがって、このような疾患を治療するためには、相互作用のパートナーの1つに結合し、その結果、疾患の原因となる相互作用を破壊するタンパク質またはタンパク質様治療薬を設計することが望ましい。そのためには、パートナーとの親和性を持つタンパク質治療薬を設計する必要がある。
タンパク質の安定性を支配する原理は、タンパク質間の結合を支配するため、タンパク質間相互作用は、タンパク質設計アルゴリズムを用いて設計することができる。しかし、タンパク質間相互作用設計では、一般的なタンパク質設計にはない課題がある。最も重要な課題の1つは、一般に、タンパク質間の界面はタンパク質コアよりも極性が高く、結合には脱溶媒和と水素結合形成のトレードオフが伴うことである[40]。この課題を克服するために、Bruce Tidorらは、静電的寄与に着目して抗体の親和性を改善させる方法を開発した。その結果、研究で設計された抗体の場合、界面の残基の脱溶媒和コストを下げることで、結合ペアの親和性が高まることを発見した[40][41][42]。
結合予測のスコアリング
編集結合は、遊離タンパク質の最低エネルギー立体配座(EP および EL)と、結合した複合体の最低エネルギー立体配座(EPL)との間のトレードオフを伴うため、タンパク質設計エネルギー関数を結合予測スコアリングに適用する必要がある。
.
K*アルゴリズムでは、自由エネルギー計算に配座エントロピーを含めることで、アルゴリズムの結合定数を近似する。K*アルゴリズムでは、遊離および結合複合体の最低エネルギー配座(P、L、PLの集合で示される)のみを考慮して、各複合体の分配関数を近似する[14]。
特異性のための設計
編集タンパク質は多数のタンパク質と相互作用する可能性があるため、タンパク質間相互作用の設計には高い特異性が求められる。設計を成功させるには選択的結合剤(selective binder)が必要である。したがって、タンパク質設計アルゴリズムは、オンターゲット結合(またはポジティブデザイン)とオフターゲット結合(またはネガティブデザイン)を区別できなければならない[2][40]。特異性のための設計の最も顕著な例の一つは、Amy Keatingらによる、20のbZIPファミリーのうち19のbZIPに特異的な結合ペプチドの設計である。これらのペプチドのうち8つは、競合するペプチドよりも意図したパートナーに特異的であった[40][43][44]。さらに、ポジティブデザインとネガティブデザインは、Andersonらが新薬に抵抗性を示す薬物標的の活性部位の変異を予測するためにも用いられた。ポジティブデザインは野生型の活性を維持するために、ネガティブデザインは薬物の結合を阻害するために使用された[45]。また、Costas Maranasらが最近行った計算的再設計では、Candida boidinii 由来のキシロースレダクターゼの補因子特異性をNADPHからNADHに実験的に切り替えることが可能であった[46]。
タンパク質リサーフェシング
編集タンパク質リサーフェシング(protein resurfacing)は、タンパク質の全体的な折りたたみ、コア、および境界領域をそのまま維持しながら、タンパク質の表面を設計することである。タンパク質リサーフェシングは、タンパク質と他のタンパク質との結合を変更するのに特に役立つ。タンパク質リサーフェシングの最も重要な応用例の一つは、NIHワクチン研究センターでの広域中和HIV抗体を選択するためのRSC3プローブの設計である。最初に、gp120 HIVエンベロープタンパク質と、以前に発見されたb12抗体との結合界面の外側にある残基が設計のために選択された。次に、進化的情報、溶解性、野生型との類似性、およびその他の考慮事項に基づいて、間隔を空けた配列を選択した。次に、Rosetta Designソフトウェアを使用して、選択した配列空間で最適な配列を発見した。その後、RSC3を用いて、長期に渡ってHIVに感染している非進行者の血清中から広域中和抗体VRC01を発見した[47]。
球状タンパク質の設計
編集球状タンパク質は、疎水性のコアと親水性の表面を持つタンパク質である。球状タンパク質は、複数の立体配座を持つ繊維状タンパク質とは異なり、安定した構造をとることが多くある。球状タンパク質の三次元構造は、繊維状タンパク質や膜タンパク質に比べて、X線結晶構造解析や核磁気共鳴分光法によって容易に決定することができる。そのため、球状タンパク質は他の種類のタンパク質よりも、タンパク質設計において魅力的である。成功したタンパク質設計の多くは、球状タンパク質を用いている。RSD-1もTop7も、球状タンパク質のde novo設計である。2012年には、さらに5つのタンパク質構造がBakerグループによって設計、合成、検証された。これらの新しいタンパク質は、生物学的な機能を果たさないが、その構造は、機能的な活性部位を組み込むために拡張可能なビルディングブロックとして機能することを目的としている。これらの構造は、二次構造を特定する配列部分間の接続ループの分析に基づいた新しいヒューリスティックスを用いて、計算機的に発見された[48]。
膜タンパク質の設計
編集いくつかの膜貫通型タンパク質の設計が成功しており[49]、その他に多くの膜関連ペプチドやタンパク質もともに成功している[50]。最近、Costas Maranasらは、大腸菌由来の外膜ポリンType-F(OmpF)の細孔径を任意のサブナノメートルサイズに再設計し、それらを膜に組み込んでオングストロームスケールの精密な分離を実行する自動化ツールを開発した[51]。
その他の応用
編集タンパク質設計で最も望ましい用途の一つは、特定の化合物の存在を感知するタンパク質であるバイオセンサーである。バイオセンサーの設計では、トリニトロトルエン(TNT)などの非天然分子用のセンサーを設計する試みもなされている[52]。最近では、KuhlmanらがPAK1のバイオセンサーを設計した[53]。
参照項目
編集脚注
編集- ^ Korendovych, Ivan (19 March 2018). “Minimalist design of peptide and protein catalysts”. American Chemical Society 22 March 2018閲覧。
- ^ a b c d e f Richardson, JS; Richardson, DC (July 1989). “The de novo design of protein structures.”. Trends in Biochemical Sciences 14 (7): 304–9. doi:10.1016/0968-0004(89)90070-4. PMID 2672455.
- ^ a b c Dahiyat, BI; Mayo, SL (October 3, 1997). “De novo protein design: fully automated sequence selection.”. Science 278 (5335): 82–7. doi:10.1126/science.278.5335.82. PMID 9311930.
- ^ a b Gordon, DB; Marshall, SA; Mayo, SL (August 1999). “Energy functions for protein design.”. Current Opinion in Structural Biology 9 (4): 509–13. doi:10.1016/s0959-440x(99)80072-4. PMID 10449371.
- ^ a b Harbury, PB; Plecs, JJ; Tidor, B; Alber, T; Kim, PS (November 20, 1998). “High-resolution protein design with backbone freedom.”. Science 282 (5393): 1462–7. doi:10.1126/science.282.5393.1462. PMID 9822371.
- ^ a b c Kuhlman, B; Dantas, G; Ireton, GC; Varani, G; Stoddard, BL; Baker, D (November 21, 2003). “Design of a novel globular protein fold with atomic-level accuracy.”. Science 302 (5649): 1364–8. Bibcode: 2003Sci...302.1364K. doi:10.1126/science.1089427. PMID 14631033.
- ^ Sterner, R; Merkl, R; Raushel, FM (May 2008). “Computational design of enzymes.”. Chemistry & Biology 15 (5): 421–3. doi:10.1016/j.chembiol.2008.04.007. PMID 18482694.
- ^ Wu, X; Yang, ZY; Li, Y; Hogerkorp, CM; Schief, WR; Seaman, MS; Zhou, T; Schmidt, SD; Wu, L; Xu, L; Longo, NS; McKee, K; O'Dell, S; Louder, MK; Wycuff, DL; Feng, Y; Nason, M; Doria-Rose, N; Connors, M; Kwong, PD; Roederer, M; Wyatt, RT; Nabel, GJ; Mascola, JR (August 13, 2010). “Rational design of envelope identifies broadly neutralizing human monoclonal antibodies to HIV-1.”. Science 329 (5993): 856–61. Bibcode: 2010Sci...329..856W. doi:10.1126/science.1187659. PMC 2965066. PMID 20616233 .
- ^ Höcker, B (November 8, 2012). “Structural biology: A toolbox for protein design.”. Nature 491 (7423): 204–5. Bibcode: 2012Natur.491..204H. doi:10.1038/491204a. PMID 23135466.
- ^ a b c Lovell, SC; Word, JM; Richardson, JS; Richardson, DC (August 15, 2000). “The penultimate rotamer library.”. Proteins 40 (3): 389–408. doi:10.1002/1097-0134(20000815)40:3<389::AID-PROT50>3.0.CO;2-2. PMID 10861930.
- ^ Shapovalov, MV; Dunbrack RL, Jr (June 8, 2011). “A smoothed backbone-dependent rotamer library for proteins derived from adaptive kernel density estimates and regressions.”. Structure 19 (6): 844–58. doi:10.1016/j.str.2011.03.019. PMC 3118414. PMID 21645855 .
- ^ a b Samish, I; MacDermaid, CM; Perez-Aguilar, JM; Saven, JG (2011). “Theoretical and computational protein design.”. Annual Review of Physical Chemistry 62: 129–49. Bibcode: 2011ARPC...62..129S. doi:10.1146/annurev-physchem-032210-103509. PMID 21128762.
- ^ a b Mandell, DJ; Kortemme, T (August 2009). “Backbone flexibility in computational protein design.”. Current Opinion in Biotechnology 20 (4): 420–8. doi:10.1016/j.copbio.2009.07.006. PMID 19709874 .
- ^ a b c d e f Donald, Bruce R. (2011). Algorithms in Structural Molecular Biology. Cambridge, MA: MIT Press
- ^ a b Boas, F. E. & Harbury, P. B. (2007). “Potential energy functions for protein design”. Current Opinion in Structural Biology 17 (2): 199–204. doi:10.1016/j.sbi.2007.03.006. PMID 17387014.
- ^ a b c d Boas, FE; Harbury, PB (April 2007). “Potential energy functions for protein design.”. Current Opinion in Structural Biology 17 (2): 199–204. doi:10.1016/j.sbi.2007.03.006. PMID 17387014.
- ^ Vizcarra, CL; Mayo, SL (December 2005). “Electrostatics in computational protein design.”. Current Opinion in Chemical Biology 9 (6): 622–6. doi:10.1016/j.cbpa.2005.10.014. PMID 16257567.
- ^ Zhou, T; Georgiev, I; Wu, X; Yang, ZY; Dai, K; Finzi, A; Kwon, YD; Scheid, JF; Shi, W; Xu, L; Yang, Y; Zhu, J; Nussenzweig, MC; Sodroski, J; Shapiro, L; Nabel, GJ; Mascola, JR; Kwong, PD (August 13, 2010). “Structural basis for broad and potent neutralization of HIV-1 by antibody VRC01.”. Science 329 (5993): 811–7. Bibcode: 2010Sci...329..811Z. doi:10.1126/science.1192819. PMC 2981354. PMID 20616231 .
- ^ Mendes, J; Guerois, R; Serrano, L (August 2002). “Energy estimation in protein design.”. Current Opinion in Structural Biology 12 (4): 441–6. doi:10.1016/s0959-440x(02)00345-7. PMID 12163065.
- ^ Pierce, NA; Winfree, E (October 2002). “Protein design is NP-hard.”. Protein Engineering 15 (10): 779–82. doi:10.1093/protein/15.10.779. PMID 12468711.
- ^ a b Voigt, CA; Gordon, DB; Mayo, SL (June 9, 2000). “Trading accuracy for speed: A quantitative comparison of search algorithms in protein sequence design.”. Journal of Molecular Biology 299 (3): 789–803. doi:10.1006/jmbi.2000.3758. PMID 10835284.
- ^ Hong, EJ; Lippow, SM; Tidor, B; Lozano-Pérez, T (September 2009). “Rotamer optimization for protein design through MAP estimation and problem-size reduction.”. Journal of Computational Chemistry 30 (12): 1923–45. doi:10.1002/jcc.21188. PMC 3495010. PMID 19123203 .
- ^ “Machine learning reveals recipe for building artificial proteins” (英語). phys.org 17 August 2020閲覧。
- ^ Russ, William P.; Figliuzzi, Matteo; Stocker, Christian; Barrat-Charlaix, Pierre; Socolich, Michael; Kast, Peter; Hilvert, Donald; Monasson, Remi et al. (2020). “An evolution-based model for designing chorismatemutase enzymes”. Science 369 (6502): 440–445. Bibcode: 2020Sci...369..440R. doi:10.1126/science.aba3304. PMID 32703877.
- ^ Gordon, DB; Mayo, SL (September 15, 1999). “Branch-and-terminate: a combinatorial optimization algorithm for protein design.”. Structure 7 (9): 1089–98. doi:10.1016/s0969-2126(99)80176-2. PMID 10508778.
- ^ a b Leach, AR; Lemon, AP (November 1, 1998). “Exploring the conformational space of protein side chains using dead-end elimination and the A* algorithm.”. Proteins 33 (2): 227–39. doi:10.1002/(sici)1097-0134(19981101)33:2<227::aid-prot7>3.0.co;2-f. PMID 9779790.
- ^ a b Kingsford, CL; Chazelle, B; Singh, M (April 1, 2005). “Solving and analyzing side-chain positioning problems using linear and integer programming.”. Bioinformatics 21 (7): 1028–36. doi:10.1093/bioinformatics/bti144. PMID 15546935.
- ^ Yanover, Chen; Talya Meltzer; Yair Weiss (2006). “Linear Programming Relaxations and Belief Propagation – An Empirical Study”. Journal of Machine Learning Research 7: 1887–1907.
- ^ Wainwright, Martin J; Tommi S. Jaakkola; Alan S. Willsky (2005). “MAP estimation via agreement on trees: message-passing and linear programming.”. IEEE Transactions on Information Theory 51 (11): 3697–3717. doi:10.1109/tit.2005.856938.
- ^ Kolmogorov, Vladimir (October 28, 2006). “Convergent tree-reweighted message passing for energy minimization.”. IEEE Transactions on Pattern Analysis and Machine Intelligence 28 (10): 1568–1583. doi:10.1109/TPAMI.2006.200. PMID 16986540.
- ^ Globerson, Amir; Tommi S. Jaakkola (2007). “Fixing max-product: Convergent message passing algorithms for MAP LP-relaxations.”. Advances in Neural Information Processing Systems.
- ^ Allen, BD; Mayo, SL (July 30, 2006). “Dramatic performance enhancements for the FASTER optimization algorithm.”. Journal of Computational Chemistry 27 (10): 1071–5. doi:10.1002/jcc.20420. PMID 16685715.
- ^ Desmet, J; Spriet, J; Lasters, I (July 1, 2002). “Fast and accurate side-chain topology and energy refinement (FASTER) as a new method for protein structure optimization.”. Proteins 48 (1): 31–43. doi:10.1002/prot.10131. PMID 12012335.
- ^ Baker, D (October 2010). “An exciting but challenging road ahead for computational enzyme design.”. Protein Science 19 (10): 1817–9. doi:10.1002/pro.481. PMC 2998717. PMID 20717908 .
- ^ Jiang, Lin; Althoff, Eric A.; Clemente, Fernando R.; Doyle, Lindsey; Rothlisberger, Daniela; Zanghellini, Alexandre; Gallaher, Jasmine L.; Betker, Jamie L. et al. (2008). “De Novo Computational Design of Retro-Aldol Enzymes”. Science 319 (5868): 1387–91. Bibcode: 2008Sci...319.1387J. doi:10.1126/science.1152692. PMC 3431203. PMID 18323453 .
- ^ Röthlisberger, Daniela; Khersonsky, Olga; Wollacott, Andrew M.; Jiang, Lin; Dechancie, Jason; Betker, Jamie; Gallaher, Jasmine L.; Althoff, Eric A. et al. (2008). “Kemp elimination catalysts by computational enzyme design”. Nature 453 (7192): 190–5. Bibcode: 2008Natur.453..190R. doi:10.1038/nature06879. PMID 18354394.
- ^ Siegel, JB; Zanghellini, A; Lovick, HM; Kiss, G; Lambert, AR; St Clair, JL; Gallaher, JL; Hilvert, D; Gelb, MH; Stoddard, BL; Houk, KN; Michael, FE; Baker, D (July 16, 2010). “Computational design of an enzyme catalyst for a stereoselective bimolecular Diels-Alder reaction.”. Science 329 (5989): 309–13. Bibcode: 2010Sci...329..309S. doi:10.1126/science.1190239. PMC 3241958. PMID 20647463 .
- ^ Privett, HK; Kiss, G; Lee, TM; Blomberg, R; Chica, RA; Thomas, LM; Hilvert, D; Houk, KN et al. (March 6, 2012). “Iterative approach to computational enzyme design.”. Proceedings of the National Academy of Sciences of the United States of America 109 (10): 3790–5. Bibcode: 2012PNAS..109.3790P. doi:10.1073/pnas.1118082108. PMC 3309769. PMID 22357762 .
- ^ Chen, CY; Georgiev, I; Anderson, AC; Donald, BR (March 10, 2009). “Computational structure-based redesign of enzyme activity.”. Proceedings of the National Academy of Sciences of the United States of America 106 (10): 3764–9. Bibcode: 2009PNAS..106.3764C. doi:10.1073/pnas.0900266106. PMC 2645347. PMID 19228942 .
- ^ a b c d Karanicolas, J; Kuhlman, B (August 2009). “Computational design of affinity and specificity at protein–protein interfaces.”. Current Opinion in Structural Biology 19 (4): 458–63. doi:10.1016/j.sbi.2009.07.005. PMC 2882636. PMID 19646858 .
- ^ Shoichet, BK (October 2007). “No free energy lunch.”. Nature Biotechnology 25 (10): 1109–10. doi:10.1038/nbt1007-1109. PMID 17921992.
- ^ Lippow, SM; Wittrup, KD; Tidor, B (October 2007). “Computational design of antibody-affinity improvement beyond in vivo maturation.”. Nature Biotechnology 25 (10): 1171–6. doi:10.1038/nbt1336. PMC 2803018. PMID 17891135 .
- ^ Schreiber, G; Keating, AE (February 2011). “Protein binding specificity versus promiscuity.”. Current Opinion in Structural Biology 21 (1): 50–61. doi:10.1016/j.sbi.2010.10.002. PMC 3053118. PMID 21071205 .
- ^ Grigoryan, G; Reinke, AW; Keating, AE (April 16, 2009). “Design of protein-interaction specificity gives selective bZIP-binding peptides.”. Nature 458 (7240): 859–64. Bibcode: 2009Natur.458..859G. doi:10.1038/nature07885. PMC 2748673. PMID 19370028 .
- ^ Frey, KM; Georgiev, I; Donald, BR; Anderson, AC (August 3, 2010). “Predicting resistance mutations using protein design algorithms.”. Proceedings of the National Academy of Sciences of the United States of America 107 (31): 13707–12. Bibcode: 2010PNAS..10713707F. doi:10.1073/pnas.1002162107. PMC 2922245. PMID 20643959 .
- ^ Khoury, GA; Fazelinia, H; Chin, JW; Pantazes, RJ; Cirino, PC; Maranas, CD (October 2009). “Computational design of Candida boidinii xylose reductase for altered cofactor specificity”. Protein Science 18 (10): 2125–38. doi:10.1002/pro.227. PMC 2786976. PMID 19693930 .
- ^ Burton, DR; Weiss, RA (August 13, 2010). “AIDS/HIV. A boost for HIV vaccine design.”. Science 329 (5993): 770–3. Bibcode: 2010Sci...329..770B. doi:10.1126/science.1194693. PMID 20705840.
- ^ Jessica Marshall (November 7, 2012). “Proteins made to order”. Nature News November 17, 2012閲覧。
- ^ Designed transmembrane alpha-hairpin proteins in OPM database
- ^ Designed membrane-associated peptides and proteins in OPM database
- ^ Chowdhury, Ratul; Kumar, Manish; Maranas, Costas D.; Golbeck, John H.; Baker, Carol; Prabhakar, Jeevan; Grisewood, Matthew; Decker, Karl et al. (2018-09-10). “PoreDesigner for tuning solute selectivity in a robust and highly permeable outer membrane pore” (英語). Nature Communications 9 (1): 3661. Bibcode: 2018NatCo...9.3661C. doi:10.1038/s41467-018-06097-1. ISSN 2041-1723. PMC 6131167. PMID 30202038 .
- ^ Looger, Loren L.; Dwyer, Mary A.; Smith, James J. & Hellinga, Homme W. (2003). “Computational design of receptor and sensor proteins with novel functions”. Nature 423 (6936): 185–190. Bibcode: 2003Natur.423..185L. doi:10.1038/nature01556. PMID 12736688.
- ^ Jha, RK; Wu, YI; Zawistowski, JS; MacNevin, C; Hahn, KM; Kuhlman, B (October 21, 2011). “Redesign of the PAK1 autoinhibitory domain for enhanced stability and affinity in biosensor applications.”. Journal of Molecular Biology 413 (2): 513–22. doi:10.1016/j.jmb.2011.08.022. PMC 3202338. PMID 21888918 .
推薦文献
編集- Donald, Bruce R. (2011). Algorithms in Structural Molecular Biology. Cambridge, MA: MIT Press
- Sander, Chris; Vriend, Gerrit; Bazan, Fernando; Horovitz, Amnon; Nakamura, Haruki; Ribas, Luis; Finkelstein, Alexei V.; Lockhart, Andrew et al. (1992). “Protein Design on computers. Five new proteins: Shpilka, Grendel, Fingerclasp, Leather and Aida”. Proteins: Structure, Function, and Bioinformatics 12 (2): 105–110. doi:10.1002/prot.340120203. PMID 1603799.
- Jin, Wenzhen; Kambara, Ohki; Sasakawa, Hiroaki; Tamura, Atsuo & Takada, Shoji (2003). “De Novo Design of Foldable Proteins with Smooth Folding Funnel: Automated Negative Design and Experimental Verification”. Structure 11 (5): 581–590. doi:10.1016/S0969-2126(03)00075-3. PMID 12737823.
- Pokala, Navin & Handel, Tracy M. (2005). “Energy Functions for Protein Design: Adjustment with Protein–Protein Complex Affinities, Models for the Unfolded State, and Negative Design of Solubility and Specificity”. Journal of Molecular Biology 347 (1): 203–227. doi:10.1016/j.jmb.2004.12.019. PMID 15733929.