phred phrap BioLign を用いたベースコールとアセンブル

シーケンサーで読んで得られる生データは以下のように各塩基に対応した波長光のシグナル強度の時間的変化を記録した波形ファイルとなっている。この波形ファイルからその塩基配列を読み出す作業をベースコールという。

シーケンサーで得られた生データを BioEdit で開いた波形データ

また、系統解析に使用するrbL遺伝子はおよそ1400塩基程度の配列である。シーケンサーではこれを一度に読むことができないので、実験上は内部プライマーを用いてrbcL遺伝子を2分割しシーケンサーで読んでいく(DNAは2重らせんなのでforwordとreverseのポリヌクレオチドがくっついている。したがって2分割して読むということは、ひとつのrbcL遺伝子を読み取るのに、4つのポリヌクレオチドの塩基配列をシーケンサーで読むことになる。)。シーケンサーで読み終えたあと、rbcL遺伝子の塩基配列を完成するにはこの二つの塩基配列をつなぐ必要がある。このバラバラに読んだ塩基配列をひとつにつないでいく作業をアセンブルといい、アセンブルによってつなぎ合わされてできた塩基配列をコンティグという。

これまで、本校で実験しシーケンサーによる塩基配列解読のために大学に送ったサンプルは、シーケンサーにかけた後、大学でシーケンサーに付属のソフトを用いてベースコールやアセンブルをして、完成された塩基配列の形で送り返してもらい以後の系統解析で利用していた。

しかし、ベースコールからアセンブルにいたる作業も結構時間がかかり、お願いしている大学の先生に負担がかかる。また、できるだけ高等学校で実験できるようにしたいという計画もあり、このベースコールやアセンブルを何とか高等学校でできないかを検討した。

シーケンサーに付属しているソフトは著作権の関係でコピーして使用することはもちろんできない。市販されているソフトは目の玉が飛び出るほど高価なものばかりであった。しかし、調べていくうちに高価な市販ソフトに利用されている phred phrap consed というソフト群はAcademic User なら無料で試用できることを知った。

phred phrap consedはDr. Phil Green、Brent Ewing、David GordonらによってUniversity of Washingtonで開発されたソフトである。基本的にunix上で動くソフトで、phred phrap はソースファイルの形で配布され、consedはバイナリ形式で配布されていた。なれない英語に四苦八苦しながら、webサイト(http://www.phrap.org/phredphrapconsed.html)にある ACADEMIC USER AGREEMENT を書いて、メールを送った。すると、1ヶ月程度で phred phrap consedを手に入れることができた。consedについてはLinux版を手に入れた。

さっそく試用することにした。ここ数年 FreeBSDというOSでsambaサーバーを構築したりして遊んでいた経験が、ここで大変役に立った。「phred phrap consed を使う」というwebサイトを大変参考にさせてもらい、Fedora core 4 というLinux上でphred phrap consedを動かすことができた。consedが走って波形データが見れたときはとても感激した。ただし、十分使いこなすことはなかなか大変だと思った。consedはものすごい高機能のソフトで、非常に長い塩基配列もつないでいくソフトのようだ。

これで、ベースコールからアセンブルまで高等学校でできる見通しが立った。しかし、どの高等学校でもできるようにするのが目標でもあったので、さらに検討することにした。それは、高等学校の現場ではwindowsが主流だからである。windowsは使えても、unixやLinuxを使うのは、慣れていないとなかなか大変である。また、windowsと連携しようと考えると、sambaなどの知識も必要となり、かなり敷居が高くなる。

アラインメントでBioEditというソフトを見つけて使用していたのだが、そのサイトにBioLignというソフトがあることに気がついていた。短い塩基配列であれば、アセンブルに試してみてはどうかという記述もあった。そこで、BioLignをダウンロードして使用できるかどうか検討を始めた。

ダウンロードしていろいろいじくってもよくわからなかった。そこで、泣く泣くわけのわからない英語のマニュアルをおぼろげながら読んでみると、phred phrap が必要であることがわかった。しかも、購入するように書いてあった。購入は本意ではない。あくまで高等学校の現場での利用である。

そこで、phred phrapをwindows用にコンパイルしてみることにした。web上のいろいろなサイトでもコンパイルできそうな記述があった。いろいろフリーのコンパイラを探してコンパイルしてみたが、おそらくできるのであろうが自分の力不足でなかなかできなかった。試行錯誤を繰り返していたとき、MinGWというコンパイラに行き着いた。unixライクなコンパイラだったので、これはいけるかもと思い試してみた。インストール方法はweb上にとても充実したサイトがありそれを利用させてもらって、MinGWを導入した。結果は見事すんなりとコンパイルできた。MinGWを使ったphred phrapのコンパイルの方法はここを見てください。

これで、ベースコールとアセンブルを高等学校で行うことが可能になった。phred でベースコールを行い phrap アセンブルする。生成したコンティグをBioLignで編集する方法である。以下のページにphred phrap Biolignを使うためのマニュアルを示した。

1.phredをMinGWによってwindows用にコンパイルする。

2.phrapおよびphd2fastaをWindows用にコンパイルする。

3.phred phrap を用いたベースコールとアセンブル。

4.BioLinを使ったコンティグの編集。