2020-05-21

インスリンの遺伝子を転写・翻訳してみよう②

医学遺伝子

f:id:milkteasugar:20200520224842j:plain — chromosome

インスリンを転写・翻訳してみよう。

前回の記事で述べたように、インスリンの遺伝子は下の図でハイライトされている部分です。今回はこの遺伝子が実際に転写・翻訳される過程の塩基配列、アミノ酸配列がどのようになっているかを調べます。

f:id:milkteasugar:20200520212439p:plain — インスリン遺伝子の塩基配列

PythonのBioythonを用いて配列の操作を行う

Google Colab上でBiopythonを用いて塩基配列、アミノ酸配列の操作を行いました。Google Colab上でBiopythonを使うためには次のコードをGoogle Colab上で実行するだけで十分です。

!pip install biopython

配列操作のためのソースコードは下の通りです。

from Bio.Alphabet import IUPAC
from Bio.Seq import Seq

# インスリンの遺伝子INSの塩基配列をSeq型におさめる
sense_strand = Seq("AGCCCTCCAGGACAGGCTGCATCAGAAGAGGCCATCAAGCAGGTCTGTTCCAAGGGCCTTTGCGTCAGGTGGGCTCAGGATTCCAGGGTGGCTGGACCCCAGGCCCCAGCTCTGCAGCAGGGAGGACGTGGCTGGGCTCGTGAAGCATGTGGGGGTGAGCCCAGGGGCCCCAAGGCAGGGCACCTGGCCTTCAGCCTGCCTCAGCCCTGCCTGTCTCCCAGATCACTGTCCTTCTGCCATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAGGCAGAGGACCTGCAGGGTGAGCCAACTGCCCATTGCTGCCCCTGGCCGCCCCCAGCCACCCCCTGCTCCTGGCGCTCCCACCCAGCATGGGCAGAAGGGGGCAGGAGGCTGCCACCCAGCAGGGGGTCAGGTGCACTTTTTTAAAAAGAAGTTCTCTTGGTCACGTCCTAAAAGTGACCAGCTCCCTGTGGCCCAGTCAGAATCTCAGCCTGAGGACGGTGTTGGCTTCGGCAGCCCCGAGATACATCAGAGGGTGGGCACGCTCCTCCCTCCACTCGCCCCTCAAACAAATGCCCCGCAGCCCATTTCTCCACCCTCATTTGATGACCGCAGATTCAAGTGTTTTGTTAAGTAAAGTCCTGGGTGACCTGGGGTCACAGGGTGCCCCACGCTGCCTGCCTCTGGGCGAACACCCCATCACGCCCGGAGGAGGGCGTGGCTGCCTGCCTGAGTGGGCCAGACCCCTGTCGCCAGGCCTCACGGCAGCTCCATAGTCAGGAGATGGGGAAGATGCTGGGGACAGGCCCTGGGGAGAAGTACTGGGATCACCTGTTCAGGCTCCCACTGTGACGCTGCCCCGGGGCGGGGGAAGGAGGTGGGACATGTGGGCGTTGGGGCCTGTAGGTCCACACCCAGTGTGGGTGACCCTCCCTCTAACCTGGGTCCAGCCCGGCTGGAGATGGGTGGGAGTGCGACCTAGGGCTGGCGGGCAGGCGGGCACTGTGTCTCCCTGACTGTGTCCTCCTGTGTCCCTCTGCCTCGCCGCTGTTCCGGAACCTGCTCTGCGCGGCACGTCCTGGCAGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCCCTTGGCCCTGGAGGGGTCCCTGCAGAAGCGTGGCATTGTGGAACAATGCTGTACCAGCATCTGCTCCCTCTACCAGCTGGAGAACTACTGCAACTAGACGCAGCCCGCAGGCAGCCCCACACCCGCCGCCTCCTGCACCGAGAGAGATGGAATAAAGCCCTTGAACCAGC", IUPAC.ambiguous_dna)

# sense_strandの相補鎖antisense_strand
antisense_strand = sense_strand.complement()

# 1. 転写
pre_mRNA = sense_strand.transcribe()

# 2. RNAスプライシング
# pre_mRNAがスプライシングを受けてmRNAとなる
mRNA = pre_mRNA[:42] + pre_mRNA[221:425] + pre_mRNA[1212:]

# 3. 翻訳
# 一次翻訳産物はプレプロインスリンと呼ばれる
preproinsulin = mRNA[59:].translate(to_stop = True)

# 4. 翻訳後切断
# プレプロインスリンのN末端から24アミノ酸残基が取り除かれてプロインスリンとなる
proinsulin = preproinsulin[24:]

# 4. 翻訳後切断（続き）
# プロインスリンの中央部分proinsulin[30:65]が取り除かれてインスリンのA鎖とB鎖ができる。
insulin_B = proinsulin[:30]
insulin_A = proinsulin[65:]

インスリン合成の過程

インスリン合成の過程を実際の配列に注目して見てみると次のようになります。

※ PC版サイトを表示させると配列がきれいに表示されます。

DNA二重鎖
(sense_strand)     5'-AGCCCTCCAGGACAGGCTGCATCAGAAGAGGCCATCAAGCAGGTCTGTTCCAAGGGCCTTTGCGTCAGGTGGGCTCAGGATTCCAGGGTGGCTGGACCCCAGGCCCCAGCTCTGCAGCAGGGAGGACGTGGCTGGGCTCGTGAAGCATGTGGGGGTGAGCCCAGGGGCCCCAAGGCAGGGCACCTGGCCTTCAGCCTGCCTCAGCCCTGCCTGTCTCCCAGATCACTGTCCTTCTGCCATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAGGCAGAGGACCTGCAGGGTGAGCCAACTGCCCATTGCTGCCCCTGGCCGCCCCCAGCCACCCCCTGCTCCTGGCGCTCCCACCCAGCATGGGCAGAAGGGGGCAGGAGGCTGCCACCCAGCAGGGGGTCAGGTGCACTTTTTTAAAAAGAAGTTCTCTTGGTCACGTCCTAAAAGTGACCAGCTCCCTGTGGCCCAGTCAGAATCTCAGCCTGAGGACGGTGTTGGCTTCGGCAGCCCCGAGATACATCAGAGGGTGGGCACGCTCCTCCCTCCACTCGCCCCTCAAACAAATGCCCCGCAGCCCATTTCTCCACCCTCATTTGATGACCGCAGATTCAAGTGTTTTGTTAAGTAAAGTCCTGGGTGACCTGGGGTCACAGGGTGCCCCACGCTGCCTGCCTCTGGGCGAACACCCCATCACGCCCGGAGGAGGGCGTGGCTGCCTGCCTGAGTGGGCCAGACCCCTGTCGCCAGGCCTCACGGCAGCTCCATAGTCAGGAGATGGGGAAGATGCTGGGGACAGGCCCTGGGGAGAAGTACTGGGATCACCTGTTCAGGCTCCCACTGTGACGCTGCCCCGGGGCGGGGGAAGGAGGTGGGACATGTGGGCGTTGGGGCCTGTAGGTCCACACCCAGTGTGGGTGACCCTCCCTCTAACCTGGGTCCAGCCCGGCTGGAGATGGGTGGGAGTGCGACCTAGGGCTGGCGGGCAGGCGGGCACTGTGTCTCCCTGACTGTGTCCTCCTGTGTCCCTCTGCCTCGCCGCTGTTCCGGAACCTGCTCTGCGCGGCACGTCCTGGCAGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCCCTTGGCCCTGGAGGGGTCCCTGCAGAAGCGTGGCATTGTGGAACAATGCTGTACCAGCATCTGCTCCCTCTACCAGCTGGAGAACTACTGCAACTAGACGCAGCCCGCAGGCAGCCCCACACCCGCCGCCTCCTGCACCGAGAGAGATGGAATAAAGCCCTTGAACCAGC-3'
(antisense_strand) 3'-TCGGGAGGTCCTGTCCGACGTAGTCTTCTCCGGTAGTTCGTCCAGACAAGGTTCCCGGAAACGCAGTCCACCCGAGTCCTAAGGTCCCACCGACCTGGGGTCCGGGGTCGAGACGTCGTCCCTCCTGCACCGACCCGAGCACTTCGTACACCCCCACTCGGGTCCCCGGGGTTCCGTCCCGTGGACCGGAAGTCGGACGGAGTCGGGACGGACAGAGGGTCTAGTGACAGGAAGACGGTACCGGGACACCTACGCGGAGGACGGGGACGACCGCGACGACCGGGAGACCCCTGGACTGGGTCGGCGTCGGAAACACTTGGTTGTGGACACGCCGAGTGTGGACCACCTTCGAGAGATGGATCACACGCCCCTTGCTCCGAAGAAGATGTGTGGGTTCTGGGCGGCCCTCCGTCTCCTGGACGTCCCACTCGGTTGACGGGTAACGACGGGGACCGGCGGGGGTCGGTGGGGGACGAGGACCGCGAGGGTGGGTCGTACCCGTCTTCCCCCGTCCTCCGACGGTGGGTCGTCCCCCAGTCCACGTGAAAAAATTTTTCTTCAAGAGAACCAGTGCAGGATTTTCACTGGTCGAGGGACACCGGGTCAGTCTTAGAGTCGGACTCCTGCCACAACCGAAGCCGTCGGGGCTCTATGTAGTCTCCCACCCGTGCGAGGAGGGAGGTGAGCGGGGAGTTTGTTTACGGGGCGTCGGGTAAAGAGGTGGGAGTAAACTACTGGCGTCTAAGTTCACAAAACAATTCATTTCAGGACCCACTGGACCCCAGTGTCCCACGGGGTGCGACGGACGGAGACCCGCTTGTGGGGTAGTGCGGGCCTCCTCCCGCACCGACGGACGGACTCACCCGGTCTGGGGACAGCGGTCCGGAGTGCCGTCGAGGTATCAGTCCTCTACCCCTTCTACGACCCCTGTCCGGGACCCCTCTTCATGACCCTAGTGGACAAGTCCGAGGGTGACACTGCGACGGGGCCCCGCCCCCTTCCTCCACCCTGTACACCCGCAACCCCGGACATCCAGGTGTGGGTCACACCCACTGGGAGGGAGATTGGACCCAGGTCGGGCCGACCTCTACCCACCCTCACGCTGGATCCCGACCGCCCGTCCGCCCGTGACACAGAGGGACTGACACAGGAGGACACAGGGAGACGGAGCGGCGACAAGGCCTTGGACGAGACGCGCCGTGCAGGACCGTCACCCCGTCCACCTCGACCCGCCCCCGGGACCACGTCCGTCGGACGTCGGGAACCGGGACCTCCCCAGGGACGTCTTCGCACCGTAACACCTTGTTACGACATGGTCGTAGACGAGGGAGATGGTCGACCTCTTGATGACGTTGATCTGCGTCGGGCGTCCGTCGGGGTGTGGGCGGCGGAGGACGTGGCTCTCTCTACCTTATTTCGGGAACTTGGTCG-5'

1. 転写
(antisense_strand) 3'-TCGGGAGGTCCTGTCCGACGTAGTCTTCTCCGGTAGTTCGTCCAGACAAGGTTCCCGGAAACGCAGTCCACCCGAGTCCTAAGGTCCCACCGACCTGGGGTCCGGGGTCGAGACGTCGTCCCTCCTGCACCGACCCGAGCACTTCGTACACCCCCACTCGGGTCCCCGGGGTTCCGTCCCGTGGACCGGAAGTCGGACGGAGTCGGGACGGACAGAGGGTCTAGTGACAGGAAGACGGTACCGGGACACCTACGCGGAGGACGGGGACGACCGCGACGACCGGGAGACCCCTGGACTGGGTCGGCGTCGGAAACACTTGGTTGTGGACACGCCGAGTGTGGACCACCTTCGAGAGATGGATCACACGCCCCTTGCTCCGAAGAAGATGTGTGGGTTCTGGGCGGCCCTCCGTCTCCTGGACGTCCCACTCGGTTGACGGGTAACGACGGGGACCGGCGGGGGTCGGTGGGGGACGAGGACCGCGAGGGTGGGTCGTACCCGTCTTCCCCCGTCCTCCGACGGTGGGTCGTCCCCCAGTCCACGTGAAAAAATTTTTCTTCAAGAGAACCAGTGCAGGATTTTCACTGGTCGAGGGACACCGGGTCAGTCTTAGAGTCGGACTCCTGCCACAACCGAAGCCGTCGGGGCTCTATGTAGTCTCCCACCCGTGCGAGGAGGGAGGTGAGCGGGGAGTTTGTTTACGGGGCGTCGGGTAAAGAGGTGGGAGTAAACTACTGGCGTCTAAGTTCACAAAACAATTCATTTCAGGACCCACTGGACCCCAGTGTCCCACGGGGTGCGACGGACGGAGACCCGCTTGTGGGGTAGTGCGGGCCTCCTCCCGCACCGACGGACGGACTCACCCGGTCTGGGGACAGCGGTCCGGAGTGCCGTCGAGGTATCAGTCCTCTACCCCTTCTACGACCCCTGTCCGGGACCCCTCTTCATGACCCTAGTGGACAAGTCCGAGGGTGACACTGCGACGGGGCCCCGCCCCCTTCCTCCACCCTGTACACCCGCAACCCCGGACATCCAGGTGTGGGTCACACCCACTGGGAGGGAGATTGGACCCAGGTCGGGCCGACCTCTACCCACCCTCACGCTGGATCCCGACCGCCCGTCCGCCCGTGACACAGAGGGACTGACACAGGAGGACACAGGGAGACGGAGCGGCGACAAGGCCTTGGACGAGACGCGCCGTGCAGGACCGTCACCCCGTCCACCTCGACCCGCCCCCGGGACCACGTCCGTCGGACGTCGGGAACCGGGACCTCCCCAGGGACGTCTTCGCACCGTAACACCTTGTTACGACATGGTCGTAGACGAGGGAGATGGTCGACCTCTTGATGACGTTGATCTGCGTCGGGCGTCCGTCGGGGTGTGGGCGGCGGAGGACGTGGCTCTCTCTACCTTATTTCGGGAACTTGGTCG-5'
(pre_mRNA)         5'-AGCCCUCCAGGACAGGCUGCAUCAGAAGAGGCCAUCAAGCAGGUCUGUUCCAAGGGCCUUUGCGUCAGGUGGGCUCAGGAUUCCAGGGUGGCUGGACCCCAGGCCCCAGCUCUGCAGCAGGGAGGACGUGGCUGGGCUCGUGAAGCAUGUGGGGGUGAGCCCAGGGGCCCCAAGGCAGGGCACCUGGCCUUCAGCCUGCCUCAGCCCUGCCUGUCUCCCAGAUCACUGUCCUUCUGCCAUGGCCCUGUGGAUGCGCCUCCUGCCCCUGCUGGCGCUGCUGGCCCUCUGGGGACCUGACCCAGCCGCAGCCUUUGUGAACCAACACCUGUGCGGCUCACACCUGGUGGAAGCUCUCUACCUAGUGUGCGGGGAACGAGGCUUCUUCUACACACCCAAGACCCGCCGGGAGGCAGAGGACCUGCAGGGUGAGCCAACUGCCCAUUGCUGCCCCUGGCCGCCCCCAGCCACCCCCUGCUCCUGGCGCUCCCACCCAGCAUGGGCAGAAGGGGGCAGGAGGCUGCCACCCAGCAGGGGGUCAGGUGCACUUUUUUAAAAAGAAGUUCUCUUGGUCACGUCCUAAAAGUGACCAGCUCCCUGUGGCCCAGUCAGAAUCUCAGCCUGAGGACGGUGUUGGCUUCGGCAGCCCCGAGAUACAUCAGAGGGUGGGCACGCUCCUCCCUCCACUCGCCCCUCAAACAAAUGCCCCGCAGCCCAUUUCUCCACCCUCAUUUGAUGACCGCAGAUUCAAGUGUUUUGUUAAGUAAAGUCCUGGGUGACCUGGGGUCACAGGGUGCCCCACGCUGCCUGCCUCUGGGCGAACACCCCAUCACGCCCGGAGGAGGGCGUGGCUGCCUGCCUGAGUGGGCCAGACCCCUGUCGCCAGGCCUCACGGCAGCUCCAUAGUCAGGAGAUGGGGAAGAUGCUGGGGACAGGCCCUGGGGAGAAGUACUGGGAUCACCUGUUCAGGCUCCCACUGUGACGCUGCCCCGGGGCGGGGGAAGGAGGUGGGACAUGUGGGCGUUGGGGCCUGUAGGUCCACACCCAGUGUGGGUGACCCUCCCUCUAACCUGGGUCCAGCCCGGCUGGAGAUGGGUGGGAGUGCGACCUAGGGCUGGCGGGCAGGCGGGCACUGUGUCUCCCUGACUGUGUCCUCCUGUGUCCCUCUGCCUCGCCGCUGUUCCGGAACCUGCUCUGCGCGGCACGUCCUGGCAGUGGGGCAGGUGGAGCUGGGCGGGGGCCCUGGUGCAGGCAGCCUGCAGCCCUUGGCCCUGGAGGGGUCCCUGCAGAAGCGUGGCAUUGUGGAACAAUGCUGUACCAGCAUCUGCUCCCUCUACCAGCUGGAGAACUACUGCAACUAGACGCAGCCCGCAGGCAGCCCCACACCCGCCGCCUCCUGCACCGAGAGAGAUGGAAUAAAGCCCUUGAACCAGC-3'

2. RNAスプライシング
(pre_mRNA)         5'-AGCCCUCCAGGACAGGCUGCAUCAGAAGAGGCCAUCAAGCAGGUCUGUUCCAAGGGCCUUUGCGUCAGGUGGGCUCAGGAUUCCAGGGUGGCUGGACCCCAGGCCCCAGCUCUGCAGCAGGGAGGACGUGGCUGGGCUCGUGAAGCAUGUGGGGGUGAGCCCAGGGGCCCCAAGGCAGGGCACCUGGCCUUCAGCCUGCCUCAGCCCUGCCUGUCUCCCAGAUCACUGUCCUUCUGCCAUGGCCCUGUGGAUGCGCCUCCUGCCCCUGCUGGCGCUGCUGGCCCUCUGGGGACCUGACCCAGCCGCAGCCUUUGUGAACCAACACCUGUGCGGCUCACACCUGGUGGAAGCUCUCUACCUAGUGUGCGGGGAACGAGGCUUCUUCUACACACCCAAGACCCGCCGGGAGGCAGAGGACCUGCAGGGUGAGCCAACUGCCCAUUGCUGCCCCUGGCCGCCCCCAGCCACCCCCUGCUCCUGGCGCUCCCACCCAGCAUGGGCAGAAGGGGGCAGGAGGCUGCCACCCAGCAGGGGGUCAGGUGCACUUUUUUAAAAAGAAGUUCUCUUGGUCACGUCCUAAAAGUGACCAGCUCCCUGUGGCCCAGUCAGAAUCUCAGCCUGAGGACGGUGUUGGCUUCGGCAGCCCCGAGAUACAUCAGAGGGUGGGCACGCUCCUCCCUCCACUCGCCCCUCAAACAAAUGCCCCGCAGCCCAUUUCUCCACCCUCAUUUGAUGACCGCAGAUUCAAGUGUUUUGUUAAGUAAAGUCCUGGGUGACCUGGGGUCACAGGGUGCCCCACGCUGCCUGCCUCUGGGCGAACACCCCAUCACGCCCGGAGGAGGGCGUGGCUGCCUGCCUGAGUGGGCCAGACCCCUGUCGCCAGGCCUCACGGCAGCUCCAUAGUCAGGAGAUGGGGAAGAUGCUGGGGACAGGCCCUGGGGAGAAGUACUGGGAUCACCUGUUCAGGCUCCCACUGUGACGCUGCCCCGGGGCGGGGGAAGGAGGUGGGACAUGUGGGCGUUGGGGCCUGUAGGUCCACACCCAGUGUGGGUGACCCUCCCUCUAACCUGGGUCCAGCCCGGCUGGAGAUGGGUGGGAGUGCGACCUAGGGCUGGCGGGCAGGCGGGCACUGUGUCUCCCUGACUGUGUCCUCCUGUGUCCCUCUGCCUCGCCGCUGUUCCGGAACCUGCUCUGCGCGGCACGUCCUGGCAGUGGGGCAGGUGGAGCUGGGCGGGGGCCCUGGUGCAGGCAGCCUGCAGCCCUUGGCCCUGGAGGGGUCCCUGCAGAAGCGUGGCAUUGUGGAACAAUGCUGUACCAGCAUCUGCUCCCUCUACCAGCUGGAGAACUACUGCAACUAGACGCAGCCCGCAGGCAGCCCCACACCCGCCGCCUCCUGCACCGAGAGAGAUGGAAUAAAGCCCUUGAACCAGC-3'
(mRNA)             5'-AGCCCUCCAGGACAGGCUGCAUCAGAAGAGGCCAUCAAGCAG                                                                                                                                                                                   AUCACUGUCCUUCUGCCAUGGCCCUGUGGAUGCGCCUCCUGCCCCUGCUGGCGCUGCUGGCCCUCUGGGGACCUGACCCAGCCGCAGCCUUUGUGAACCAACACCUGUGCGGCUCACACCUGGUGGAAGCUCUCUACCUAGUGUGCGGGGAACGAGGCUUCUUCUACACACCCAAGACCCGCCGGGAGGCAGAGGACCUGCAGG                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   UGGGGCAGGUGGAGCUGGGCGGGGGCCCUGGUGCAGGCAGCCUGCAGCCCUUGGCCCUGGAGGGGUCCCUGCAGAAGCGUGGCAUUGUGGAACAAUGCUGUACCAGCAUCUGCUCCCUCUACCAGCUGGAGAACUACUGCAACUAGACGCAGCCCGCAGGCAGCCCCACACCCGCCGCCUCCUGCACCGAGAGAGAUGGAAUAAAGCCCUUGAACCAGC-3'

3. 翻訳
(mRNA)             5'-AGCCCUCCAGGACAGGCUGCAUCAGAAGAGGCCAUCAAGCAGAUCACUGUCCUUCUGCCAUGGCCCUGUGGAUGCGCCUCCUGCCCCUGCUGGCGCUGCUGGCCCUCUGGGGACCUGACCCAGCCGCAGCCUUUGUGAACCAACACCUGUGCGGCUCACACCUGGUGGAAGCUCUCUACCUAGUGUGCGGGGAACGAGGCUUCUUCUACACACCCAAGACCCGCCGGGAGGCAGAGGACCUGCAGGUGGGGCAGGUGGAGCUGGGCGGGGGCCCUGGUGCAGGCAGCCUGCAGCCCUUGGCCCUGGAGGGGUCCCUGCAGAAGCGUGGCAUUGUGGAACAAUGCUGUACCAGCAUCUGCUCCCUCUACCAGCUGGAGAACUACUGCAACUAGACGCAGCCCGCAGGCAGCCCCACACCCGCCGCCUCCUGCACCGAGAGAGAUGGAAUAAAGCCCUUGAACCAGC-3'
(preproinsulin)   (N)-                                                           M  A  L  W  M  R  L  L  P  L  L  A  L  L  A  L  W  G  P  D  P  A  A  A  F  V  N  Q  H  L  C  G  S  H  L  V  E  A  L  Y  L  V  C  G  E  R  G  F  F  Y  T  P  K  T  R  R  E  A  E  D  L  Q  V  G  Q  V  E  L  G  G  G  P  G  A  G  S  L  Q  P  L  A  L  E  G  S  L  Q  K  R  G  I  V  E  Q  C  C  T  S  I  C  S  L  Y  Q  L  E  N  Y  C  N  -(C)

4. 翻訳後切断
(preproinsulin) (N)- MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN -(C)
(proinsulin)    (N)-                         FVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN -(C)
(insulin_B, A)  (N)-                         FVNQHLCGSHLVEALYLVCGERGFFYTPKT                                   GIVEQCCTSICSLYQLENYCN -(C)

DNA二重鎖

DNA二重鎖は転写の際に鋳型になるアンチセンス鎖（antisense strand）と鋳型にならないセンス鎖（sense strand）からなります。センス鎖とアンチセンス鎖とでは、5'末端と3'末端の向きが逆です。

1. 転写（Transcription）

インスリンの遺伝子のアンチセンス鎖を鋳型にして転写が行われます。この一次転写産物はpre mRNAと呼ばれます。pre mRNAはセンス鎖のTをUに置き換えた塩基配列をもちます。

2. RNA スプライシング

pre mRNAのうちイントロン部分が切り出され取り除かれます。残ったエキソン部分がつなぎ合わされ成熟したmRNAとなります。この段階でmRNAは5'キャップ形成や3'ポリアデニル化といったRNAプロセッシングを受けますが今回は省略しています。

3. 翻訳（Translations）

mRNA上の開始コドンAUGで翻訳が開始されます。翻訳は5'末端から3'末端へ向かう方向に進み終止コドン（UAGなど）を認識するとそこで終了します。一次翻訳産物はプレプロインスリンと呼ばれます。

4. 翻訳後切断

プレプロインスリンはその先頭の24アミノ酸残基を取り除かれてプロインスリンになります。プロインスリンはその中央部分が両端で切断を受けて、インスリンのB鎖とインスリンのA鎖が切り出されます。インスリンはA鎖とB鎖が結合した構造を取ります。

まとめ

遺伝子全体の塩基配列、アミノ酸配列を用いて遺伝子の転写・翻訳の過程を調べることで転写・翻訳の流れについて理解を深めることができました。高校や大学の生物学の授業で転写・翻訳について学ぶときも、何か一つの遺伝子が転写され翻訳される過程を一つ一つ生徒・学生に追わせるほうが生徒・学生の理解が深まるでしょう。ただ1000bpを超えるような遺伝子の塩基配列を自分の思い通りに操作するためにはプログラミングの知識が必要となります。この点において筆者が提案するような学習者自身が遺伝子の配列全体を実際に操作してみる学習法は実現が難しいでしょう。同時に筆者にプログラミングの知識があったことで今回の試みを実現することができたことをうれしく感じます。

また、Biopythonに触れたのは今回が初めてであるのでその使い方は未熟です。今後Biopythonで色々遊んでみるのが楽しみです。

本記事の執筆において『ヒトの分子遺伝学第4版』と『新遺伝医学やさしい系統講義19講』を参考にしました。

2020-05-20

インスリンの遺伝子を転写・翻訳してみよう①

医学遺伝子

インスリンの遺伝子を転写・翻訳してみよう

インスリンの遺伝子の転写・翻訳の過程を数回の記事に分けてじっくり見てみようと思います。

インスリンの遺伝子（INS）

インスリンをコードする遺伝子（INS）は11番染色体短腕の11p15.5（じゅういち、ぴー、いち、ご、てん、ご）と呼ばれる位置にあります。ここで11pの11は11番染色体を、pは短腕を意味します。長腕を指す場合はqを使います。

インスリンの遺伝子の塩基配列

NCBIのサイトで遺伝子の塩基配列を調べることができます。NCBIの検索窓に"insulin homo sapiens"と打ち込んで検索するとインスリンのページにたどり着けます。このページでSequence Viewerを操作するとインスリンの遺伝子配列を見ることができます。Sequence Viewerの操作方法はこちらの京産大のPDFが参考になりました。

Sequence Viewerでインスリンの遺伝子の塩基配列を表示させてみると、上のスクリーンショットのようになります。このATGCからなる文字列のうちハイライトされている部分がインスリンの遺伝子です。その前後のハイライトされていない部分は遺伝子でない領域です。インスリンの遺伝子は2つのイントロンと3つのエキソンからなります。図の緑色部分がイントロンであり、図の紫色部分とピンク色部分を合わせたものがエキソンです。エキソンのうちピンク色部分がタンパク質をコードしている部分です。ピンク色部分の塩基3文字の下に書き込まれている一文字のアルファベットはその3塩基の組が指定する1つのアミノ酸を表しています。一方、エキソンのうち紫色の部分はmRNAに含まれることになるが翻訳はされない部分です

インスリンの遺伝子を取り出すと次のようになります。この文字列は全部で1431文字です。すなわちインスリンの遺伝子の長さは約1400塩基対（bp）ということになります。

AGCCCTCCAGGACAGGCTGCATCAGAAGAGGCCATCAAGCAGGTCTGTTCCAAGGGCCTTTGCGTCAGGTGGGCTCAGGATTCCAGGGTGGCTGGACCCCAGGCCCCAGCTCTGCAGCAGGGAGGACGTGGCTGGGCTCGTGAAGCATGTGGGGGTGAGCCCAGGGGCCCCAAGGCAGGGCACCTGGCCTTCAGCCTGCCTCAGCCCTGCCTGTCTCCCAGATCACTGTCCTTCTGCCATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAGGCAGAGGACCTGCAGGGTGAGCCAACTGCCCATTGCTGCCCCTGGCCGCCCCCAGCCACCCCCTGCTCCTGGCGCTCCCACCCAGCATGGGCAGAAGGGGGCAGGAGGCTGCCACCCAGCAGGGGGTCAGGTGCACTTTTTTAAAAAGAAGTTCTCTTGGTCACGTCCTAAAAGTGACCAGCTCCCTGTGGCCCAGTCAGAATCTCAGCCTGAGGACGGTGTTGGCTTCGGCAGCCCCGAGATACATCAGAGGGTGGGCACGCTCCTCCCTCCACTCGCCCCTCAAACAAATGCCCCGCAGCCCATTTCTCCACCCTCATTTGATGACCGCAGATTCAAGTGTTTTGTTAAGTAAAGTCCTGGGTGACCTGGGGTCACAGGGTGCCCCACGCTGCCTGCCTCTGGGCGAACACCCCATCACGCCCGGAGGAGGGCGTGGCTGCCTGCCTGAGTGGGCCAGACCCCTGTCGCCAGGCCTCACGGCAGCTCCATAGTCAGGAGATGGGGAAGATGCTGGGGACAGGCCCTGGGGAGAAGTACTGGGATCACCTGTTCAGGCTCCCACTGTGACGCTGCCCCGGGGCGGGGGAAGGAGGTGGGACATGTGGGCGTTGGGGCCTGTAGGTCCACACCCAGTGTGGGTGACCCTCCCTCTAACCTGGGTCCAGCCCGGCTGGAGATGGGTGGGAGTGCGACCTAGGGCTGGCGGGCAGGCGGGCACTGTGTCTCCCTGACTGTGTCCTCCTGTGTCCCTCTGCCTCGCCGCTGTTCCGGAACCTGCTCTGCGCGGCACGTCCTGGCAGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCCCTTGGCCCTGGAGGGGTCCCTGCAGAAGCGTGGCATTGTGGAACAATGCTGTACCAGCATCTGCTCCCTCTACCAGCTGGAGAACTACTGCAACTAGACGCAGCCCGCAGGCAGCCCCACACCCGCCGCCTCCTGCACCGAGAGAGATGGAATAAAGCCCTTGAACCAGC

DNAは二重らせん構造をとっているためもちろん遺伝子は2本の鎖からなります。遺伝子が転写される際は2本の鎖のうち片方が鋳型として使われることになります。2本の鎖のうち転写の鋳型となるものをアンチセンス鎖といい、鋳型とならないものをセンス鎖といいます。ここで、上で示した塩基配列はインスリンの遺伝子のセンス鎖です。ふつう遺伝子の配列を示す場合はセンス鎖を示します。

また、DNAは5'末端と3'末端をもちますが上で示した塩基配列は先頭が5'末端であり末尾が3'末端です。

次回以降、実際にインスリンの遺伝子の転写・翻訳をしてみます。

2020-05-19

検査にまつわる数学【尤度比、ベイズの定理など】

医学数学

f:id:milkteasugar:20200519174939j:plain — pencils

はじめに

本記事では、検査にまつわる用語（検査前オッズ、検査後オッズ、尤度比など）を定義しこれらの関係を示す。ベイズの定理も扱う。

状況設定

$a+b+c+d$ 人の人を集めたとき、そのうち $a+c$ 人が有病者で $b+d$ 人が無病者であったとする。有病者 $a+c$ 人のうち検査で陽性となったものが $a$ 人、陰性となったものが $c$ 人であり、無病者 $b+d$ 人のうち陽性が $b$ 人、陰性が $d$ 人であったとする。この状況は次の表で表すことができる。

	有病者	無病者
陽性	$a$	$b$
陰性	$c$	$d$

諸用語の定義

有病率（検査前確率）は $\dfrac{a+c}{a+b+c+d}$ と定義する。検査前オッズは $\dfrac{a+c}{b+d}$ と定義する。
感度は $\dfrac{a}{a+c}$ と定義する。
特異度は $\dfrac{d}{b+d}$ とする。
尤度比（陽性尤度比）は $\dfrac{\dfrac{a}{a+c}}{\dfrac{b}{b+d}}$ と定義される。これはすなわち $\dfrac{感度}{1-特異度}$ である。
検査後確率（陽性的中率）は $\dfrac{a}{a+b}$ と定義する。検査後オッズは $\dfrac{a}{b}$ と定義する。

検査後オッズ、尤度比、検査前オッズの関係

次のような式が常に成り立つ。

$\dfrac{a}{b} = \dfrac{\dfrac{a}{a+c}}{\dfrac{b}{b+d}} \cdot \dfrac{a+c}{b+d}$

これは次のような関係が成り立つことを意味する。

$検査後オッズ = 尤度比 \cdot 検査前オッズ$

ベイズの定理

事象Rと事象Cに対して

$P(C|R) = \dfrac{P(R|C)}{P(R)} \cdot P(C)$

が成り立つ。これをベイズの定理と呼ぶ。ベイズの定理は結果に相当する事象 $R$ が起きたときに原因に相当する事象 $C$ が起こる条件付き確率 $P(C|R)$ を求めるための定理と理解することができる。

【証明】条件付き確率 $P(C|R)$ と $P(R|C)$ に対して次の $2$ 式が成り立つ。

$P(C|R) = \dfrac{P(R\cap{C})}{P(R)}$

$P(R|C) = \dfrac{P(R\cap{C})}{P(C)}$

この $2$ 式から $P(R\cap{C})$ を消去して、

$P(C|R) = \dfrac{P(R|C)}{P(R)} \cdot P(C)$

（証明終）

「病気がある」という事象を原因の事象Cとし、「検査で陽性になった」という事象を結果の事象Rとすると、今考えている状況に対してベイズの定理を適用することができる。それでは早速ベイズの定理を適用してみよう。

ベイズの定理 $P(C|R) = \dfrac{P(R|C)}{P(R)} \cdot P(C)$ に登場する確率をそれぞれ解釈すると次のようになる。

検査前確率 $P(C) = \dfrac{a+c}{a+b+c+d}$
検査後確率 $P(C|R) = \dfrac{a}{a+b}$
感度 $P(R|C) = \dfrac{a}{a+c}$
陽性となる確率 $P(R) = \dfrac{a+b}{a+b+c+d}$

この関係を使ってベイズの定理を書き換えると、

$\dfrac{a}{a+b} = \dfrac{\dfrac{a}{a+c}}{\dfrac{a+b}{a+b+c+d}} \cdot \dfrac{a+c}{a+b+c+d}$

となる。すなわちベイズの定理は検査前確率と検査後確率の関係を表していると理解することができる。

確率とオッズ

$1$ 回の試行の結果が成功か失敗かであるような試行を $e+f$ 回行ったとき $e$ 回成功し、 $f$ 回失敗したとする。このとき、

成功する確率は $\dfrac{e}{e+f}$ である。
成功するオッズは $\dfrac{e}{f}$ である。ただしオッズという語を別の定義で使う場合もあるので注意を要する。

確率とオッズは「事象の起きやすさ」を単に別々の表現で表現したものに過ぎない。確率とオッズの値の間には一対一の関係がある。

$\dfrac{\dfrac{e}{e+f}}{1 - \dfrac{e}{e+f}} = \dfrac{e}{f}$ であるので、確率を $p$ としてオッズを $Odds$ とすると、 $\dfrac{p}{1 - p} = Odds$ という関係が成り立つ。

オッズと確率は同じようなものだという視点で見てみると、先ほど示したオッズに関する関係式

$\dfrac{a}{b} = \dfrac{\dfrac{a}{a+c}}{\dfrac{b}{b+d}} \cdot \dfrac{a+c}{b+d}$

と同じく先ほど示した確率に関する関係式（ベイズの定理）

$\dfrac{a}{a+b} = \dfrac{\dfrac{a}{a+c}}{\dfrac{a+b}{a+b+c+d}} \cdot \dfrac{a+c}{a+b+c+d}$

はほとんど同じような主張をしている式だと言える。

2020-05-18

医学生が挑戦！　30分間で病気を何個書き出せるか？

医学本

f:id:milkteasugar:20200518173942j:plain — doctor

30分間で病気を何個書き出せるかチャレンジ

タイトルの通り、大学で医学を学ぶ筆者が30分間で病気を何個書き出せるかに挑戦しました。病気を書き出してみようという本企画のきっかけは、海堂尊が一般向けに病気について解説した読み物『トリセツ・ヤマイ』です。

トリセツ・ヤマイ ~ヤマイ世界を俯瞰する

作者:海堂尊
発売日: 2013/05/23
メディア: 単行本

この本は、世の中にある病気を分類して一つひとつの病気をコンパクトに解説していくことで読者自身が「ヤマイ世界」を俯瞰できるようにするというコンセプトで書かれたものなのですが、その序章にこんなことが書かれていました。

レッツ・「トリセツ・ヤマイ」

勉強を始める前に、今の君自身が持っているヤマイのリストを書き出してみよう。

これはテストみたいなものだけど、採点するのは君自身だし、点数を他人に見せる必要もない。ただしこの本を読み終わった時、もういちど自分でテストをしてみて、初めの「ヤマイ目録」と見比べてほしい。その時に、この本の価値がわかるはずだ。

ではまず、次のページに答えを書き込んでほしい。

これに触発されて今回の挑戦をしてみることにしました。30分は1800秒だから1秒に1個書き出していけば1800個書ける......？

本記事を読んでくださっているかたも今から30分間ぜひ挑戦してみてください！

結果発表！

はい、30分が経過しました。筆者の結果は、、、89個でした。1800個なんて夢のまた夢でしたね。悪性腫瘍や感染症は結構ポンポン思い付きましたがその他の分野の病気があまり出てきませんでした。勉強不足ですがモラトリアム医学生なので大目にみてください。数年経って国家試験の勉強をする頃になったらもう一回同じ挑戦をしてみます。

筆者の結果の詳細はこちら

肺がん
胃がん
膵がん
大腸がん
白血病
悪性黒色腫
皮膚がん
咽頭がん
肝細胞癌
子宮頸がん
前立腺がん
甲状腺がん
膀胱がん
乳がん
色素性乾皮症
卵巣がん
血友病
鼻がん
COVID-19
SARS
MERS
AIDS
ATL
B型肝炎
C型肝炎
ツツガムシ病
ライム病
象皮病
眠り病
ハンセン病
麻疹
風疹
破傷風
日本脳炎
帯状疱疹
マイコプラズマ肺炎
結核
紅斑熱
デング出血熱
エボラ出血熱
マラリア
インフルエンザ
天然痘
ペスト
コレラ
黄熱病
糖尿病
クッシング病
バセドー病
橋本病
フェニルケトン尿症
無ガンマグロブリン血症
リウマチ
巨人症
川崎病
脳卒中
心筋梗塞
気胸
胃腸炎
逆流性食道炎
胃潰瘍
肝硬変
前立腺肥大
ダウン症候群
クラインフェルター症候群
胎児赤芽球症
二分脊椎
無脳症
鎌状赤血球症
無精子症
手足口病
水俣病
クローン病
潰瘍性大腸炎
ALS
尿道結石
膀胱結石
緑内障
白内障
中耳炎
う蝕
歯周病
口唇ヘルペス
顎関節症
アルツハイマー病
ハンチントン舞踏病
モヤモヤ病
躁うつ病
統合失調症

病気は全部でいくつある？

病気はどれくらいの数があるのか気になりませんか？　この数はもちろん病気の分類や定義によって変わる数ですが、病気の数が1000個程度なのかはたまた1000万個程度なのかといった見当をつけることには意義があるはずです。

『トリセツ・ヤマイ』にはこのように書かれていました。

WHO（世界保健機関）が国際疾病分類（ICD）という病気のカタログを作っているが、そこに載っている病気の数は現在およそ1万だという。

ICD (= International Classification of Diseases)の最新版は2019年5月に承認されたICD-11です。しかしこれの日本語版はまだ公表されていません。ICD-11の一つ前の版であるICD-10の日本語版はこちらで見ることができるので覗いてみてください。

『トリセツ・ヤマイ』の、ICDに載っている病気の数はおよそ1万だという記述はおそらくICD-10の分類項目数が約1万4000であることについて述べていると思われます。ICD-11の分類項目数は約1万8000に増えているので、病気の数は現在1万から2万ぐらいというふうに理解するするのがよさそうです。

それではまた次回の記事でお会いしましょう。

2020-05-17

想像をかきたてる最高のMV！　Coldplay『Up&Up』のMVの世界観に酔いしれる

洋楽

f:id:milkteasugar:20200517155637j:plain — Coldplay

MVの最高傑作

こちらのMVをご覧ください。これは筆者が史上最高のMVだと信じてやまない、Coldplay『Up&Up』のMVです。いかがでしょうか？　スポンジの上でサッカー場になって小さな選手たちがサッカーをしていたり、火山の火口でポップコーンがはじけていたりとユニークなアイディアの合成映像が次々と流れて見るものを虜にします。

合成映像のどれもが美しくその映像加工技術が高いことは言うまでもありませんが、まず何よりそもそものアイディアが最高に素晴らしいです。海の映像と空の映像を組み合わせたり、小さな動植物を巨大な建造物に匹敵するぐらい大きくしたり、巨大なものを小さな器に入れたり......

このMVは豊かな想像力の産物であると同時に人類の想像力に対する賛歌でもあります。想像というのは結局、ここにはない何かがもしあったらと考えを膨らませることです。『Up&Up』では実際に2つの別の世界のものを組み合わせて「想像」をやってみせ、「想像」によってこんなに楽しいことができると我々に示しています。これは「想像」というものを力強く肯定した作品でありまさに人類の想像力への賛歌です。

初めて見たときの衝撃

『Up&Up』のMVを初めて見たときの衝撃は忘れません。何となく知っていたColdplayのMVを見てみようと『Up&Up』のMVを再生してみたら、その世界観と美しい映像に釘付けになってしまいました。単純にその合成映像のアイディアにワクワクしたばかりではなく、海にあるものは海にあるもので、空にあるものは空にあるものというふうに世界を分けて考えていた自分の心の想像力を解き放ってくれたように感じました。

メイキング映像

ColdplayのYouTubeチャンネルでMVのメイキング映像も見ることができます。画像加工の過程が興味深いです。

受賞歴も

『Up&Up』のMVは2016年の"MTV Video Music Award for Best Visual Effects"（最優秀視覚効果賞）を受賞しています。

最後に

Coldplayはイギリスのロックバンドで『Up&Up』は2015年にリリースされたアルバム『A Head Full of Dreams』に収録されている一曲です。Coldplayは「Up&Up」の他にもたくさんの良い曲とMVを出しているのでぜひ聴いてみてください。

2020-05-16

オタワ・トロント・モントリオール・・・？　ついつい間違えてしまうカナダ東部の都市についてまとめました

地理

f:id:milkteasugar:20200516145717j:plain — カナダ国旗

つい間違えやすいカナダ東部の4つの都市

カナダ東部にある大都市は西から東にトロント、オタワ、モントリオール、ケベックシティの順に並んでいます。さて、この中でカナダの首都はどれでしょうか？　あるいはカナダ最大の都市はどれでしょうか？　筆者はこれらの都市の特徴や位置がよくごっちゃになってしまいます。そこでカナダ東部の都市についてまとめてみました。

トロントとオタワはオンタリオ州にあり、モントリオールとケベックシティはケベック州にあります。それでは早速これらの都市を州ごとに見ていきましょう。

オンタリオ州（Ontario）

オンタリオ州はカナダ全体の3分の1以上にあたる1,500万人程度の人口を有し、カナダの経済と政治の中心となっています。

トロント（Toronto）

トロントはカナダ最大の都市で、カナダ最大の金融センターとなっています。オンタリオ湖の北西岸に位置しその都市的地域人口は約650万人です。CNタワーがトロントのランドマークとなっています。

オタワ（Ottawa）

オタワはカナダの首都で、オタワ川に面しています。オタワ川はオンタリオ州とケベック州の境を流れセントローレンス川に合流する川です。オタワは1857年にヴィクトリア女王によって首都に選ばれたそうです。オタワはオタワ川の対岸にあるガティノ―（Gatineau）などを含めて都市圏を形成し、この都市圏の人口はおよそ140万人です。

ケベック州（Quebec）

ケベック州の人口は850万人程度です。人口の4分の3以上の住民がフランス語を第一言語としており、フランス文化の影響が強い地域です。

モントリオール（Montreal）

モントリオールはケベック州最大の都市でカナダ第2位の都市でもあります。モントリオールの都市的地域人口はおよそ430万人です。モントリオールはそのヨーロッパのような街並みから「北米のパリ」（the Paris of North America）と呼ばれることもあるようです。

ケベックシティ（Quebec City）

ケベックシティはセントローレンス川に面したケベック州の州都です。ケベックシティの都市的地域人口は82万人です。ここの旧市街は「ケベック旧市街の歴史地区」として世界遺産に登録されています。

まとめ

以上をまとめると下の表のようになります。

州	都市	特徴
オンタリオ州	トロント	オンタリオ州の州都、カナダ最大の都市
	オタワ	カナダの首都
ケベック州	モントリオール	カナダ第2位の都市、ケベック州最大の都市
	ケベックシティ	ケベック州の州都

間違えやすいカナダ東部の4都市のまとめはいかがでしたでしょうか。「百聞は一見に如かず」なのでいつか実際にこれらの4都市に行ってみたいものですね。

なお本記事はカナダ政府公式サイトのCanada’s Regionsというページを参考にしました。また都市的地域人口についてはカナダ統計局のPopulation estimates, July 1, by census metropolitan area and census agglomeration, 2016 boundariesを、州の人口についてはカナダ統計局のPopulation estimates, quarterlyを参考にしています。

2020-05-15

洋楽カバーで大人気！　チャンネル登録者数1500万人越えの韓国人女性YoutuberのJ.Flaさん

洋楽韓国

f:id:milkteasugar:20200528120827j:plain — headphones

韓国人美人YoutuberのJ.Flaってどんな人？

韓国の大人気女性YoutuberであるJ.Flaを紹介します。J.Flaは主に洋楽のカバー動画を投稿しています。シンガーソングライターとしても活躍しているようです。

この投稿をInstagramで見る

J.Fla(@jfla)がシェアした投稿 - 2020年 5月月7日午前4時56分PDT

チャンネル登録者数が1500万人越え

J.Flaのチャンネル登録者数は2020年5月15日時点で1530万人です。この数字がどれほど驚異的なのかは、2020年5月15日時点で日本にはチャンネル登録者数が1000万人を超えているYouTubeチャンネルがないことを考えると、よくわかります。韓国国内だけではなく世界中の洋楽ファンがJ.Flaの歌声を支持しているからこそこれほどたくさんの登録者を獲得できたのでしょう。

洋楽カバー動画

J.Flaはおよそ200本のカバー動画を出していてどれもクオリティの高いものばかりです。その中から選りすぐりの3本を紹介します。

いかがでしたでしょうか。ぜひJ.Flaをチャンネル登録して彼女の美声に癒されてみてください。