生物信息学学习心得

时间：2019-05-17 11:05:05 网站：公文素材库

第一篇：生物信息学

生物信息学是上世纪90年代初人类基因组计划(hgp)依赖，随着基因组学、蛋白组学等新兴学科的建立，逐渐发展起来的生物学、数学和计算机信息科学的一门交叉应用学科。目前生物信息学的研究领域主要包括基于生物序列数据的整理和注释、生物信息挖掘工具开发及利用这些工具揭示生物学基础理论知识等领域。生物信息学作为新型交叉应用学科，可以依托本校已有的计算机科学、信息学、生物学和数学等学科优势，充分展现投入少、见效快、起点高的特色，推动学校学科建设和本科教学水平。

本实验指导书中的8个实验均设计为综合性开发实验，面向生物信息学院全体本科学生和研究生，以及全校对生物信息学感兴趣的其他专业学生开放。生物信息学实验室将提供系统的保障，包括采用mail服务器和linux帐号管理等进行实验过程管理和支持。限选《生物信息学及实验》的生物技术专业本科生至少选择其中5个实验，并不少于8个学时，即为课程要求的0.5个学分。其他选修者按照课时和学校相关规定计算创新学分。实验一熟悉生物信息学网站及其数据的生物学意义

实验目的：

培养学生利用互联网资源获取生物信息学研究前沿和相关数据的能力，熟悉生物信息学相关的一些重要国内外网站，及其核酸序列、蛋白质序列及代谢途径等功能相关数据库，学会下载生物相关的信息数据，了解不同的数据文件格式和其中重要的生物学意义。

实验原理：

利用互联网资源检索相关的国内外生物信息学相关网站，如：ncbi、sanger、tigr、kegg、swww.bsmz.netatch程序去除ests原始序列中的载体成分和引物成分，然后用phrap生成congtig和singlet，用blast程序进一步将有同源性的contig和singlet进行功能聚类，最后通过blast对聚类获得的cluster进行功能注释。在实验过程中将用到一些本实验室写好的perl程序用于连接各数据库和工具软件。

实验内容：

1. 运行codoncode aligner程序，并用它建立工程文件，导入例子文件

夹里面的数据；练习对序列的各种查看方式。

2. 使用codoncode aligner程序里的clip ends, trim vector, assemble

等功能，完成序列的剪切、去杂质、组装工作。

实验报告：

1. 实验各步骤记录和中间结果文件；

2. 举例简要说明结果文件中数据的生物学意义。

参考书目：

《生物信息学概论》罗静初等译，北京大学出版社， 201*；

《基因表达序列标签（est）数据分析手册》胡松年等著，浙江大学出版社， 201*。

实验五利用primer premier5.0设计

race引物

实验目的：

熟悉pcr引物设计工具primer premier5.0的一些基本功能，能够根据实验需要选择相应的引物设计方法设计pcr引物。

实验原理：

pcr实验是当代分子生物学的基本实验之一，由于目标序列和实验目的的不同，相应设计引物的要求也不一样。本实验延续ests分析结果，对于其中需要获得全长的基因进行race引物的设计，及5’和3’race引物，配合接头序列设计单向引物，并模拟练习通过连接获得全长的基因cds序列。最后设计已知全长基因序列的pcr扩增引物。

实验内容：

1. 从网站下载并安装primer premier5.0；

2. 从 genbank 中任意获取一个 dna 序列，设计出该序列的合适引物；实验报告：

1. 实验各步骤使用的数据、运算平台、结果文件记录；

2. 比较不同引物设计平台和不同pcr实验的差别；

参考书目：

《生物信息学概论》罗静初等译，北京大学出版社， 201*；《生物信息学实验指导》胡松年等著，浙江大学出版社， 201*; 。

实验八 perl程序的安装、编写、调试实验目的：

培养学生能在www.bsmz.netatics--a

practical guide to the analysis of genes and proteins "andreas d.baxevanis b.f.francis ouellette 著李衍达孙之荣等译清华大学出版社 201*年8月第一版这本书由前卫计算生物学家撰写，贯穿了已有的工具和数据库，包括应用软件、因特网资源、向数据库提交dna序列以及进行序列分析和利用核酸序列与蛋白质序列进行预测的的方法。以下是该书的目录：1.因特网与生物学家，2. genebank序列数据库，3.结构数据库，4.应用gcg进行序列分析，5.生物数据库的信息检索，6. ncbi数据模型，7.序列比对和数据库搜索，

8.多序列比对和实际应用，9.系统发育分析，10.利用核酸序列的预测方法，11.利用蛋白质序列的预测方法，12.鼠类和人类公用物理图谱数据库漫游，13. acedb: 基因组信息数据库，14.提交dna序列数据库。本书有很多实际的序列和序列分析的例子。这本书适合高等院校的师生和从事生物工程研究的科技工作者阅读。

在第14章提及的通讯资源：互联网和通信地址；电话和传真号码

ddbj/embl和genbank的一般联系信息以及提交dna序列到这些数据库的入口。

ddbj（信息生物学中心，nig）

地址：ddbj，1111 yata， mishima，shiznoka 411，japan

传真：81-559-81-6849

e-mail

提交： ddbjsub@ddbj.nig.ac.jp

更新： ddbjupd@ddbj.nig.ac.jp

信息： ddbj@ddbj.nig.ac.jp

互联网

主页：

www.bsmz.netbl/doc/

embl和genbank数据库的版本信息

embl ftp://ftp.ebi.ac.uk/pub/databases/embl/release/relnotes.doc

genbank ftp://ncbi.nlm.nih.gov/genbank/gbrel.txt

sequin: dna序列数据库的提交和更新工具 http://www.bsmz.net.nih.gov/dbest

sts http://www.bsmz.net.nih.gov/dbgss

htgs主页：高吞吐量基因组序列资源，工具和信息 http://www.bsmz.netics)主要研究测序和核苷酸序列; 结构基因组学(structural genomics)着重于遗传图谱、物理图谱和测序等方面的研究; 功能基因组学

(functional genomics)则研究以转录图为基础的基因组表达图谱; 比较基因组学(comparative ge2nomics)的研究内容包括对不同进化阶段基因组的比较和不同种群和群体基因组的比较。

蛋白组和蛋白组学的概念是随基因组和基因组学的出现而出现的. 蛋白组(proteme)的概念是由于基因表达水平并不能代表细胞中活性蛋白质的数量, 基因组序列并不能描述活性蛋白质所必需的翻译后修饰和反映蛋白质种类和含量的动态变化过程而提出的. 在一定条件下某一基因组蛋白质表达的数量类型称为蛋白组, 代表这一有机体全部蛋白质组成及其作用方式. 有关蛋白组的研究称为蛋白组学. 其中, 蛋白组的研究技术与方法、双向凝胶电泳图谱以及对不同条件下蛋白组变化的比较分析是蛋白组学的主要研究内容。生物信息学在基因组和蛋白组研究中所起的作用主要有:（1)基因组信息结构的计算分析. 即对基因组数据进行大规模并行计算并预测各种新基因和功能位点, 研究大量非编码区序列的信息结构和可能的生物学意义。(2)模式生物全基因组信息结构的比较研究.即

对已完成全基因组测序的各种模式生物的基因组信息结构进行比较分析, 包括同源序列的搜索比较和指导基因克隆.(3)功能基因组的相关信息分析, 包括对基因表达图谱及其相关算法和软件的研究, 与功能基因组信息相关的核酸、蛋白质的空间结构的预测模拟以及蛋白质的功能预测。

2、生物信息数据库

复杂的生物和生物界和日新月异的生命科学研究产出的大量的生物学信息，对这些信息的储存、检索、比较分析必须借助于计算机数据库技术, 包括各类生物学信息数据库的建立与维护、数据的添加与注释、更新与查询、数据库资料的网络化等研究内容。现有的数据库有：核酸序列数据库（genbank、embl、ddbj）、基因组数据库、基因图谱数据库、蛋白质序列数据库（swww.bsmz.netatics

b数据采集

dna,rna和蛋白质测序

1．dna测序原理

dna中核苷酸的顺序是通过链式终止测序【也称为脱氧测序（dideoxy sequencing）或以发明人命名的sanger方法】来确定。

2．dna序列的类型

基因组dna，是直接从基因组中得到，包括自然状态的基因

复制dna（copy dna, cdna），通过反转录ｍｒｎａ得到的

重组dna，包括载体序列如质粒，修饰过的病毒和在实验室使用的其他遗传元件等

3．基因组测序策略

散弹法测序（shotgun sequence）包括随机dna片段的生成，通过大量片段测序来覆盖整个基因组

克隆重叠群测序（clone contig）dna片段用推理的方法亚克隆，并且进行系统的测序直到整个序列完成

4．序列质量控制

通过在dna双链上进行多次读取完成高质量序列数据的测定

可使用如phred等程序对最初的跟踪数据（trace data）进行碱基识别和质量判断。载体序列和重复的dna片段被屏蔽后，使用phred等程序将序列拼接成重叠群（contigs），剩下的不一致部分通过人工修饰解决

5．单遍测序

低质量的序列数据可以由单次读段（read）产生（单遍测序，single-pass sequencing）。尽管不很准确，但单遍测序如ests和gsss，可以低廉的价格快速大量的产生

6．rna测序

因为有大量的小核苷酸（minor nucleotide）（化学改变的核苷）存在于转移rna（trna）和核糖体rna（rrna）中，所以rna测序不能像dna测序那样直接进行。需要用特殊的方法来识别被改变的核苷，包括生化实验，核磁共振谱（nrm spectroscopy）和质谱（ms）技术

7．蛋白质测序

蛋白质序列可以通过dna序列推断得到，而rna测序不能提供有关已改变残基或其他类型的翻译后蛋白质修饰（比如剪接或二硫键的形成）

大部分蛋白质测序是通过质谱（ms）技术进行的

基因和蛋白质表达数据

1．全局表达分析

rna水平的分析中有效的方法是从rna群体或cdna文库中，甚至从序列数据库中进行序列采样。一个简单的方法是从cdna文库中随机挑选5000个克隆进行测序。含量很多的mrnas在采样的序列中出现的频率很高，而含量较少的mrna出现频率则较低，通过这些数据的统计分析可以确定相对的表达水平。

一个更高级的技术是基因表达的连续分析（serial analysis of gene expreaaion, sage）该方法使每个cdna产生很短的序列标签（通常8~15nt），并在测序前把数百个标签连接成连环分子（concatemer）。这样一个测序反应中可搜集到几百条ｍｒｎａ的丰富信息。每个sage标签可以特异性识别一个特定基因，通过对标签计数，可以确定每个基因的相对表达水平。

然而，大部分全局rna表达数据还需从微阵列实验所测的信号强度中获取。全局蛋白质表达数据主要从双向聚丙烯酰胺凝胶电泳（two-dimensional polyacrylamide gel electrophoresis, 2d-page）分离，产生点阵的唯一模式（每个点代表一个单独的蛋白质）。在2d-page实验中，蛋白质表达数据可以通过每个点的信号强度得到，每个二维凝胶上的蛋白信号必须通过质谱（ms）技术来单个注释。

2．dna微阵列

一个微阵列有一系列的dna元件（特征），以格子形式排列在载玻片等微型支撑物上，通过与复合rna探针杂交可同时使很多基因的表达水平可视化。若使用两个不同的荧光标签的探针，可以在同样的阵列上直接测定不同样本的不同基因的表达。微阵列中主要用到的两个技术：机械点样dna微阵列（spotted dna microarray）和寡聚核酸基因芯片(oligonucleotide gene chip)（由美国affymetrix公司独家制造），后者在制造芯片是通过固态化学合成把寡聚核苷酸印在芯片上。

3．双向蛋白质凝胶

2d-pag技术的原理是蛋白质可基于两个不同的特性来分离：等电点（isoelectric point）和分子质量（molecular mass）。该技术中，第一方向蛋白沿固相ph梯度(immobilizes ph gradient)等电聚焦(isoelectric focusing)分离；在垂直方向进行分子量的分离。在凝胶染色后，染色斑点（spot）的模式可作为样品中蛋白质的可重复使用的指纹（fringerprint）。通过样本间比较可以识别不同表达的蛋白质，或被药物诱导的蛋白质等。离体的蛋白质斑点（excised spot）可以通过质谱技术鉴定。

蛋白质互作数据

1．蛋白质互作的重要性

蛋白质-蛋白质互作导致瞬时或稳定多亚基复合物（multi-subunit complexes）的形成。了解这些复合物对于注释蛋白质功能是必需，也是解释信号级联和调控网络等分子途径的一个步骤。死效应反映了两个突变的蛋白质

2．遗传方法

抑制子突变体可以通过恢复被破坏的蛋白质互作来补偿有害的原始突变体。而合成致死效应反映了两个突变的蛋白质不能相互作用，显性负突变（dominant negative mutation）显示了一种起着多聚复合体作用的蛋白质。

3．亲和性方法

可通过几种利用蛋白质亲和性（特异结合的倾向）分析的物理方法来为蛋白质之间的相互关系提供直接的证据，比如亲和性管柱层析法，免疫共沉淀。由ciphergen公司使亲和实验格式更趋微型化，使得在蛋白质芯片的发展中达到顶峰。

4．分子和原子的方法

x射线晶体学和核磁共振谱有助于在原子水平识别蛋白质互作，其它的蛋白质互作分析的分子方法包括荧光共振能量传递（fret），表面基元共振谱（spr）和表面增强激光接吸附/离子化技术（seldl），其中的很多方法可通过质谱技术直接集成到蛋白质注释中。

5．基于文库的方法

基于文库的蛋白质互作实验有两个主要优点：它是高度并行的实验格式；候选互作蛋白质及其cdnas之间直接关联。

影响最大的方法是酵母双杂交系统（yeast two-hybrid system，y2h），在这个系统中蛋白质通过识别与之连接的一个功能转录因子进行互作。

c数据库--内容，结构和注释

已注释的序列数据库

1．初级序列数据库

genbank（ncbi）、核酸序列数据库（embl）和日本的dna数据库（ddbj）

2．swiss-prot和trembl

swiss-prot收集了确认的蛋白质序列及与结构，功能和所属蛋白质家族有关的注释信息。相关数据库trembl翻译了初级核酸数据库中的编码序列。

其他数据库

1．omim

omim指人类孟德尔遗传的联机数据库，用于研究人类遗传学和人类分子生物学的强大资源。每个omim条目都有一个对特定基因或性状的已知信息的全文总结，并有指向初级序列数据库和其它遗传学资源的链接。

2．incyte和unigene

incyte是商业数据库，它提供了基因序列和专家注释的记录，这是专门为药物研究开发服务的数据库。unigene是一种用来把genbank序列聚类并与est数据相关联的实验工具。

3．结构数据库

蛋白质数据库（pdb），核酸数据库（ndb），大分子结构数据库（msd）

e通过序列相似性标准搜索序列数据库

序列相似性搜索

1．序列联配

序列联配是是相似度量化的第一步，用来区分偶然性的相似和真实的生物学关系。联配结果以变化（突变）、插入或缺失（或空位indel）来显示序列之间的差异，这些差异可以用进化术语来说明。

2．联配算法

动态规划算法可以计算两条之间的最佳联配，其中广泛使用的算法有smith-waterman算法（局部联配）和needleman-wunsch算法（全局联配）。

3．联配分支和空位罚分

用简单的联配分值来测量相同匹配残基的比例或数目。得从联配分值中扣去空位罚分，以保证联配算法能得出有生物学意义的结果而没有太多的空位。

数据库搜索：fasta和blast

1．统计分值

相似度记分的p值是指获得至少与两条无关序列间的偶然相似性一样高的分值的概率。低p值表明重要的匹配，这些匹配可能会有真实生物学意义。相关的e值（期望值）是至少与所识别的相似性记同样高分值的偶然事件的期望概率。两序列见相似度的低p值对应于大数据库搜索的高e值。

2．敏感性和特异性

敏感性衡量数据库中真实生物序列关系的比例，该关系表现为击中项（有意义的相似序列）。特异性指的是对应于真实生物学关系的击中项的比例。改变e和p的默认值会导致这些互补的优良度测量方法之间的平衡。

f多序列联配：基因和蛋白质家族

多序列联配和家族关系

1．多序列联配

多序列联配表明两条或两条以上序列之间的关系，可以解释关于蛋白质结构和功能的许多线索。当所考察的序列不同时，保守的残基往往是维持稳定结构或生物学功能的关键残基。

2．渐进联配

渐进联配方法以两序列联配来初步评价序列是如何相关的，并在这个基础上构建向导树，然后使用向导树逐步添加序列到联配中，从最密切相关的序列开始到距离最远的序列结束。

蛋白质家族和模式数据库

1．蛋白质家族

把序列分配到蛋白质家族中是预测蛋白质功能是非常有价值的方法。多序列联配信息的表示方法有很多种，包括联配本身、一致序列、保守残基和残基模式、序列轮廓以及其他的

序列家族的概率模型。这些根据不同的应用都有不同的用途，其中大多数已经被开发和存储在数据库中，里面含有大量不同蛋白质家族的信息，这样的数据库称为二级数据库。

2．一致序列

这些序列把多序列联配的信息压缩至单条序列，主要的缺点是除了在特定位置最常见的残基之外，它们不能表示任何概率信息。一致序列的产生说明了任何蛋白家族的表示都是有偏向的，这主要是由于来源的序列集是有偏向的。

3．prosite

prosite数据库包括与蛋白质家族成员、特定蛋白功能及翻译后修饰有关的序列模式。 prosite模式与一致序列的不同在于，它们往往比序列全长要短得多，并且给出了一种描述多序列联配中一套可接受的残基组合的方法。prosite模式中已知的假阳性（或假阴性）都已经在数据库中注明。prosite数据库在某些条目含有序列轮廓，以尝试描述比模式更长的序列片段（通常指整个结构域）。

4．prints和blocks

prints和blocks是密切相关的，它们分别通过来自一组蛋白或蛋白家族中最高度保守区域的多序列联配无空位片段的形式来表示蛋白质家族。

蛋白质结构域家族

1．结构域家族

许多蛋白质是由模式结构的结构域组建的，因此蛋白质家族的研究其实是对蛋白质结构域家族的研究。

2．序列轮廓

序列轮廓（也成权重矩阵）是一种描绘蛋白质结构与家族相关序列的方法，其优点是描述了结构域序列的全长，包括观察到每个氨基酸的可能性，以及序列每个位点插入和缺失的可能性。

3．隐马尔科夫模型

隐马尔科夫模型（hmms）是蛋白质结构域家族序列的一种严格的统计模型，包括序列的匹配、插入和缺失状态，并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。代表某蛋白结构域家族的模型从该家族中生成序列的概率较高，从其他家族中生成序列的概率较低。

j微阵列数据分析

微阵列数据：分析方法

1．微阵列原始数据

微阵列数据就是经过杂交的阵列的扫描图像，扫描图像显示每一个点的杂交信号强度。这些图像可通过单通道、双通道荧光标记、同位素标记或比色标记等方法获得，其记录方式各不相同。

2．数据质量

准确记录个点的信号强度是微阵列数据分析的基本要求，dna阵列可包含数千个特征点，因此数据的获取和分析必须自动进行。阵列上必须包含对照点以衡量非特异杂交和不同

阵列上杂交的多变性。

3．基因表达矩阵

从微阵列实验得到的原始数据首先要转换成表，即基因表达矩阵。表中的各行代表基因，各列代表不同的实验条件，表中的数据为信号强度，代表各个基因的相对表达水平。

4．表达数据分组

基因表达矩阵中的每一个基因都有其特定的表达模式，即一系列条件下基因表达情况的测量值。微阵列数据分析就是要将这些数据按表达模式的相似程度进行分类。

序列采样和sage

1．序列采样数据分析

差异基因表达的研究，可以通过从不同的cdna文库中随机挑取克隆来进行，也可以通过抽取est数据来进行。这种分析需要抽取成千上万的序列以达到统计上的显著性，即使对于中度冗余度的mrna也要如此。

2．sage

sage是一种序列采样技术，其原理是将非常短的序列标记（9~15碱基）连续为长的串联体。sage标记的长度是最适于高通量分析，但基因依然可以被明确的鉴定出来。

　　来源：网络整理免责声明：本文仅限学习分享，如产生版权问题，请联系我们及时删除。

闂傚倸鍊烽懗鍓佸垝椤栫偛绀夋俊銈呮噹缁犵娀鏌熼幑鎰靛殭闁告俺顫夐妵鍕棘閸喚绋忓┑鐐茬焾娴滎亪寮婚敓鐘茬倞闁宠桨妞掗幋椋庣磼閻愵剙鍔ゆい顓犲厴瀵鈽夊⿰鍛澑闁诲函缍嗘禍婊堚€栨径鎰拺闁告繂瀚烽崕婊堟煙閸戙倖瀚�

《生物信息学学习心得》
由互联网用户整理提供,转载分享请保留原作者信息,谢谢!
http://m.bsmz.net/gongwen/282284.html