生物信息学学习心得
admin
2023-05-22 03:30:15
0

第一篇:生物信息学

生物信息学是上世纪90年代初人类基因组计划(hgp)依赖,随着基因组学、蛋白组学等新兴学科的建立,逐渐发展起来的生物学、数学和计算机信息科学的一门交叉应用学科。目前生物信息学的研究领域主要包括基于生物序列数据的整理和注释、生物信息挖掘工具开发及利用这些工具揭示生物学基础理论知识等领域。生物信息学作为新型交叉应用学科,可以依托本校已有的计算机科学、信息学、生物学和数学等学科优势,充分展现投入少、见效快、起点高的特色,推动学校学科建设和本科教学水平。

本实验指导书中的8个实验均设计为综合性开发实验,面向生物信息学院全体本科学生和研究生,以及全校对生物信息学感兴趣的其他专业学生开放。生物信息学实验室将提供系统的保障,包括采用mail服务器和linux帐号管理等进行实验过程管理和支持。限选《生物信息学及实验》的生物技术专业本科生至少选择其中5个实验,并不少于8个学时,即为课程要求的0.5个学分。其他选修者按照课时和学校相关规定计算创新学分。 实验一 熟悉生物信息学网站及其数据的生物学意义

实验目的:

培养学生利用互联网资源获取生物信息学研究前沿和相关数据的能力,熟悉生物信息学相关的一些重要国内外网站,及其核酸序列、蛋白质序列及代谢途径等功能相关数据库,学会下载生物相关的信息数据,了解不同的数据文件格式和其中重要的生物学意义。

实验原理:

利用互联网资源检索相关的国内外生物信息学相关网站,如:ncbi、sanger、tigr、kegg、swissport、ensemble、中科院北京基因组研究所、北大生物信息

学中心等,下载其中相关的数据,如fasta、genbank格式的核算和蛋白质序列、pathway等数据,理解其重要的生物学意义。

实验内容:

1. 浏览和搜索至少10个国外和至少5个国内生物信息学相关网站,并描

述网站特征;

2. 下载各网站的代表性数据各10条(组)以上,并说明其生物学意义;

3. 讨论各网站适合做何种生物信息学研究的平台,并设计一个研究设想。 实验报告:

1. 各网站网址及特征描述;

2. 代表性数据的下载和生物学意义的描述;

3. 讨论:这些生物信息学相关网站的信息资源,可以被那些生物信息学

研究所利用。

参考书目:

《生物信息学概论》 罗静初 等译, 北京大学出版社, 2019;《生物信息学手册》 郝柏林 等著, 上海科技出版社, 2019;

《生物信息学实验指导》 胡松年 等著, 浙江大学出版社, 2019。 实验二 利用blast进行序列比对

实验目的:

了解blast及其子程序的原理和基本参数,熟练地应用网络平台和linux计算平台进行本地blast序列比对,熟悉blast结果的格式和内容并能描述其主要意义,同时比较网上平台和本地平台的优缺点。

实验原理:

利用实验一下载的核算和蛋白质序列,提交到ncbi或者其他拥有blast运算平台的网页上,观察其基本参数设定库文件类型,并得到计算结果;同时在本地服务器上学会用formatdb格式化库文件,并输入blast命令进行计算,获得结果文件。

实验内容:

1. 向网上blast服务器提交序列,得到匹配结果;

2. 本地使用blast,格式化库文件,输入命令行得到匹配结果;

3. 对结果文件进行简要描述,阐述生物学意义。

实验报告:

1. 阐述blast原理和比对步骤;

2. 不同类型blast的结果及其说明;

3. 讨论:不同平台运行blast的需求比较。

参考书目:

《生物信息学概论》 罗静初 等译, 北京大学出版社, 2019;

《生物信息学实验指导》 胡松年 等著, 浙江大学出版社, 2019;。

实验三 利用clustalx(w)进行

多序列联配

实验目的:

掌握用clustal x(w)工具及其基本参数,对具有一定同源性和相似性的核酸与蛋白质序列进行联配和聚类分析,由此对这些物种的亲缘关系进行判断,并且对这些序列在分子进化过程中的保守性做出估计。

实验原理:

首先对于输入的每一条序列,两两之间进行联配,总共进行n*(n-1)/2次联配,这一步通过一种快速的近似算法实现,其得分用来计算指导树,系统树图能用于指导后面进行的多序列联配的过程。系统树图是通过upgma方法计算的。在系统树图绘制完以后,输入的所有序列按照得分高低被分成n-1个组,然后再对组与组之间进行联配,这一步用myers和miller算法实现。

实验内容:

1. 明确软件所支持的输入文件格式,搜集整理出合适的数据;

2. 在windows环境运行clustal x,在linux环境运行clustal w;

3. 实验结果及分析,用treev32或njplotwin95生成nj聚类图。

实验报告:

1. 整理好的符合clustal的序列数据;

2. 提交数据网页记录和各步骤记录;

3. 提供聚类图和多序列联配图,并说明意义。

参考书目:

《生物信息学概论》 罗静初 等译, 北京大学出版社, 2019;

《生物信息学实验指导》 胡松年 等著, 浙江大学出版社, 2019。 实验四 ests分析

实验目的:

熟悉使用一系列生物信息学分析工具对测序得到ests序列数据进行聚类处理,由此对获得表达基因的丰度等相关信息,并且对这些表达基因进行功能的初步诠释,为后续实验通过设计race引物获得全长基因,以及进一步的功能注

释和代谢途径分析做好准备。

实验原理:

首先用crossmatch程序去除ests原始序列中的载体成分和引物成分,然后用phrap生成congtig和singlet,用blast程序进一步将有同源性的contig和singlet进行功能聚类,最后通过blast对聚类获得的cluster进行功能注释。在实验过程中将用到一些本实验室写好的perl程序用于连接各数据库和工具软件。

实验内容:

1. 运行codoncode aligner程序,并用它建立工程文件,导入例子文件

夹里面的数据;练习对序列的各种查看方式。

2. 使用codoncode aligner程序里的clip ends, trim vector, assemble

等功能,完成序列的剪切、去杂质、组装工作。

实验报告:

1. 实验各步骤记录和中间结果文件;

2. 举例简要说明结果文件中数据的生物学意义。

参考书目:

《生物信息学概论》 罗静初 等译, 北京大学出版社, 2019;

《基因表达序列标签(est)数据分析手册》 胡松年 等著, 浙江大学出版社, 2019。

实验五 利用primer premier5.0设计

race引物

实验目的:

熟悉pcr引物设计工具primer premier5.0的一些基本功能,能够根据实验需要选择相应的引物设计方法设计pcr引物。

实验原理:

pcr实验是当代分子生物学的基本实验之一,由于目标序列和实验目的的不同,相应设计引物的要求也不一样。本实验延续ests分析结果,对于其中需要获得全长的基因进行race引物的设计,及5’和3’race引物,配合接头序列设计单向引物,并模拟练习通过连接获得全长的基因cds序列。最后设计已知全长基因序列的pcr扩增引物。

实验内容:

1. 从网站下载并安装primer premier5.0;

2. 从 genbank 中任意获取一个 dna 序列,设计出该序列的合适引物; 实验报告:

1. 实验各步骤使用的数据、运算平台、结果文件记录;

2. 比较不同引物设计平台和不同pcr实验的差别;

参考书目:

《生物信息学概论》 罗静初 等译, 北京大学出版社, 2019;《生物信息学实验指导》 胡松年 等著, 浙江大学出版社, 2019; 。

实验八 perl程序的安装、编写、调试 实验目的:

培养学生能在windows和linux两种平台安装perl解释器、编写perl程序以及debug和运行的能力,熟悉perl语言基本语法,学会熟练编写和运用perl程序进行基础生物信息学研究。

实验原理:

perl语言是一门通用的脚本语言,具有强大的字符串处理功能,是生物信息学研究的强大帮手,学会了perl语言,就能方便地处理生物信息学研究中遇到的各种字符串文本,促进研究的快速进行。

实验内容:

1. 下载perl程序在windows和linux下的安装包并进行安装;

2. 编写简单的perl程序,并学会debug;

3. 编写具有简单功能的碱基处理perl程序。

实验报告:

1. perl解释器安装方法;

2. perl解释器debug方法;

3. 讨论:perl语言在生物信息学研究中所起到的积极作用。

参考书目:

《perl 编程24学时教程》 (美)皮尔斯著 王建华等译,机械工业出版社, 2019;

《生物信息学手册》 郝柏林 等著, 上海科技出版社, 2019;《生物信息学实验指导》 胡松年 等著, 浙江大学出版社, 2019

第二篇:生物信息学

生物信息学(bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(genomics)和蛋白质组学(proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。

具体而言,生物信息学作为一门新的学科领域,它是把基因组dna序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。从生物信息学研究的具体内容上看,生物信息学应包括这3个主要部分:(1)新算法和统计学方法研究;(2)各类数据的分析和解释;(3)研制有效利用和管理数据新工具。

生物信息学是一门利用计算机技术研究生物系统之规律的学科。目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的acgt序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?

生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者w. gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。生物信息学的主要研究方向: 基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学,1989年在美国举办生物化学系统论与生物数学的计算机模型国际会议,生物信息学发展到了计算生物学、计算系统生物学的时代。

姑且不去引用生物信息学冗长的定义,以通俗的语言阐述其核心应用即是:随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的acgt序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。

第三篇:生物信息学

刚刚接触生物信息的时候,大家都比较迷茫,我觉得它是一个交叉学科,要想学好得有一定的毅力。我的导师要求我至少作到以下几个方面:

1,数学基础要好点。线代,高数,统计等。

2,计算机知识。windows ,linux, unix系统等,各种常用生物软件的使用。可以自己找来一个个试。

3,matlab 里面有的关于生物方面的工具包也很多的。

4,生物知识,不用说的。

其他: 如果要深入的话,最好会编程。什么java,perl,等。我是刚开始学。大家多指教。

导师推荐了好几本书:

《生物信息学概论》 "introduction to bioinformatics"(英) t k attwood , d j parry-smith 著罗静初 等译北京大学出版社 2019年4月第一版本书从生物信息学的研究对象、意义出发,介绍生物信息学研究的基本方法和常用工具。主要介绍的是核酸和蛋白质序列的计算机分析方法,探讨利用现有的计算机程序,从现有的数据库中能够获取什么、不能够获取什么。全书共分十章:1.概论,2.信息网络,3.蛋白质信息资源,4.基因组信息资源,5. dna序列分析,6.双序列比对,7.多序列比对,8.二次数据库搜索,9.数据库搜索实例,10.序列分析软件包。每章末尾均提供了进一步阅读指南和有关的网址。这本书的一大特色在于丰富的例子和图表,使读者可以很直观的了解和掌握书中的内容。此外,书的末尾还附有与生物信息学相关的词汇表。总的说来,这本书实用性强,可以作为高等院校生物信息学教材,也可以作为生命科学和生物技术各领域分子生物学研究和开发工作者的生物信息学参考书。

《生物信息学手册》郝柏林 张淑誉 编著上海科学技术出版社 2019年10月第一版一本手册式的生物信息学书籍。除了介绍了生物信息学,还包括了计算机及计算机网络(这一部分提供了一些网址)和分子生物学的知识。更为重要的是,该书的主要部分?quot;生物信息数据库"和"服务、软件和算法"部分,提供了大量的网址。 几乎是每一个条目下面都有不少网址。这本书将网络上的生物信息学资源进行了索引式的介绍,并作了必要的说明。书中列举了近千条网址和引文,基本涵盖了生物学研究的各个方面,堪称生物信息的汪洋大海中的导航图。对生物信息学的服务、软件和算法,本书也作了较全面的描述。本书可供广大生命科学工作者以及由物理学、数学和计算机学转入生命科学领域的研究教学人员参阅(上面可以查到很多网址)。

《生物信息学》赵国屏 等 编著科学出版社 2019年4月 第一版本书是"863"生物高科技丛书之一。它比较全面地介绍了生物信息学的若干个主要分支,并特别介绍了与人类基因组研究

相关的生物信息学的一些较新成果;着重介绍了数据库和数据库的查询、序列的同源比较及其在生物进化研究中的应用;以生物芯片中的生物信息学问题为例,介绍与基因表达相关的生物信息学问题;还介绍了蛋白质结构研究中的生物信息学问题,以及与分子设计和药物设计相关的生物信息学技术。本书可供生物信息学专业和生命科学相关专业的本科生、研究生和教学科研人员阅读学习,也可供相关专业的科技和应用机构的科研、管理和决策人员参考。注意,本书有很大篇幅是讲基因芯片和蛋白质结构预测的。

《生物信息学--基因和蛋白质分析的实用指南》 "bioinformatics--a

practical guide to the analysis of genes and proteins "andreas d.baxevanis b.f.francis ouellette 著李衍达 孙之荣 等 译清华大学出版社 2019年8月 第一版这本书由前卫计算生物学家撰写,贯穿了已有的工具和数据库,包括应用软件、因特网资源、向数据库提交dna序列以及进行序列分析和利用核酸序列与蛋白质序列进行预测的的方法。以下是该书的目录:1.因特网与生物学家,2. genebank序列数据库,3.结构数据库,4.应用gcg进行序列分析,5.生物数据库的信息检索,6. ncbi数据模型,7.序列比对和数据库搜索,

8.多序列比对和实际应用,9.系统发育分析,10.利用核酸序列的预测方法,11.利用蛋白质序列的预测方法,12.鼠类和人类公用物理图谱数据库漫游,13. acedb: 基因组信息数据库,14.提交dna序列数据库。本书有很多实际的序列和序列分析的例子。这本书适合高等院校的师生和从事生物工程研究的科技工作者阅读。

在第14章提及的通讯资源:互联网和通信地址;电话和传真号码

ddbj/embl和genbank的一般联系信息以及提交dna序列到这些数据库的入口。

ddbj(信息生物学中心,nig)

地址:ddbj,1111 yata, mishima,shiznoka 411,japan

传真:81-559-81-6849

e-mail

提交: ddbjsub@ddbj.nig.ac.jp

更新: ddbjupd@ddbj.nig.ac.jp

信息: ddbj@ddbj.nig.ac.jp

互联网

主页:

webin:

genbank(国家生物技术信息中心,nih)

地址:gen bank national center for biotechnology information, nationtional library of medicine, national institutes of health, building 38a, room 8n805, bethesda md 20194

电话:301-496-2475

传真:301-480-9241

e-mail

提交: gb-sub@ncbi.nlm.nih.gov

est/gss/sts batch-sub@ncbi.nlm.nih.gov

更新: update@ncbi.nlm.nih.gov

信息: datalib@ebi.ac.uk

互联网

主页:

bankit:

在dna序列数据库中使用的遗传密码:

ddbj/embl/genbank特征表文档可用www方式获得或者从ebi或ncbi的ftp服务器上得到postscript文件。ftp://ncbi.nlm.nih.gov/genbank/docs/ ftp://ftp.ebi.ac.uk/pub/databases/embl/doc/

embl和genbank数据库的版本信息

embl ftp://ftp.ebi.ac.uk/pub/databases/embl/release/relnotes.doc

genbank ftp://ncbi.nlm.nih.gov/genbank/gbrel.txt

sequin: dna序列数据库的提交和更新工具 http://www.jcjmh.com

相关内容