简介:GEO(Gene Expression Omnibus)是一个存储高通量基因表达数据的公共数据库。以下是从GEO数据库下载基因表达数据的方法。
首先,打开GEO官网:Home - GEO - NCBI (nih.gov)。在搜索框中输入GSE编号,点击Search。下拉页面,选择Series Matrix File(s)进行下载。您可以选择下载到本地,也可以通过文件传输的方式在服务器进行传输。如果想要下载原始数据,可以点击Download下面的下载链接进行下载。下载完成后,您可能会得到一个.sra结尾的数据,这是压缩文件,可以使用fastq-dump进行解压就能得到原始文件。
另一种方法是直接从浏览器中下载,以数据集GSE1001为例,可以直接点击“SeriesMatrix Files”获取该样本txt格式的表达谱数据。打开下载的文件可以看到许多“#”开头的行,这些是注释信息,一般关注这些注释信息中的“data processing”,这行中可以看到数据是如何归一化和标准化的,以及是否已经经过log转化等。之后需要下载平台数据以注释表达谱中的探针,点击“GPL85”,点击下图中的红框,之后可以用R进行表达谱和平台数据的合并。注意!到这里我们获得的只是初步的表达数据,还没有经过预处理,需要用R处理多个探针对应一个表达值,无对应symbol,以及合并多个探针对应一个symbol的情况后才可进行后续分析。
以上是从GEO数据库下载基因表达数据的方法,希望能对您有所帮助。