（待更）零基础复现一篇生信网络药理学文章之大黄素篇（含所有代码、TCMSP网站、SwissADME数据库、GeneCards网站、DisGeNET数据库、OMIM网站使用教程）|电子爱好者

admin管理员组
文章数量:1533852

前言

本机环境与复现文章

需要已装好python、R语言环境。本人使用的是mac。
要复现的文章是：Investigation into the Molecular Mechanisms of Rheum against Esophageal Cancer Based on Network Pharmacology and Experimental Validation

英文名

大黄英文名：Dahuang
食管癌英文名：esophageal cancer

网站地址

TCMSP网站地址：https://old.tcmsp-e/tcmsp.php
GeneCards网站首页：https://www.genecards/
OMIM网站首页：https://www.omim/（没什么用，建议直接去到OMIM geneMap页面）
OMIM geneMap页面：https://www.omim/search/advanced/geneMap
SwissADME网站：http://www.swissadme.ch/index.php

TCMSP筛选药物活性成份

论文原文步骤

TCMSP筛选大黄的活性成分。以“大黄”为关键词，筛选标准包括口服生物利用度（OB）≥ 20% 和药物相似性（DL）≥ 0.18，以识别具有潜在药理活性的成分。

复现步骤

网站首页

首先进入TCMSP网站如下：

网站搜索

直接输入大黄英文名Dahuang之后点击搜索，出现如下页面，点击拉丁名称后会跳转

搜索结果初筛

可以看到这里出现了搜索结果列表，我们只关注两列：OB（生物利用度）和DL（药物相似性）

这里每列点击后其实都可以切换顺序/倒序排序的，具体可见点击列明后的显示的是上箭头还是下箭头。
但是当列过窄时可能和筛选图标重叠，我们可以手动按住列的分割线将列拉宽点。
然后点击筛选图标，按照论文原文的生物利用度（OB）≥ 20% 和药物相似性（DL）≥ 0.18进行筛选。
筛选后就从一开始的92条数据变为了29条数据（因为数据库一直在变动，所以筛选后不是29条也问题不大～）

下载数据

随后我们需要下载数据，在这里你可以选择以下任意方式之一：

手动粘贴

因为数量不多，所以可以手动粘贴到txt文件或者xlsx文件中，如下：

代码爬虫

本人写了个爬虫脚本，如下。

使用前提是下载你所使用的浏览器对应的`driver`，譬如你用的是`chrome`，那么要下`chromedriver`。
在这里我提供了`chromedriver`在本文章的资源绑定里面。

ps：不保障每人都能使用成功该脚本，受各种因素影响捏。
本人纯纯为爱发电，不提供代码的售后服务，有问题可在评论区留言，看到即回。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import pandas as pd

options = webdriver.ChromeOptions()
driver = webdriver.Chrome(options=options)


def get_related_targets(url):
    # 打开目标网页
    driver.get(url)

    # 等待页面加载完成
    WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.XPATH, "//a[contains(text(), 'Related Targets')]"))
    )

    related_targets_tab = WebDriverWait(driver, 10).until(
        EC.element_to_be_clickable((By.XPATH, "//a[contains(text(), 'Related Targets')]"))
    )
    related_targets_tab.click()

    # table = driver.find_element((By.XPATH, '//*[@id="grid2"]/div[2]/table'))
    WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.XPATH, '//*[@id="grid2"]/div[2]/table'))
    )
    # 初始化DataFrame来存储所有页面的表格数据
    all_pages_data = pd.DataFrame()

    # 循环遍历所有分页
    while True:
        # 获取当前页面的HTML
        html = driver.page_source
        soup = BeautifulSoup(html, 'html.parser')

        # 使用Selenium获取表格数据
        table = driver.find_element(By.CSS_SELECTOR, '#grid2 > div.k-grid-content > table')
        rows = table.find_elements(By.TAG_NAME, 'tr')
        data = []
        for row in rows:
            cols = row.find_elements(By.TAG_NAME, 'td')  # 或者 'th' 如果是表头
            cols_text = [ele.text.strip() for ele in cols]
            data.append(cols_text)
        # 将当前页面的数据添加到DataFrame
        # 跳过表头，直接使用数据行创建DataFrame
        df = pd.DataFrame(data)
        all_pages_data = pd.concat([all_pages_data, df], ignore_index=True)

        # 尝试点击下一页按钮，如果找不到则跳出循环
        try:
            # 等待“下一页”按钮可点击
            next_page_btn = WebDriverWait(driver, 10).until(
                EC.element_to_be_clickable(
                    (By.CSS_SELECTOR, '#grid2 > div.k-pager-wrap.k-grid-pager.k-widget > a:nth-child(4)'))
            )
            if "k-state-disabled" not in next_page_btn.get_attribute("class"):
                # 点击按钮
                next_page_btn.click()
                WebDriverWait(driver, 2).until(
                    EC.presence_of_element_located((By.CSS_SELECTOR, '#grid2 > div.k-grid-content > table'))
                )
            else:
                print("已到达最后一页")
                break
        except Exception as e:
            print("发生错误:", e)
            break

    # 关闭WebDriver
    driver.quit()

    # # 打印所有页面的数据
    # print(all_pages_data)

    # 如果需要，可以将数据保存到文件
    all_pages_data.to_csv('targets.txt', index=False, header=False)


if __name__ == '__main__':
    url = "https://old.tcmsp-e/tcmspsearch.php?qr=Coptidis%20Rhizoma&qsr=herb_en_name&token=5d5532b4c3e1a1d1aa9817e3b8d8b89a"
    # 需要换成初筛后的网址
    get_related_targets(url)

开通会员

该网站貌似有会员服务，会提供另一个版本的网站，可选hhh

SwissADME筛选药物活性成分

论文原文步骤

使用SwissADME数据库进行了二次筛选，选择了具有高胃肠道吸收（GI absorption）并符合Lipinski、Ghose、Veber、Egan和Muegge等药物相似性标准的成分。经过这一筛选过程，最终确定了具有已知靶点的大黄七个活性成分：EUPATIN, Emodinanthrone, Physcion-9-O-beta-D-glucopyranoside_qt, 大黄酸, Toralactone, 大黄素, 和 Physcion。

复现步骤

批量获得SMILES序列号

可以见我的另一篇博客：http://t.csdnimg/m366Q

筛选

拿到SMILES序列号后去SwissADME中进行转化，如下，点击Run

然后根据原文的"选择了具有高胃肠道吸收（GI absorption）"，就是看图1处是否为High。
原文的“符合Lipinski、Ghose、Veber、Egan和Muegge等药物相似性标准”，就是看图2框中的地方是否有两个及以上的yes。

Uniprot数据库

GeneCards数据库筛选疾病潜在靶点

网站首页和搜索

进入GeneCards网站首页后，搜索食管癌英文esophageal cancer，随后点击搜索。

搜索结果下载

点击Export后点击Export to Excel（这个的下载会有点慢，可以先做下一步DisGeNET）

搜索结果初筛

Genecards下载的文件名也默认都是GeneCards-SearchResults.csv，我们打开下载的文件，如下：

我们首先需要选中表头，然后点击“筛选”下的“筛选”。

之后就可以看到表头的每一个都出现了筛选图标。

根据原文步骤相关性评分（Relevance score） ≥ 1.0，我们点击Relevance score的筛选图标后选择“数字筛选”，而后出现如下面板，输入相关信息点击确认后可以看到表格的最下方显示我们从7548条中筛选出了7227条，之后将这些数据复制到新的excel文件中。

DisGeNET数据库筛选疾病潜在靶点

OMIM数据库筛选疾病潜在靶点

网站搜索

直接来到OMIM geneMap页面，搜索食管癌英文esophageal cancer，随后点击搜索。

或者你可以通过首页来到gene Map页面

下载搜索结果

如下下载搜索结果

搜索结果处理

在OMIM下载的数据的文件名称都是OMIM-Entry-Retrieval.xlsx
我们点开来看，如下，我们只需要关注或者说，提取Gene/Locus这一列即可。

你可以选择如下两种方法之一：

excel处理

注意将逗号和前后空格都删除，并去重，一个基因名就占一行，最终结果如下：

代码处理

我写了一个python脚本，代码如下：
ps：这只是一个片段代码，如果直接跑是跑不出来结果的（

def get_gene_from_OMIM(OMIM_file_name):
    # 读取Excel文件
    df = pd.read_excel(OMIM_file_name, skiprows=4)  # 跳过前4行非数据行

    # 提取"Gene/Locus"列
    gene_locus_column = df['Gene/Locus'].dropna()

    # 创建一个空列表来存储处理后的基因名
    cleaned_genes = []

    # 遍历"Gene/Locus"列
    for item in gene_locus_column:
        # 检查是否为字符串类型
        if isinstance(item, str):
            # 去除双引号并去除两端空格
            item = item.replace('"', '').strip()
            # 分割基因名并去除每个基因名两端的空格
            genes = [gene.strip() for gene in item.split(',')]
            # 添加到列表中
            cleaned_genes.extend(genes)
    gene_df = pd.DataFrame(cleaned_genes, columns=['Gene/Locus'])
    print("omim_df 's row is: ", len(gene_df))
    return gene_df

本文标签：网站数据库药理学之大代码

版权声明：本文标题：（待更）零基础复现一篇生信网络药理学文章之大黄素篇（含所有代码、TCMSP网站、SwissADME数据库、GeneCards网站、DisGeNET数据库、OMIM网站使用教程）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1724844001a993578.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

（待更）零基础复现一篇生信网络药理学文章之大黄素篇（含所有代码、TCMSP网站、SwissADME数据库、GeneCards网站、DisGeNET数据库、OMIM网站使用教程）

前言

本机环境与复现文章

英文名

网站地址

TCMSP筛选药物活性成份

论文原文步骤

复现步骤

网站首页

网站搜索

搜索结果初筛

下载数据

手动粘贴

代码爬虫

开通会员

SwissADME筛选药物活性成分

论文原文步骤

复现步骤

批量获得SMILES序列号

筛选

Uniprot数据库

GeneCards数据库筛选疾病潜在靶点

网站首页和搜索

搜索结果下载

搜索结果初筛

DisGeNET数据库筛选疾病潜在靶点

OMIM数据库筛选疾病潜在靶点

网站搜索

下载搜索结果

搜索结果处理

excel处理

代码处理

更多相关文章

【Python】发送邮件，超详细看图敲码（附完整代码）一一CSDN21天学习挑战赛

html提示更新浏览器的代码,IE9及以下浏览器升级提示

VirtualBox虚拟机CentOS打不开，无法开机，代码E_FALL

计算机蓝屏代码0x0000007b,win7开机蓝屏提示STOP:0X0000007B的解决方法

[分享]蓝屏代码查询及代码分析

移动硬盘 计算机不能启动不了,移动硬盘:该设备无法启动.(代码 10)

试用AI生成代码工具Fauxpilot,详细安装过程

计算机蓝屏 代码0000a,Win7系统出现蓝屏代码0x000000a的原因及解决方法

精心收集：国内外ChatGPT无限制使用镜像网站集合【2024-8月最新】~

Elastic 网络爬虫：为你的网站添加搜索功能

POE：性价比最高的 AI 整合网站

10个不错的免费在线翻译网站

简单关键字中英文翻译机代码~

利用Python爬取翻译网站的翻译功能

SQL SERVER 如何使用BAK文件还原数据库，安装在不同电脑上的数据库！

ps4pro折腾服务器网站,【教学】简易 PS4 Pro 更换 SSD！玩 MHW 不用等 (安装＋数据转移) - 宅客ZhaiiKer...

推荐一些可以获取免费的国外的原版书籍（电子版）网站

这么有料的福利，你还不赶紧关注一波吗？（代码合集）

浏览器测试基本跑分网站

搜狗收录提交入口-搜狗网站批量提交方法

发表评论

推荐文章

配置 Mac M1 支持运行 linuxamd64 镜像

Win10如何删除Windowsapps文件夹？Windowsapps文件夹删除方法

ubuntu下载及安装搜狗拼音输入法

linux fedora 39一键安装拼音输入法脚本

MAC移动硬盘的坑

热门文章

插入安装光盘并重新启动计算机,电脑开机时显示 插入windows安装光盘并重新启动计算机 怎么解决 急救...

2008R2 WDS (五）--实现win7客户端无人值守安装

Dell inspiron 14怎么设置u盘启动

青提WiFi微信小程序项目介绍

计算机开机按f1,电脑开机要按f1怎么解决 开机按F1的各种解决方法整理

可移动硬盘的写入故障分析与处理（1）----硬盘的写入保护的去除

英语教学系列之雅思综合篇V1.9（持续更新）

《大学英语翻译》课程相关复习笔记

dell服务器vhd系统还原,如何使用 Dell Backup and Recovery 还原戴尔出厂映像

网络格式转换器 摆脱没有转换器的烦恼

最新文章

西安ThoughtWorks面试总结

让 ThoughtWorks 成为你的下一所大学

thoughtworks实习一面（凉）

Maven错误问题解决无法传输com.thoughtworks.xstream：xstream：jar：1.3.1......

CVPR‘24| Leap-of-Thought! 中大哈佛等提出CLoT探究大模型幽默创新响应

记录自己的一次thoughtworks的面试经历

DeepThought：AI时代的商业分析平台

移动硬盘计算机不能启动不了,移动硬盘:该设备无法启动.(代码 10)

计算机蓝屏代码0000a,Win7系统出现蓝屏代码0x000000a的原因及解决方法

插入安装光盘并重新启动计算机,电脑开机时显示插入windows安装光盘并重新启动计算机怎么解决急救...

计算机开机按f1,电脑开机要按f1怎么解决开机按F1的各种解决方法整理

网络格式转换器摆脱没有转换器的烦恼

NLP中大语言模型LLM中的思维链 Chain-of-Thought(CoT) GoT

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载