linux定时爬虫并把内容发给自己的邮箱|电子爱好者

admin管理员组
文章数量:1529449

零、前言

0、自己之前有很多爬虫经历，所以爬虫这一块没啥大问题。

1、可能 python编写邮箱发送功能会报错。网易的错误代码是554 ，说的是你的代码可能疑似广告行为，被拦截了（详细：https://help.mail.163/faqDetail.do?code=d7a5dc8471cd0c0e8b4b8f4f8e49998b374173cfe9171305fa1ce630d7f67ac28218e37dcd9adbaa）。后面换成QQ邮箱就好了。

2、需要在 QQ 邮箱开启POP3/SMTP服务（进入自己的QQ邮箱网页版==>点击'账号'==>点击'设置'==>点击'开启POP3/SMTP服务'），接着会弹出授权码，一定要记下来，因为编写py代码要用到！！

一、整体思路

0、自己在本机上测试成功爬取数据和发送邮箱成功后，再把相关的环境、代码部署到自己的服务器上

1、在linux服务器上，添加这个 py 脚本，这样就能在邮箱上定时收到自己想要的互联网内容了，比今日头条的推荐算法更精准哦！！

二、具体实现以及相关代码（以爬取新浪热搜为例）。

0、安装相关的库

from email.mime.text import MIMEText
from email.header import Header
from smtplib import SMTP_SSL

import requests
import re

1、编写爬取新浪热搜的代码

# 根据不同的 url 获取到原先的 html 代码
def get_html(url):
    content = requests.get(url).text
    return content

# 根据 匹配的模式 pattern 、 要进行匹配的原文 pattern 、 是哪个咨询index 得到我们感兴趣的内容（格式化的） ===》  my_content
def get_final_content(pattern, html_content, index):
    items = re.findall(pattern, html_content)
    final_content = ''
    if(index == 1):
        final_content = get_sina_content(items)
    # elif(index == 2):
    #     final_content = get_w3cplus_content(items)

    # 返回每一个网站 所爬取的 格式化内容
    return final_content


# 获取新浪微博的 热搜
def get_sina_content(items):
    # 只获取 新浪热搜的 前5条
    count = 0
    # 前缀网址  'https://s.weibo'
    basic_url = 'https://s.weibo'
    # 返回感兴趣的内容 ===》  格式化的
    result_content = ''

    for item in items:
        count += 1
        if(count < 6):
            # print(item[0], item[1], item[2])
            result_content += (str(count) + '、' + item[1] +'\t热度：' + item[2] + '\t链接：' + basic_url + item[0] + '\n')

    # print(result_content)
    return result_content




# 爬取新浪微博热搜的 函数入口
def main_sina():
    url = 'https://s.weibo/top/summary'
    html_content = get_html(url)
    # print(html_content)

    pattern = repile('.*?<td class="td-02">.*?<a href="(.*?)" target="_blank">(.*?)</a>.*?<span>(.*?)</span>', re.S)
    final_content = get_final_content(pattern, html_content, 1)
    print(final_content)
    return final_content

2、编写发送邮箱的代码

def send_email(sender_qq, pwd, receiver, mail_title, mail_content):
    # qq邮箱的服务器
    host_server = 'smtp.qq'
    sender_qq_mail = sender_qq + '@qq'

    # ssl 登录
    smtp = SMTP_SSL(host_server)

    smtp.set_debuglevel(1)
    smtp.ehlo(host_server)
    smtp.login(sender_qq, pwd)

    msg = MIMEText(mail_content, 'plain', 'utf-8')
    msg["Subject"] = Header(mail_title, 'utf-8')
    msg["From"] = sender_qq_mail
    msg["To"] = receiver
    smtp.sendmail(sender_qq_mail, receiver, msg.as_string())
    smtp.quit()

3、最终的函数入口

if __name__ =='__main__':
    # sender_qq 为发件人的 qq 号码
    sender_qq = 'xxx'
    # pwd 为 qq 邮箱的授权码
    pwd = 'xxx'
    # 收件人的邮箱 receiver
    receiver = 'xxx'

    # 邮件正文
    mail_content = main_sina()
    mail_title = 'xxx'
    
    send_email(sender_qq, pwd, receiver, mail_title, mail_content)

4、在linux(自己的是 centos7.2+python 3.7)服务器上为该 py 文件添加定时脚本

1）当前路径所含的文件

2）设置定时脚本（crontab -e 。详细参数参考：http://www.linuxso/command/crontab.html）;尽量两个文件写绝对路径，不然可能会出现问题！！我这里是设置过环境变量啥的，可以直接写 python ，它就自动帮我调用 python3 !!

5、效果截图

总结：

0、自己也在玩微信公众号（IT三少），粉丝达到过5.8K+，有在盈利哦；欢迎学习交流！自己也上线过小程序（项目地址：https://github/CYBYOB）。本人QQ:1520112971，邮箱：1520112971@qq

1、虽说一路坑不少，但是凭借自己的较强的解决问题能力还是很快搞定了，以后再一些知乎、开源中国等的爬取，每天岂不是美滋滋。

2、最近在玩机器学习。想训练出一个 “伪生命公式”，因为受启发于天才J 这部网剧（感觉脑洞挺大的，弄出来公式，有空就把完整代码放在CSDN上）。

本文标签：自己的爬虫并把邮箱内容

版权声明：本文标题：linux定时爬虫并把内容发给自己的邮箱内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1726721842a1081885.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

linux定时爬虫并把内容发给自己的邮箱

更多相关文章

java 代码发送邮件添加附件_Java实现163邮箱发送邮件到QQ邮箱

企业域名邮箱怎样检查,qq企业域名邮箱

python自动发送qq邮件_pythonQQ邮箱自动发送邮件

使用qq邮箱发送邮件

Jenkins邮箱配置过程（qq + 163）

西工大客户端邮箱配置

python发送文件到指定的邮箱_怎么用qq邮箱发文件-用python发送139邮箱电子邮件和短信通知，让你不再错过重要信息...

nodejs实现用户邮箱注册

python接收163邮件以及下载附件（以163邮箱为例）

实现邮箱注册账号并验证邮箱

kubernetes+prometheus+grafana监控+alertmanager实现qq邮箱报警

比较好用的邮箱有哪些？收费邮箱主要哪家好呢？

c++使用stmp协议发送邮件(163的邮箱，TTL非SSL)

第三方邮箱客户端-是高效办公，也是一种生活态度

linux定时爬虫并把内容发给自己的邮箱

疫情期间自动上报+截图+发群+邮箱提醒程序

python：自动压缩指定文件夹作为附件发送邮件到指定邮箱

spring里发邮件到邮箱的实现

忘记密码发送验证码到邮箱

工作邮箱多而咋不用愁，OA系统帮你实现统管统收

发表评论

推荐文章

开发 IOS app 不通过 苹果商店安装的几种方式

程序员被老板要求两个月做个app, 要不比京东差，网友：辞职吧

uniapp编写的app，用谷歌浏览器运行查看总是报错，真机调试没有报错；下载了一个插件还是报错！

xp如何删除计算机管理员用户账户,“WINXP系统除Administrator以外只有一个管理员账户时，此帐户默认无法删除，如何删除”的解决方案...

Educational Codeforces Round 55 (Rated for Div. 2)C. Multi-Subject Competition （实现，贪心，排序）...

热门文章

微信撤回软件安卓版_微信强制撤回app

android版局域网限速,局域网手机WiFi网速怎么限速

安全管理手机版app_腾讯手机管家在哪里杀病毒..._零基础白客笔记

无线桥接后无法访问服务器,无线桥接后不能登录副路由器ip地址的解决方法

202312最新升级ChatGPT Plus的方法

借助ChatGPT自动生成PPT

安全多方计算之四：比特承诺

laravel 微信授权登录

浏览器上网失败（已解决）

妖人柴：蓝屏思维，一次笔记本维修经历，让你读懂生活处处是项目

最新文章

02、【电脑维修】windows系统登录时候出现两个账户（Administrator账户隐藏）

怎样查看计算机历史的开机时间,win10系统怎么查看电脑的历史开关机时间｜win10系统如何查询电脑开机后运行多长时间...

电脑开机是哪个键 电脑常用快捷键盘点

windows 简单快速的查看电脑的启动和关闭时间【通过命令的形式】

CentOS 7通过yum安装fcitx五笔输入法

插入安装光盘并重新启动计算机,电脑开机时显示 插入windows安装光盘并重新启动计算机 怎么解决 急救...

电脑开机启动项在哪里设置？3个方法教你轻松找到！

电脑开机太慢？这5个方法瞬间提升你的电脑速度

电脑开机安装流氓软件、弹广告处理办法

[ubuntu] 安装五笔输入法

[Windows系统]查看电脑开关机时间

电脑开机运行内存占用过高的解决办法

电脑开机自动推送微信通知

在线五笔输入法 86版是一款基于五笔字型编码方案的在线输入法。该输入法具有界面简洁、操作简单、学习成本低等优点。用户只需在网站上注册账号，即可开始使用。

ubuntu五笔输入法安装_打造最强Windows 10微软拼音输入法 + 600万词库下载

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

开发 IOS app 不通过苹果商店安装的几种方式

电脑开机是哪个键电脑常用快捷键盘点

插入安装光盘并重新启动计算机,电脑开机时显示插入windows安装光盘并重新启动计算机怎么解决急救...

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载