学习Linux-4.12内核网路协议栈（2.3）——接口层数据包的接收（下半部）|电子爱好者

admin管理员组
文章数量:1642236

我们来继续分析net_rx_action:

static __latent_entropy void net_rx_action(struct softirq_action *h)
{
    struct softnet_data *sd = this_cpu_ptr(&softnet_data); 
    unsigned long time_limit = jiffies +
        usecs_to_jiffies(netdev_budget_usecs); 
    int budget = netdev_budget; //指定一次软中断处理的skb的数目，这里是300
    LIST_HEAD(list);
    LIST_HEAD(repoll);

    local_irq_disable(); 
    list_splice_init(&sd->poll_list, &list);
    local_irq_enable();

    for (;;) {
        struct napi_struct *n;

        if (list_empty(&list)) { //检查POLL队列(poll_list)上是否有设备在准备等待轮询
            if (!sd_has_rps_ipi_waiting(sd) && list_empty(&repoll))
                goto out;
            break;
        }

        n = list_first_entry(&list, struct napi_struct, poll_list);
        budget -= napi_poll(n, &repoll);   //调用poll函数从网卡驱动中读取一定数量的skb

        /* If softirq window is exhausted then punt.
         * Allow this to run for 2 jiffies since which will allow
         * an average latency of 1.5/HZ.
         */
        if (unlikely(budget <= 0 ||  //如果读取的数量超过300，则终止中断处理
                 time_after_eq(jiffies, time_limit))) {
            sd->time_squeeze++;
            break;
        }
    }

    local_irq_disable();

    list_splice_tail_init(&sd->poll_list, &list);
    list_splice_tail(&repoll, &list);
    list_splice(&list, &sd->poll_list);
    if (!list_empty(&sd->poll_list))  //如果poll list中不为空，表示还有skb没有读取完成，则继续读取，触发下一次软中断
        __raise_softirq_irqoff(NET_RX_SOFTIRQ);

    net_rps_action_and_irq_enable(sd);  
out:
    __kfree_skb_flush();
}

static int napi_poll(struct napi_struct *n, struct list_head *repoll)
{
        void *have;
        int work, weight;

        list_del_init(&n->poll_list);

        have = netpoll_poll_lock(n);

        weight = n->weight;

        /* This NAPI_STATE_SCHED test is for avoiding a race
         * with netpoll's poll_napi().  Only the entity which
         * obtains the lock and sees NAPI_STATE_SCHED set will
         * actually make the ->poll() call.  Therefore we avoid
         * accidentally calling ->poll() when NAPI is not scheduled.
         */
        work = 0;
        if (test_bit(NAPI_STATE_SCHED, &n->state)) {
                work = n->poll(n, weight);  //在这里调用驱动的poll函数，如果驱动有支持NAPI，会定义并初始化这个poll函数，默认的poll函数是process_backlog
                trace_napi_poll(n, work, weight);
        }

        WARN_ON_ONCE(work > weight);

        if (likely(work < weight))
                goto out_unlock;

        /* Drivers must not modify the NAPI state if they
         * consume the entire weight.  In such cases this code
         * still "owns" the NAPI instance and therefore can
         * move the instance around on the list at-will.
         */
        if (unlikely(napi_disable_pending(n))) {
                napi_complete(n);
                goto out_unlock;
        }

        if (n->gro_list) {
                /* flush too old packets
                 * If HZ < 1000, flush all packets.
                 */
                napi_gro_flush(n, HZ >= 1000);
        }


        /* Some drivers may have called napi_schedule
         * prior to exhausting their budget.
         */
        if (unlikely(!list_empty(&n->poll_list))) {
                pr_warn_once("%s: Budget exhausted after napi rescheduled\n",
                             n->dev ? n->dev->name : "backlog");
                goto out_unlock;
        }


        list_add_tail(&n->poll_list, repoll);


out_unlock:
        netpoll_poll_unlock(have);


        return work;
}

到这里我们知道了poll函数是怎么被调用的，对于非NAPI来说，它的poll函数是process_backlog，最后调用__netif_receive_skb传送给网路层;

对于NAPI来说，它的poll函数是在驱动加载初始化的时候指定的，如果驱动支持GRO，则会在它的poll函数中调用napi_gro_receive()函数进行包的接收与组装，然后调用netif_receive_skb进一步时间戳和RPS的处理，最后调用__netif_receive_skb传送给网路层;

那么接下来分析一下这几个关键函数：

1. process_backlog

static int process_backlog(struct napi_struct *napi, int quota)
{
        struct softnet_data *sd = container_of(napi, struct softnet_data, backlog);
        bool again = true;
        int work = 0;

        /* Check if we have pending ipi, its better to send them now,
         * not waiting net_rx_action() end.
         */
        if (sd_has_rps_ipi_waiting(sd)) {
                local_irq_disable();
                net_rps_action_and_irq_enable(sd);
        }

        napi->weight = dev_rx_weight;
        while (again) {
                struct sk_buff *skb;

                while ((skb = __skb_dequeue(&sd->process_queue))) {  //从队列头部读取一个skb
                        rcu_read_lock();
                        __netif_receive_skb(skb); //调用改函数将skb传给网路层
                        rcu_read_unlock();
                        input_queue_head_incr(sd);  //将队列头部往后偏移一个单位
                        if (++work >= quota)
                                return work;

                }

                local_irq_disable();
                rps_lock(sd);
                if (skb_queue_empty(&sd->input_pkt_queue)) {  //如果队列为空，表示skb读取完了
                        /*
                         * Inline a custom version of __napi_complete().
                         * only current cpu owns and manipulates this napi,
                         * and NAPI_STATE_SCHED is the only possible flag set
                         * on backlog.
                         * We can use a plain write instead of clear_bit(),
                         * and we dont need an smp_mb() memory barrier.
                         */
                        napi->state = 0;  //状态置0并退出读取循环
                        again = false;
                } else {
                        skb_queue_splice_tail_init(&sd->input_pkt_queue,
                                                   &sd->process_queue);
                }
                rps_unlock(sd);
                local_irq_enable();
        }


        return work;
}

2. napi_gro_receive()

它主要是将分片的skb进行组装，然后形成一个skb，请自行了解

linux kernel 网络协议栈之GRO(Generic receive offload)

3. netif_receive_skb()

这个函数没什么内容，主要检测一下时间戳，并对时间戳进行更新，然后确认一下有没有开启RPS功能，如果有则将skb交给对应的cpu处理，他最终还是会调用__netif_receive_skb(skb)将skb传送给网路层

下面用e100网卡来总结一下流程：

neif_rx会调用enqueue_to_backlog 将skb存入softnet_data，并调用____napi_schedule函数。
netif_rx===>netif_rx_internal===>enqueue_to_backlog===>____napi_schedule===>net_rx_action===>process_backlog===>__netif_receive_skb
e100网卡的NAPI调用流程入下：
e100_intr===>__napi_schedule===>net_rx_action===>e100_poll===>e100_rx_clean===>e100_rx_indicate===>netif_receive_skb===>__netif_receive_skb

最后我们来看看接口层数据输入的最后一站：__netif_receive_skb(skb)

它封装了__netif_receive_skb_core

static int __netif_receive_skb_core(struct sk_buff *skb, bool pfmemalloc)
{
        struct packet_type *ptype, *pt_prev; //用于操作包类型
        rx_handler_func_t *rx_handler;
        struct net_device *orig_dev;  //存放报文的原始设备
        bool deliver_exact = false;  //默认接收失败
        int ret = NET_RX_DROP;  //默认返回失败
        __be16 type;

        net_timestamp_check(!netdev_tstamp_prequeue, skb); //check时间戳，并且会更新skb的时间戳，skb->tstamp

        trace_netif_receive_skb(skb);

        orig_dev = skb->dev; //将原始的dve做一个备份

        skb_reset_network_header(skb); //重置network header，此时skb已经指向IP头（没有vlan的情况下）

                                      //把L3、L4的头都指向data数据结构，到这里的时候skb已经处理完L2层的头了  
        if (!skb_transport_header_was_set(skb))
                skb_reset_transport_header(skb);
        skb_reset_mac_len(skb);  //重置mac len

        if (skb_skip_tc_classify(skb))  //是否跳过流量控制分类 ？
                goto skip_classify;


        if (pfmemalloc) 
                goto skip_taps;


        list_for_each_entry_rcu(ptype, &ptype_all, list) { //把包交给特定协议相关的处理函数前，先调用ptype_all中注册的函数
                                                 //最常见的为tcpdump，该工具就是从这里拿到所有收到的包的，例如raw socket和tcpdump实现  
                if (pt_prev)
                        ret = deliver_skb(skb, pt_prev, orig_dev); //将包直接传给应用层
                pt_prev = ptype; //pt_prev的加入是为了优化，只有当找到下一个匹配的时候，才执行这一次的回调函数
        }


        list_for_each_entry_rcu(ptype, &skb->dev->ptype_all, list) { //设备上注册ptype_all，做相应的处理，更加精细的控制，ptype_all里面包括IP和arp等 
                if (pt_prev)
                        ret = deliver_skb(skb, pt_prev, orig_dev);
                pt_prev = ptype;
        }


skip_taps:
#ifdef CONFIG_NET_INGRESS
        if (static_key_false(&ingress_needed)) {
                skb = sch_handle_ingress(skb, &pt_prev, &ret, orig_dev);
                if (!skb)
                        goto out;


                if (nf_ingress(skb, &pt_prev, &ret, orig_dev) < 0)
                        goto out;
        }
#endif
        skb_reset_tc(skb); 

        pt_prev = NULL;

another_round:
        skb->skb_iif = skb->dev->ifindex;

        __this_cpu_inc(softnet_data.processed);

        if (skb->protocol == cpu_to_be16(ETH_P_8021Q) ||
            skb->protocol == cpu_to_be16(ETH_P_8021AD)) {
                skb = skb_vlan_untag(skb);  //去除vlan tag
                if (unlikely(!skb))
                        goto out;
        }

skip_classify:
        if (pfmemalloc && !skb_pfmemalloc_protocol(skb))
                goto drop;


        if (skb_vlan_tag_present(skb)) {  //如果需要将vlan的信息提供给上层，则执行下面的代码
                if (pt_prev) {
                        ret = deliver_skb(skb, pt_prev, orig_dev);
                        pt_prev = NULL;
                }
                if (vlan_do_receive(&skb))
                        goto another_round;
                else if (unlikely(!skb))
                        goto out;
        }


        rx_handler = rcu_dereference(skb->dev->rx_handler); //设备rx_handler，加入OVS时会注册为OVS的入口函数  
        if (rx_handler) {
                if (pt_prev) {
                        ret = deliver_skb(skb, pt_prev, orig_dev);
                        pt_prev = NULL;
                }
                switch (rx_handler(&skb)) { //执行rx_handler处理，例如进入OVS，OVS不支持报头中携带vlan的报文  
                case RX_HANDLER_CONSUMED:
                        ret = NET_RX_SUCCESS;
                        goto out;
                case RX_HANDLER_ANOTHER:
                        goto another_round;
                case RX_HANDLER_EXACT:
                        deliver_exact = true;
                case RX_HANDLER_PASS:
                        break;
                default:
                        BUG();
                }
        }


        if (unlikely(skb_vlan_tag_present(skb))) {

                if (skb_vlan_tag_get_id(skb))
                        skb->pkt_type = PACKET_OTHERHOST;
                /* Note: we might in the future use prio bits
                 * and set skb->priority like in vlan_do_receive()
                 * For the time being, just ignore Priority Code Point
                 */
                skb->vlan_tci = 0;
        }


        type = skb->protocol;


        /* deliver only exact match when indicated */
        if (likely(!deliver_exact)) {
                deliver_ptype_list_skb(skb, &pt_prev, orig_dev, type,  //根据全局定义的协议处理报文 
                                       &ptype_base[ntohs(type) &
                                                   PTYPE_HASH_MASK]);
        }


        deliver_ptype_list_skb(skb, &pt_prev, orig_dev, type,   //根据设备上注册的协议进行处理   
                               &orig_dev->ptype_specific);


        if (unlikely(skb->dev != orig_dev)) {
                deliver_ptype_list_skb(skb, &pt_prev, orig_dev, type,  //如果设备发生变化，那么还需要针对新设备的注册协议进行处理
                                       &skb->dev->ptype_specific);
        }


        if (pt_prev) {
                if (unlikely(skb_orphan_frags(skb, GFP_ATOMIC)))
                        goto drop;
                else
                        ret = pt_prev->func(skb, skb->dev, pt_prev, orig_dev);  //调用协议处理  
        } else {
drop:
                if (!deliver_exact)
                        atomic_long_inc(&skb->dev->rx_dropped);
                else
                        atomic_long_inc(&skb->dev->rx_nohandler);
                kfree_skb(skb);
                /* Jamal, now you will not able to escape explaining

                 * me how you were going to use this. :-)
                 */
                ret = NET_RX_DROP;
        }


out:
        return ret;
}

上面的代码可能看着不是很清晰，可能会有疑问：就这几个指针是怎么实现将数据包从接口层往网络层传递的呢？其实主要原因是对ptype_base和ptype_all这两个对象的印象不够直观，我们接下来着看这两个对象的组成就明白了：

从图中可以看到，ptype_all是一个链表，这个链表里面最大的区别是func=packet_rcv，也就是说，这个链表往往是提供给一些抓包程序使用的，比如tcp_dump,它可以不区分包的类型而将所有的包的抓取过来，它的统一处理函数都是packet_rcv，在这里面可以对一些过滤选项进行处理。对象中的type一般使用的是以太网类型，而dev表示在哪个接口上抓包。

但是ptype_base则是一个哈希表，注意这个表是以type来进行分类的，比如ip协议可以指定不同的dev接口，但是他们都在同一张表上。不同的协议类型对应了不同的接收函数，比如IP报文的接收函数是ip_rcv, 802.2对应的是llc_rcv等。总的来说，报文从网卡驱动里面上来以后，第一次在这里进行分流，不同的报文类型交给不同的协议处理函数进行处理（我们这里暂时先不考虑桥接）。

到这里就结束了数据包从驱动接收，然后通过接口层传送给网路层的过程。后面的文章将介绍一个报文怎么在网络层通过接口层传送给网卡驱动。

本文标签：数据包内核网路半部接口

版权声明：本文标题：学习Linux-4.12内核网路协议栈（2.3）——接口层数据包的接收（下半部）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1729332346a1196552.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

学习Linux-4.12内核网路协议栈（2.3）——接口层数据包的接收（下半部）

1. process_backlog

2. napi_gro_receive()

linux kernel 网络协议栈之GRO(Generic receive offload)

3. netif_receive_skb()

更多相关文章

站在巨人的肩膀上，用Node+ChatGPT模块实现一个接口

AIGC ChatGPT4 读取接口文件并进行可视化分析

如何在vue项目中调用chatgpt的API接口

总结 自定义GPTs通过API与外部系统交互的流程 chatGPT通过schema如何理解API接口定义的? chatGPT与用户的交互流程 chatGPT响应处理流程

目前可用的酷狗音乐接口(最全整理)

Linux 5.5内核路由查找基于Flowlet的下一跳缓存

手写板JAVA调用_手写板 （调用百度接口)

计算机主机后面的usb哪个不可接入,电脑的USB接口不能使用了怎么回事？主板usb接口全部失灵的解决方法...

win10更新后chrome内核浏览器总是打开网页一直加载 甚至打不开解决方法

dubbo接口中的dto类发生myDTO must implement java.io.Serializable

python接口自动化11-流量回放神器：mitmproxy(上)

jmeter调用js文件，完成接口测试(base64加密)

dubbo接口暴露失败 please check status of providers(disabled, not registered or in blacklist)

接口实现

接收RA包自动配置IPv6地址 Linux内核实现分析

java--面向接口编程

LR：接口性能测试时提示：Code-29723 Error: Failed to deliver a p2p message from parent to child process, reason

【RCV】详解EBS接口开发之库事务处理带提前发运通知(ASN)采购接收入库-补充

linux 内核vxlan收发包流程

vue接入下载文件接口

发表评论

推荐文章

Windows内置的服务器IIS（Internet Information Services）托管网站

震惊！System Volume Information竟是遍历硬盘下的所有文件和目录时出现异常的真正元凶！！！

网络安全知识 详解IPC$***及防御

[转载]将archlinux&amp;nbsp;2013-06-01版，安装配置为个人工作站

大数据技术之DataX （一）DataX插件开发

热门文章

玩转ADB命令（ADB命令使用大全）

报错：Information:java: Errors occurred while compiling module '项目名'

2014年最新810多套源码2.46GB免费一次性打包下载

Ant design vue 的组件禁用属性 disabled

Fabric学习：Fabric源码

yolov4 finetune出现错误

Centos网卡和MAC地址不匹配启动失败问题解决方法

Centos7 防火墙开放端口

java8List.sort()排序常用方法

解决方案架构师技巧-5种架构图

最新文章

【无标题】photoshop cs6菜单太小分辨率

英文期刊投稿指南模板（通用版）-----以IEEE Wireless Communications为例

gitlab runner -- The Shell executor

世界货币符号大全

实用自动化运维Python脚本

深度学习优化算法大全系列7:NAdam，算法选择，调参

李菲菲课程笔记：Deep Learning for Computer Vision – Introduction to Convolution Neural Networks

深度学习GPU卡的理解(一)

springboot3整合activiti 8（DEMO）含代码

为什么重写equals方法时必须重写hashCode方法

深度学习GPU卡的理解(四)

How to train your Deep Neural Network（如何训练你的深度神经网络）

Java数据类型—包装类

什么是GUI（图形用户界面）？

白帽黑客_什么是白帽黑客？

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

总结自定义GPTs通过API与外部系统交互的流程 chatGPT通过schema如何理解API接口定义的? chatGPT与用户的交互流程 chatGPT响应处理流程

手写板JAVA调用_手写板（调用百度接口)

win10更新后chrome内核浏览器总是打开网页一直加载甚至打不开解决方法

网络安全知识详解IPC$***及防御

[转载]将archlinux 2013-06-01版，安装配置为个人工作站

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载