【Linux】什么是总线错误?


大家好,我是杂烩君。

最近踩了一个总线错误的坑,简单总结、复盘分享给大家:

什么是总线错误?

平时开发过程中,我们常遇到的、引起进程崩溃的错误,大多都是段错误吧。段错误(segmentation fault)就是指访问的内存超出了系统所给这个程序的内存空间,比如操作空指针、数组越界等。

与段错误比较相似,总线错误(Bus Error)就是因为对非对齐地址的访问导致CPU读取数据违反了一定的总线规则。

CPU处于性能方面的考虑,要求对数据进行访问时都必须是地址对齐的。如果发现进行的不是地址对齐的访问,就会发送SIGBUS信号给进程,使进程产生 core dump。

总线错误与CPU架构有关,有些架构的CPU支持不对齐访问。下面我们通过实例来进行分析:

总线错误的实例

#include <stdio.h>
#include <stdlib.h>

#pragma pack(1)
struct struct_x
{
    char a;
    float b;
    char c;
};
#pragma pack()

int main(void)
{
    struct struct_x test = {0};

    printf("sizeof(struct struct_x) = %ld\n", sizeof(test));

    test.a = 1;
    test.b = 2.0;
    test.c = 3;

    char *a = &test.a;
    float *b = &test.b;
    char *c = &test.c;

    printf("*a = %d, addr = %p\n", *a, a);
    printf("*b = %f, addr = %p\n", *b, b);
    printf("*c = %d, addr = %p\n", *c, c);

    return 0;
}

#pragma pack 可以改变编译器的对齐方式:

#pragma pack(n)  /* 指定按n字节对齐 */
#pragma pack()   /* 取消自定义字节对齐 */

在pc端,可以正常运行:

image-20220608232420232

因为x86/x64系列CPU都支持不对齐访问,也提供了开关禁用这个机制。x86/x64架构不要求对齐访问的时候,必定会有性能代价。

但是,在arm板上测试:

image-20220608232504698

image-20220608232536716

出现了总线错误,因为结构体变量test的成员b的地址是不对齐的地址。CPU访问地址要求是四字节对齐,访问了*(addr+0x001)就会引发异常。

这时候,在struct_x的成员a、b之前增加个占用3个字节的成员d,看看还会不会报错:

struct struct_x
{
    char a;
    char d[3];
    float b;
    char c;
};

image-20220612230850598

可见,成员b可以正常访问,因为这时候b的地址处于四字节对齐地址。

上面的总线错误,毫无疑问,就是对齐问题导致的。

但是,这里有个疑问。假如,我们把成员b的类型改为int类型,这时候会不会产生总线错误?

#include <stdio.h>
#include <stdlib.h>

#pragma pack(1)
struct struct_x
{
    char a;
    int b;
    char c;
};
#pragma pack()


int main(void)
{
    struct struct_x test = {0};

    printf("sizeof(struct struct_x) = %ld\n", sizeof(test));

    test.a = 1;
    test.b = 2;
    test.c = 3;

    char *a = &test.a;
    int *b = &test.b;
    char *c = &test.c;

    printf("sizeof(float) = %d, sizeof(int) = %d\n", sizeof(float), sizeof(int) );
    printf("*a = %d, addr = %p\n", *a, a);
    printf("*b = %d, addr = %p\n", *b, b);
    printf("*c = %d, addr = %p\n", *c, c);

    return 0;
}

image-20220612231304737

这里的int类型的b成员可以正常访问。这里的成员b的地址与我们上面发生总线错误的b的成员(float类型)的地址完全一样,float类型与int类型也都是占用4字节,但是int类型b成员却可以支持非对齐访问。

这里,暂时就认为CPU就是这么设计的吧。能解释这个问题的朋友欢迎留言讨论,谢谢!

总结

上面的int类型的b成员虽然可以正常访问,但是我们在实际编程中,应当多注意一点,尽量要修改对齐方式。如果确实需要,也尽量保证修改的对齐方式的代码范围尽量小,比如只针对某个结构体,并且清楚地知道有这么一回事,以至于后面加代码的时候需要非常地小心。

以上是本次的分享,如果觉得文章有帮助,麻烦帮忙转发,谢谢大家!



文章作者: 杂烩君
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 杂烩君 !
  目录