AkiraZheng's Time.

ARM64基础知识

Word count: 2.9kReading time: 11 min
2025/11/04

ARM64内存虚拟化

ARM内存屏障 DMB

DSB SY:数据屏障指令,多核数据同步问题,主要解决内存数据还未写入,就被乱序的指令读取的问题。 - dsb(sy) 会等待其他核的广播应答后,才算完成

ISB:指令屏障,清空 ISB 后面的指令,并把还没执行的指令丢掉,重新取值(比如让CPU重新读取寄存器状态)。ISB 不会管TLB缓存是否一致,只管指令状态,所以只用 ISB 会存在缓存一致性问题。 - ISB不会等广播应答

内存管理篇

多进程内存分配

  • 虚拟存储器:操作系统为每个进程提供的抽象内存空间。它让每个进程都认为自己拥有连续、独占的大块内存(通常从0到最大地址),实际上这些数据可能分散在物理内存的不同位置,甚至暂时存储在磁盘上。
  • 虚拟地址空间:每个进程独立的地址视图。两个进程可以使用相同的虚拟地址,但它们映射到不同的物理内存区域。
  • 物理存储器:计算机实际的硬件内存(RAM)。这是数据真正存储的地方,由物理地址直接访问。
  • 页帧:物理内存被划分的固定大小块。例如4KB、2MB或1MB。每个页帧有一个唯一的物理页帧号(PFN)。
  • 虚拟页帧号(VPN):由虚拟地址中的高 N 位组成,用于页表翻译时的查表。虚拟地址 = VPN + 偏移量(Offset)。例如在4KB分页、48位虚拟地址的系统中:
    • 高36位:VPN
    • 低12位:偏移量(0-4095)
  • 物理页帧号(PFN):物理内存中页帧的编号。物理地址 = PFN + 偏移量。VPN通过页表映射到PFN。
  • 页表 PT:存储虚拟地址到物理地址映射关系的数据结构。每个进程都有自己的页表。页表本质是一个数组,索引是VPN,元素是页表项。
  • 页表项 PTE:页表中的每个条目,包含:
    • PFN:对应的物理页帧号
    • 有效位:该页是否在物理内存中
    • 读/写/执行权限位:控制访问权限
    • 脏位:页是否被修改过
    • 访问位:页是否被访问过
    • 其他控制位:如缓存策略、用户/内核模式等

他们之间的结构关系为:

1
2
3
4
5
页表(PT)
├── PTE[0] ──> PFN: 123 (VPN 0映射到物理页帧123)
├── PTE[1] ──> PFN: 456 (VPN 1映射到物理页帧456)
├── PTE[2] ──> 无效位=1 (该页不在内存中)
└── PTE[n] ──> PFN: 789 (VPN n映射到物理页帧789)

查找过程 1. VPN作为索引:用虚拟页帧号(VPN)直接访问页表数组

  1. 从PTE中提取PFN:页表项中存储了物理页帧号

  2. 组合成物理地址:PFN + 偏移量

查找过程可以概括为以下的过程:

虚拟地址翻译流程

虚拟地址到物理地址的映射由 MMU 来实现,是纯硬件实现的,它的地址翻译流程如下所示,这里只画出了二级页表的情况,实际上现代系统普遍使用多级页表,ARM64 架构通常支持三级或四级页表(取决于虚拟地址位数和配置):

现代 Linux 内核在 ARM64 上默认使用 四级页表(PGD → PUD → PMD → PTE)

假设目前有一个页,它的64bit虚拟地址是[VFN=0xffff018140e09]+[offset=0x000]。由于内存是字节寻址的,因此我们可以以字节的形式进行访问,所以这个例子是:

1
2
3
4
5
6
7
访问这个页的第一个字节,地址是[0xffff018140e09]000

访问这个页的第二个字节,地址是[0xffff018140e09]001

访问这个页的第二个字节,地址是[0xffff018140e09]002

...

这一整个PTE页所有 entry 的高 36 位都是一样的。

虽然地址翻译由 MMU 硬件完成,但页表由操作系统软件管理。需要通过软件维护页表,比如创建页表、更新页表项、通过设置页表项中的权限位来控制访问权限(如读写权限、用户态/内核态权限等).

用户/内核空间页面管理

linux 系统把地址空间分为用户空间和内核空间两部分,用户空间的地址由用户态程序使用,内核空间的地址由操作系统内核使用。

  • 较低的地址范围用于用户空间(0~3GB)
  • 较高的地址范围用于内核空间(3GB~4GB)

flowchart LR
    A[VMA查找触发场景] --> B[缺页中断处理]
    A --> C[内存分配与映射]
    A --> D[内存保护与权限检查]
    A --> E[进程信息查询与调试]

    B --> B1[查找发生缺页的虚拟地址
所属的VMA] B1 --> B2{VMA是否存在?} B2 -- 是 --> B3[权限检查] B2 -- 否 --> B4[发送SIGSEGV信号
终止进程] B3 --> B5[分配物理页面
建立映射] C --> C1[malloc/mmap] C1 --> C2[查找空闲区域
或检查映射冲突] C2 --> C3[创建或扩展VMA] D --> D1[访问非法地址
或权限违规] D1 --> D2[快速定位VMA
进行权限判断] E --> E1[读取 /proc/pid/maps] E1 --> E2[遍历进程所有VMA
格式化输出]
  • 匿名页面(通常是进程的私有数据)、page cache、slab都有自己的链表结构来组织页面

  • 对于页面回收而言,内核比较喜欢回收干净的page cache

  • ksm是服务虚机的,系统中创建很多一样的虚机,会产生很多相同的匿名页面,所以ksm的作用就是把他们合并起来,减少内存占用

大页(Huge Page)

我们常用的页大小是4KB,但在某些场景下,使用更大的页(如2MB或1GB)可以显著提高性能,减少TLB miss的次数。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
48位虚拟地址
┌────────────────────────────────────────────────────────────────────┐
│ 47 0 │
└────────────────────────────────────────────────────────────────────┘

─────────────────────────────────────────────────────────────────────
4KB 页分配 (页大小 = 4KB = 2^12)
┌────────────────────────────┬────────────────┐
│ PFN (36 bits) │offset(12 bits) │
│ [47 ... 12] │ [11 ... 0] │
└────────────────────────────┴────────────────┘

─────────────────────────────────────────────────────────────────────
2MB 页分配 (页大小 = 2MB = 2^21)
┌────────────────────┬─────────────────────────┐
│ PFN (27 bits) │ offset(21 bits) │
│ [47 ... 21] │ [20 ... 0] │
└────────────────────┴─────────────────────────┘

─────────────────────────────────────────────────────────────────────

对比说明: - offset 位数 = log2(页大小) - PFN 位数 = 48 - offset 位数 - 页越大,offset 占用位数越多,PFN 位数越少,TLB 条目覆盖范围越大

大页:mmu访问页表的消耗是很严重的,以二级页表为例,一次tlb miss就会导致两次内存访存;所以huge page的最大的好处是可以减少 tlb miss 次数,比如,你现在需要分配2mb内存,如果使用4k的页面,需要tlb miss 512次

flowchart LR

    subgraph A["使用4KB页 (2MB区域 = 512页 PTE)"]
        direction LR
        A1["需要512个虚拟页
(VPN 0~511)"] A2["需要512个PTE
(页表项)"] A3["需要512个TLB条目
才能完全映射"] A1 --> A2 --> A3 end subgraph B["使用2MB大页 (2MB区域 = 1页 PMD)"] direction LR B1["仅需1个虚拟页
(VPN 0)"] B2["仅需1 个PTE"] B3["仅需1个TLB条目
即可完全映射"] B1 --> B2 --> B3 end A3 --> C["结果:TLB空间压力大
转换开销大、易缺失"] B3 --> D["结果:TLB空间压力极小
转换快、命中率高"]

大页虽然对大内存很友好,但是分配小内存是就会有浪费的问题。

如果在开启了2MB大页的情况下,你的应用只需要4KB的内存,整个映射和查找过程操作系统必须在物理内存中找到一段连续的2MB物理内存块。这与普通4KB页不同,普通页只需4KB连续,而大页强制要求2MB连续。

结果:一个页表项(PDE)直接映射了2MB的物理空间。虽然你只用了4KB,但在硬件看来,这2MB空间现在都属于你。

地址计算:命中后,直接用物理地址高位(PPN)拼接虚拟地址的低位(Offset,即页内偏移),得到最终物理地址。对于2MB页,偏移量是21位。

现代操作系统的解决方案(透明大页 THP):

Linux的透明大页(THP)机制很好地解决了你的疑虑。它的行为是动态的: - 进程申请内存,内核默认按4KB页分配。 - 内核后台线程扫描,发现进程占用了大量连续的4KB页。 - 内核尝试将这些连续的4KB页合并成一个2MB大页。 - 如果进程后续只访问其中4KB,或者修改局部权限,内核甚至可以将大页拆分回4KB页。

结论: 如果是静态开启大页(如HugeTLB),映射和查找都按2MB粒度进行,TLB中只有一条记录,效率极高但内存浪费严重;如果是透明大页,内核会动态调整,尽量让你“既享受大页的速度,又不失小页的灵活”。

2MB大页的页表结构:

逻辑名称 Linux内核常用名 索引级别 区间
Page Global Directory PGD 一级 [47-39]
Page Upper Directory PUD 二级 [38-30]
Page Middle Directory PMD 三级(关键转折点) [29-21]
Page Table Entry PTE 四级(2MB大页时无四级) [20-12]

第 4 级 PTE 页表每个 entry 能映射的内存空间大小是由 offset 位数决定的,比如当前 offset 有 12 位,那么 PTE 页表项就能映射 2^12 = 4KB 的内存空间。

那么同理,每个 PMD 页表项能映射的内存空间大小就是 2^(12+9) = 2^21 = 2MB 的内存空间了。

从上面的表格分段情况也可以看出,4 级页表中,每级页表用 9 bit 来索引,所以每级页表有 512 个 entry(2^9 = 512),每个 entry 可以映射 4KB 的页,所以每级页表可以映射 512 * 4KB = 2MB 的内存空间,这也是为什么 PMD 级别的一页可以直接映射一个 2MB 大页的原因。

以一个2MB大页为例,48 bit 地址长度为例,虚拟地址的页表翻译过程如下图所示,在:

flowchart TD

    VA["VA 48bit"]

    subgraph SPLIT
        direction LR
        L0["47-39 L0 idx"]
        L1["38-30 L1 idx"]
        L2["29-21 L2 idx"]
        L3["20-12 L3 idx"]
        OFF["11-0 Offset"]
    end

    VA --> SPLIT

    %% L0
    L0 --> TTBR["TTBR base"]
    TTBR --> D0["L0 desc TABLE"]

    %% L1
    D0 --> L1T["L1 table PGD"]
    L1T --> D1["L1 desc"]

    D1 -->|BLOCK 1GB| PA1["PA = OA(47-30) + VA(29-0)"]
    D1 -->|TABLE| L2T["L2 table PUD"]

    %% L2
    L2T --> D2["L2 desc"]

    D2 -->|BLOCK 2MB| PA2["PA = OA(47-21) + VA(20-0)"]
    D2 -->|TABLE| L3T["L3 table PMD"]

    %% L3
    L3T --> D3["L3 desc PAGE"]
    D3 --> PA3["PA = OA(47-12) + VA(11-0)"]

可以看出,在2MB大页模式下,PMD级别的页表项直接指向一个2MB的物理内存块,而不需要再访问PTE级别的页表了,这样就减少了一次内存访问,提高了地址翻译的效率。

在这种页表翻译的情况下,拿到实际 PA 物理地址后,也会通过地址总线访问内存

flowchart TD

    %% CPU + MMU
    subgraph CPU["CPU + MMU"]
        VA["VA 0x...1234"]
        MMU["MMU translate"]
        PA["PA block_base + offset"]

        VA --> MMU
        MMU --> PA
    end

    %% Bus
    PA --> BUS["AXI Bus"]

    %% Memory
    subgraph MEM["Physical Memory (2MB Block)"]
        direction TB

        B0["offset 0x000000"]
        B1["offset 0x001000"]
        B2["offset 0x001234 target"]
        B3["offset 0x1FFFFF"]

    end

    BUS --> MEM

    %% highlight
    style B2 fill:#ffcccc,stroke:#333,stroke-width:2px

访问 2mb 大页其中一个 4k 内存时,tlb的地址命中过程如下:

flowchart TD

    A["VA 0x234567"] --> B["MMU split"]
    B --> C["VA = base 0x200000 + offset 0x034567"]
    C --> D["TLB lookup"]

    subgraph TLB["TLB entries (连续地址范围)"]
        direction LR
        D1["2MB entry\nbase 0x200000\nsize 2MB\nrange: 0x200000-0x3FFFFF"]
        D2["4KB entry\nbase 0x400000\nsize 4KB\nrange: 0x400000-0x400FFF"]
        D3["EntryN ..."]
    end

    D --> TLB
    TLB --> E{"VA 在哪个条目范围内?"}

    E -- "命中 2MB 块
VA = 0x200000(base) + 0x034567(offset)
范围检查: 0x200000 ≤ VA < 0x400000" --> F["获取 OA base"] E -- "未命中" --> G["页表遍历 page table walk"] F --> H["offset = VA - base = 0x234567 - 0x200000 = 0x034567"] H --> I["PA = OA base + offset"]

内存管理源码分析

CATALOG
  1. 内存管理篇
    1. 多进程内存分配
    2. 虚拟地址翻译流程
    3. 用户/内核空间页面管理
    4. 大页(Huge Page)