数据结构

String¶

底层结构¶

runtime 包下：

type stringStruct struct {
    str unsafe.Pointer
    len int // 存的是字节数
}

字符串的操作包括写 / 拼接等都是通过拷贝来实现的

作为函数参数¶

注意到 string 是不可变的，当 string 作为函数参数时，传递的是底层结构体的副本。当对字符串进行拼接操作时，修改的是副本中 str 指针指向的内存地址：其指向凭借后新字符串的地址。函数外字符串不会受影响

类型转换¶

string(100) 这里的 100 被视为 rune，会被转换为 Unicode 编码的 "d" (rune 本质是 int32)
- 如果想得到 "100"，需要 s, ok := strconv.Itoa(100) 或 fmt.Sprint(100)
- 相反，如果想吧 string 类型的 s 的 s[0] 转换为 string 类型，就可以使用 var tmp = string(s[0])
如果数字超过 Unicode 的编码范围，就会返回 �

与 []byte 互转¶

string 是不可变的，比如 s[0] = 'A' 会报错。可以通过 []byte 来实现修改：

s := "hello"
b := []byte(s)
b[0] = 'H'
s = string(b)

需要注意的是，这里发生了两次拷贝过程

s[1:1] 得到的依旧为一个 string

``初始化¶

使用 `` 初始化字符串可以初始化跨行、内部带有 " " 的字符串而避免使用转义字符

json := `{"hello": "go", "name": ["xu"]}`

type TestStruct struct {
    Text  string   `json:"hello"`  // 映射 JSON 的 "hello" 字段
    Names []string `json:"name"`   // 映射 JSON 的 "name" 字段
}

var data TestStruct
err := json.Unmarshal([]byte(json), &data)

json.Unmarshal 大小写不敏感

转义问题¶

`` 是原始字符串转义的定界符

// 普通字符串（需要转义）
str1 := "\"nginx reload enabled\""  // 需要转义双引号

// 原始字符串（不需要转义）
str2 := `"nginx reload enabled"`    // 直接包含双引号

字符串分割¶

将 "a.b.c.d" 转为 ["a", "b", "c", "d"]：strs := strings.Split(s, ".")

字符串拼接¶

追加写入的方式：

+
- 注意这里如果要加 'a' 需要强转换 string('a')

append
strings.Builder （性能最优，分配内存时自动扩容）
bytes.Buffer

var builder strings.Builder

builder.WriteString("Hello")
builder.WriteByte(' ')
builder.WriteRune('世') // unicode
builder.WriteRune('界')
builder.Write([]byte("!"))

result := builder.String() // 复用内存
fmt.Println(result) // 输出: Hello 世界!

builder.Reset()

切片¶

切片是 go 中的一种类型，零值为 nil

底层结构¶

type slice struct {
    array unsafe.Pointer
    len int
    cap int
}

[!CAUTION]

在截取切片时，截取的切片在共享底层数组的同时，会继承原切片的最大截止位置

在切片插入时，需要注意 append 覆盖原切片的后续位置的问题

与数组的区别¶

数组作为一个整体性的结构存储（因为是定长的）

将数组转为 slice：arr[:] 即得到一个 slice 类型

拷贝方式¶

使用赋值拷贝/函数传参时，拷贝的是 slice header，二者共享底层数组；但是当发生扩容时，新切片将指向新的数组
使用内置的 copy(dst, src) 方法可以进行深拷贝，拿到一个完全独立的副本

作为参数传递¶

切片作为函数参数传递时，传入函数的是切片底层结构体的值副本；

特别地，当传入 arr[1:] 这类切片的截取时，传入结构体的 array 指针指向了 arr[1] 所在的地址

在函数内部设置 slice[0] = 1，会修改原切片（指针相同，相同地址处的值被修改了）
在函数内因为 append 操作导致切片扩容，不会修改原切片：会导致底层结构体指针指向的地址重分配
在函数内部进行 slice = slice[1:] ，不会修改原切片：底层结构体的副本中指针更新

扩容策略¶

当使用 make 创建切片时，如果没有声明 cap，则 cap = size；当 append 超过 cap 时，触发扩容

Java 的 ArrayList 不指定容量时，默认容量为 10，也是在 add() 超过之后触发扩容，但是如果 1.5 倍大小足够，则 1.5

源码在 runtime/slice.go

扩容策略：

如果原切片的容量小于1024，则新切片的容量将是原切片的2倍
如果原切片的容量大于1024，则新切片的容量将是原切片的1.25倍

例子¶

package main

import "fmt"

func main() {
    doAppend := func(s []int) {
        s = append(s, 1)
        printLenAndCap(s)
    }
    s := make([]int, 8, 8)
    doAppend(s[:4])
    printLenAndCap(s)
    doAppend(s)
    printLenAndCap(s)
}

func printLenAndCap(s []int) {
    fmt.Println(s)
    fmt.Printf("len: %d, cap: %d\n", len(s), cap(s))
}

输出结果

00001, len 5, cap 8
00001000, len 8, cap 8
000010001, len 9, cap 16  (小于 1024，*2)
00001000, len 8, cap 8

map¶

使用¶

map 的 key 仅支持可以使用 == 和 != 比较的类型（比如 channel，ptr，array 等）

[]int 这种切片类型不能作为 key，因为 go 并没有实现对于切片的直接比较（有歧义：是比较底层数组是否相同，还是比较数组的内容都相同）

访问 map 的不存在的 key 对应的 value，得到的是 value 类型下的零值。例如访问 map[string]interface{} 得到 nil；

想要往 map 中插入一个值为 nil 的 kv 时，需要考虑 value 的类型是否支持 nil，有如下类型支持：

指针 (*T)
接口 (interface{})
切片 ([]T)
Map (map[K]V)
通道 (chan T)
函数 (func)

注意：map 的 key 是强类型匹配的，例如 type SessionUserIdKey string 和 const SessionUserId SessionUserIdKey = "user_id" 这里被视为两种不同的类型

结构¶

map 底层是一个指针 *hmap

hash 值的位数取决于操作系统的位数（32 / 64）

上图就是 bucket 的内存模型，HOB Hash 指的就是 top hash。注意到 key 和 value 是各自放在一起的，并不是 key/value/key/value/... 这样的形式。源码里说明这样的好处是在某些情况下可以省略掉 padding 字段，节省内存空间。

hi 是进一步的 hash（对应 hash 值的高八位），通过对齐后的内存偏移计算 value 的位置

溢出桶目的是为了减少扩容的次数（可能会预分配连续的内存作为溢出桶）

例如，有这样一个类型的 map：

map[int64]int8 // key: 8byte value: 1byte

考虑到内存对齐问题，按 8 个字节对齐：

如果按照 key/value/key/value/... 这样的模式存储，那在每一个 key/value 对之后都要额外 padding 7 个字节；而将所有的 key，value 分别绑定到一起，这种形式 key/key/.../value/value/...，则只需要在最后添加 padding。

扩容¶

装载数量：count / 2^B （即总元素个数 / 桶数量）

扩容条件：

装载因子 > 6.5 （增量扩容）
如果 B < 15 且 overflow 的桶的数量 > 2^B （等量扩容，修改 hash）
如果 B >= 15, 且 overflow 的桶的数量 > 2^15 （等量扩容，修改 hash）

采用渐进式扩容的方式，避免一次性扩容带来的性能抖动：每次写入和删除时迁移桶

nevacuate 就用来存储下一次扩容需要迁移的桶号

每个桶在不考虑溢出桶的情况下，可以存储最多 8 个 kv，为什么到 6.5 就需要扩容？平均 6.5 时，有些哈希碰撞非常集中的桶其实已经有很多溢出桶了
为什么等量扩容是有效的？因为发生等量扩容是一般是 map 中由于删除操作过多产生了空洞，溢出桶很多并且不满

JDK8 及以后，Map 扩容也使用渐进式扩容，但是查询顺序是先新桶后旧桶；go 是先旧桶后新桶：因为 java 的迁移更加积极，不仅在写入和删除时执行迁移，还会在查询时也执行迁移