playbook/docs/tsl/syntax/20_strings_and_text.md

# Strings And Text

文档类型：语法主线
是否可直接用于生成代码：是
是否含已验证可执行示例：是
是否含已验证反例：是
遇到不确定时跳转到：[04_values_and_literals.md](04_values_and_literals.md)、[19_types_and_conversions.md](19_types_and_conversions.md)、[07_expressions_and_operators.md](07_expressions_and_operators.md)

手册位置：第 20 篇，共 32 篇。上一篇：[19_types_and_conversions.md](19_types_and_conversions.md)。下一篇：[21_external_calls_and_threads.md](21_external_calls_and_threads.md)。

这一篇吸收字符串专题里较深的部分：字符串表达、编码边界、转义、非转义表达、字符串拼装和子串操作。

## 这一篇解决什么问题

回答“当任务进入字符串和编码细节，而不是只写普通字面量时，应该进入哪一篇”。

## 必须记住的规则

- 普通字符串、`L""` 宽串、`U""` UTF8 前缀串，以及 `%%` 原始字符串，当前解释器都接受。
- `%%` 原始字符串开头后必须先跟一个空白分隔符；可以带标识符，也支持多行。
- `L%% ...%%` 与 `U%% ...%%` 这两种带前缀的原始字符串当前也可用。
- 普通字符串里的 `\uXXXX` 不要直接按“单字符宽串”理解；当前 `Length("\u0041") = 2`，而 `Length(L"\u0041") = 1`、`Length(U"\u0041") = 1`。
- `U""` 不是宽串；需要在 UTF8、宽串、普通串之间显式转换时，继续用 `UTF8ToUnicode(...)`、`UTF8ToAnsi(...)`、`AnsiToUTF8(...)`、`UnicodetoUTF8(...)`、`String(...)`、`WideString(...)`。
- `#number` 可以直接把字符码拼进字符串。
- `\0` 和 `#0` 都能把 ASCII `0` 放进字符串，并且不会把字符串截断。
- 字符串下标当前已验证从 `1` 开始，不从 `0` 开始；访问 `s[0]` 会运行报 `String index out of bounds`。
- 字符串切片 `s[start:end]`、替换 `s[start:end] := sub`、删除 `s[start:end] := ""`、插入 `s[index:0] := sub` 当前都可用。
- 基础字符串索引、切片、插入、删除和替换规则，阅读主线仍以 [04_values_and_literals.md](04_values_and_literals.md) 为准；这一篇只补已经单独实测过的深水边界。

## 已验证语法

原始字符串 `%%` 的空白分隔、标识符和多行：

代码块身份：已验证可执行示例

```tsl
program test;
begin
    s1 := %% ABC%%;
    s2 := %%tag A"B'C%%tag;
    s3 := %%m
A
B%%m;
    WriteLn(s1);
    WriteLn(s2);
    WriteLn(s3);
end.
```

已验证运行结果：

- `s1` 输出 `ABC`
- `s2` 输出 `A"B'C`
- `s3` 输出两行 `A`、`B`
- 说明 `%%` 开头后的第一个空白只是分隔符，不属于正文
- 说明 `%%tag ...%%tag` 可以用标识符配对
- 也说明 `%%` 原始字符串支持直接跨行

带前缀的原始字符串：

代码块身份：已验证可执行示例

```tsl
program test;
begin
    WriteLn(L%% ABC%% = L"ABC");
    WriteLn(U%% ABC%% = "ABC");
end.
```

已验证运行结果：

- 依次输出 `1`、`1`
- 说明 `L%% ...%%` 和 `U%% ...%%` 在当前解释器里都可用

`\uXXXX` 在普通串、宽串和 `U` 串里的边界：

代码块身份：已验证可执行示例

```tsl
program test;
begin
    WriteLn(Length("\u0041"));
    WriteLn(Length(L"\u0041"));
    WriteLn(Length(U"\u0041"));
end.
```

已验证运行结果：

- 依次输出 `2`、`1`、`1`
- 因此不要把普通字符串里的 `"\u0041"` 直接理解成和 `L"\u0041"` 一样的“单字符”写法

字符串显式编码转换：

代码块身份：已验证可执行示例

```tsl
program test;
begin
    utf8_s := U"\u5929\u8F6F";
    utf8_s2 := UnicodetoUTF8(L"\u5929\u8F6F");
    wide_s := UTF8ToUnicode(utf8_s);
    ansi_s := UTF8ToAnsi(utf8_s);
    WriteLn(IfWString(utf8_s));
    WriteLn(utf8_s = utf8_s2);
    WriteLn(wide_s = L"\u5929\u8F6F");
    WriteLn(ansi_s = String(L"\u5929\u8F6F"));
end.
```

已验证运行结果：

- 依次输出 `0`、`1`、`1`、`1`
- 说明 `U""` 在当前解释器里不是宽串
- 说明 UTF8、宽串、普通串之间的显式转换链已经拿到正向最小结果

ASCII `0` 字符不会截断字符串：

代码块身份：已验证可执行示例

```tsl
program test;
begin
    s1 := "A\0B";
    s2 := "A"#0"B";
    WriteLn(Length(s1));
    WriteLn(Length(s2));
    WriteLn(s1 = s2);
    WriteLn(s1[2] = #0);
end.
```

已验证运行结果：

- 依次输出 `3`、`3`、`1`、`1`
- 说明 `\0` 和 `#0` 都可以把 ASCII `0` 放进字符串
- 也说明当前字符串不是遇到 `#0` 就自动截断的 C 风格零结尾串

字符码拼接：

代码块身份：已验证可执行示例

```tsl
program test;
begin
    WriteLn("A"#48"B");
    WriteLn("A"#13#10"B");
end.
```

已验证运行结果：

- 第一行输出 `A0B`
- 第二组输出会分成两行 `A`、`B`
- 说明 `#48` 这类写法会按字符码直接参与字符串拼接，`#13#10` 可以直接表示换行

字符串下标、切片和区间改写：

代码块身份：已验证可执行示例

```tsl
program test;
begin
    s := "ABCD";
    WriteLn(s[1]);
    WriteLn(s[2]);
    s := "AAABBB";
    WriteLn(s[3:4]);
end.
```

已验证运行结果：

- 依次输出 `A`、`B`、`AB`
- 说明字符串下标当前从 `1` 开始
- 也说明 `s[3:4]` 会取到起止位置都包含在内的子串

替换、删除和插入：

代码块身份：已验证可执行示例

```tsl
program test;
begin
    s1 := "AAABBB";
    s1[3:4] := "111";
    WriteLn(s1);
    s2 := "AAABBB";
    s2[3:4] := "";
    WriteLn(s2);
    s3 := "AAABBB";
    s3[4:0] := "111";
    WriteLn(s3);
end.
```

已验证运行结果：

- 三行依次输出 `AA111BB`、`AABB`、`AAA111BBB`
- 说明 `s[start:end] := sub` 可以直接替换区间
- 说明右值设为空串时，会删除该区间
- 说明 `s[index:0] := sub` 会在指定位置前插入子串

当前还额外验证到：

代码块身份：反例 / 不可照写

```text
s := "ABCD";
WriteLn(s[0]);
```

上面这种写法会运行报错，错误信息包含 `String index out of bounds`。不要把字符串下标按数组的 `0` 起始规则来写。

## 跳转指引

- 回看最常用字符串字面量：见 [04_values_and_literals.md](04_values_and_literals.md)
- 回看字符串上的表达式行为：见 [07_expressions_and_operators.md](07_expressions_and_operators.md)
- 看类型与转换：见 [19_types_and_conversions.md](19_types_and_conversions.md)
- 看值与字面量：见 [04_values_and_literals.md](04_values_and_literals.md)