6.3 KiB
6.3 KiB
Strings And Text
文档类型:语法主线 是否可直接用于生成代码:是 是否含已验证可执行示例:是 是否含已验证反例:是 遇到不确定时跳转到:04_values_and_literals.md、19_types_and_conversions.md、07_expressions_and_operators.md
手册位置:第 20 篇,共 32 篇。上一篇:19_types_and_conversions.md。下一篇:21_external_calls_and_threads.md。
这一篇吸收字符串专题里较深的部分:字符串表达、编码边界、转义、非转义表达、字符串拼装和子串操作。
这一篇解决什么问题
回答“当任务进入字符串和编码细节,而不是只写普通字面量时,应该进入哪一篇”。
必须记住的规则
- 普通字符串、
L""宽串、U""UTF8 前缀串,以及%%原始字符串,当前解释器都接受。 %%原始字符串开头后必须先跟一个空白分隔符;可以带标识符,也支持多行。L%% ...%%与U%% ...%%这两种带前缀的原始字符串当前也可用。- 普通字符串里的
\uXXXX不要直接按“单字符宽串”理解;当前Length("\u0041") = 2,而Length(L"\u0041") = 1、Length(U"\u0041") = 1。 U""不是宽串;需要在 UTF8、宽串、普通串之间显式转换时,继续用UTF8ToUnicode(...)、UTF8ToAnsi(...)、AnsiToUTF8(...)、UnicodetoUTF8(...)、String(...)、WideString(...)。#number可以直接把字符码拼进字符串。\0和#0都能把 ASCII0放进字符串,并且不会把字符串截断。- 字符串下标当前已验证从
1开始,不从0开始;访问s[0]会运行报String index out of bounds。 - 字符串切片
s[start:end]、替换s[start:end] := sub、删除s[start:end] := ""、插入s[index:0] := sub当前都可用。 - 基础字符串索引、切片、插入、删除和替换规则,阅读主线仍以 04_values_and_literals.md 为准;这一篇只补已经单独实测过的深水边界。
已验证语法
原始字符串 %% 的空白分隔、标识符和多行:
代码块身份:已验证可执行示例
program test;
begin
s1 := %% ABC%%;
s2 := %%tag A"B'C%%tag;
s3 := %%m
A
B%%m;
WriteLn(s1);
WriteLn(s2);
WriteLn(s3);
end.
已验证运行结果:
s1输出ABCs2输出A"B'Cs3输出两行A、B- 说明
%%开头后的第一个空白只是分隔符,不属于正文 - 说明
%%tag ...%%tag可以用标识符配对 - 也说明
%%原始字符串支持直接跨行
带前缀的原始字符串:
代码块身份:已验证可执行示例
program test;
begin
WriteLn(L%% ABC%% = L"ABC");
WriteLn(U%% ABC%% = "ABC");
end.
已验证运行结果:
- 依次输出
1、1 - 说明
L%% ...%%和U%% ...%%在当前解释器里都可用
\uXXXX 在普通串、宽串和 U 串里的边界:
代码块身份:已验证可执行示例
program test;
begin
WriteLn(Length("\u0041"));
WriteLn(Length(L"\u0041"));
WriteLn(Length(U"\u0041"));
end.
已验证运行结果:
- 依次输出
2、1、1 - 因此不要把普通字符串里的
"\u0041"直接理解成和L"\u0041"一样的“单字符”写法
字符串显式编码转换:
代码块身份:已验证可执行示例
program test;
begin
utf8_s := U"\u5929\u8F6F";
utf8_s2 := UnicodetoUTF8(L"\u5929\u8F6F");
wide_s := UTF8ToUnicode(utf8_s);
ansi_s := UTF8ToAnsi(utf8_s);
WriteLn(IfWString(utf8_s));
WriteLn(utf8_s = utf8_s2);
WriteLn(wide_s = L"\u5929\u8F6F");
WriteLn(ansi_s = String(L"\u5929\u8F6F"));
end.
已验证运行结果:
- 依次输出
0、1、1、1 - 说明
U""在当前解释器里不是宽串 - 说明 UTF8、宽串、普通串之间的显式转换链已经拿到正向最小结果
ASCII 0 字符不会截断字符串:
代码块身份:已验证可执行示例
program test;
begin
s1 := "A\0B";
s2 := "A"#0"B";
WriteLn(Length(s1));
WriteLn(Length(s2));
WriteLn(s1 = s2);
WriteLn(s1[2] = #0);
end.
已验证运行结果:
- 依次输出
3、3、1、1 - 说明
\0和#0都可以把 ASCII0放进字符串 - 也说明当前字符串不是遇到
#0就自动截断的 C 风格零结尾串
字符码拼接:
代码块身份:已验证可执行示例
program test;
begin
WriteLn("A"#48"B");
WriteLn("A"#13#10"B");
end.
已验证运行结果:
- 第一行输出
A0B - 第二组输出会分成两行
A、B - 说明
#48这类写法会按字符码直接参与字符串拼接,#13#10可以直接表示换行
字符串下标、切片和区间改写:
代码块身份:已验证可执行示例
program test;
begin
s := "ABCD";
WriteLn(s[1]);
WriteLn(s[2]);
s := "AAABBB";
WriteLn(s[3:4]);
end.
已验证运行结果:
- 依次输出
A、B、AB - 说明字符串下标当前从
1开始 - 也说明
s[3:4]会取到起止位置都包含在内的子串
替换、删除和插入:
代码块身份:已验证可执行示例
program test;
begin
s1 := "AAABBB";
s1[3:4] := "111";
WriteLn(s1);
s2 := "AAABBB";
s2[3:4] := "";
WriteLn(s2);
s3 := "AAABBB";
s3[4:0] := "111";
WriteLn(s3);
end.
已验证运行结果:
- 三行依次输出
AA111BB、AABB、AAA111BBB - 说明
s[start:end] := sub可以直接替换区间 - 说明右值设为空串时,会删除该区间
- 说明
s[index:0] := sub会在指定位置前插入子串
当前还额外验证到:
代码块身份:反例 / 不可照写
s := "ABCD";
WriteLn(s[0]);
上面这种写法会运行报错,错误信息包含 String index out of bounds。不要把字符串下标按数组的 0 起始规则来写。
跳转指引
- 回看最常用字符串字面量:见 04_values_and_literals.md
- 回看字符串上的表达式行为:见 07_expressions_and_operators.md
- 看类型与转换:见 19_types_and_conversions.md
- 看值与字面量:见 04_values_and_literals.md