一文本文件,中文字符的编码是BIG5。在简体中文Windows系统下无法阅读。当文本编码与系统默认的编码纷歧致的时候,利用R读入这些字符需要对Encoding参数的正确配置。
有几点需要留意:
1、readLines函数的encoding参数仅对Latin-1和UTF-8编码举办标志,并差池编码举办转换。因为文本是BIG5编码,无法直接将字符标志为BIG5,也不能将BIG5转换为UTF-8。
2、利用file这一connection,可以配置文本的编码,此时readLines会举办编码转换。假如file这一链接默认打开,则字符转换为native编码,因此不会有UTF-8的编码标志。假如链接默认不打开,则字符转换为UTF-8编码,因此Encoding(testit)显示了UTF-8编码标志。
3、配置options(encoding=”BIG5″),与【利用file链接+encoding=“BIG5”,默认打开链接】的结果一样。详情见readLines函数的源代码。