超级批量编码转换 V1.2

安全无毒小编亲测

超级批量编码转换是一款非常小巧的字符集编码转换工具。我们是不是经常会遇到文件乱码，或者换行失效的问题。这其实都是文本编码惹的祸，不同的字符编码是不能完全兼容的。比如国内常用的是GBK、GBxxxx等编码，而国际上流行的UTF-8及UNICODE编码。所以，不得不准备一款编码转换工具。而超级批量编码转换就是你需要的。其功能非常的直接，支持文件及文件夹操作/鼠标拖拽,而且是批量操作哦。我们只需选择相应的编码方式即可得到相应的转换结果。另外这个软件还可以将歌词简体转繁体，繁体转简体。所以，如果你经常遭遇文件乱码或其他显示问题，那就赶紧下载超级批量编码转换吧！

功能介绍

1、对GBK/GB2312、Unicode(LE)、Unicode(BE)、UTF8、UTF8 with Bom等编码的文件自动识别并按要求互相转换
2、对DOS格式、UNIX格式、MAC格式的文本自动识别并互相转换
3、对中文简繁体及台湾BIG5编码互相转换(需要指定源、目的编码格式)
4、支持文件及文件夹操作，支持鼠标拖拽
5、完全绿色软件，直接使用不需安装

使用介绍

1、作为一款小工具，使用上自然非常的简单。而且更重要的是非常的易用。
2、首先我们打开需要转换编码的文件或文件夹，注意可以批量转换哦。

3、然后选择需要转换的编码方式，一般国内的选GBK兼容性不错。如果是国际化的东西。一般是UNICODE、UTF8之类的。

4、而换行方式对于在不同操作系统的朋友，非常重要。尤其是开发人员。
5、简繁BIG5功能比较实用，能一键转换简繁体。

常见字符集编码

1、ASCII
ASCII码是7位编码，编码范围是0x00-0x7F。ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。其中0x00-0x1F和0x7F共33个控制字符。[1]
只支持ASCII码的系统会忽略每个字节的最高位，只认为低7位是有效位。HZ字符编码就是早期为了在只支持7位ASCII系统中传输中文而设计的编码。早期很多邮件系统也只支持ASCII编码，为了传输中文邮件必须使用BASE64或者其他编码方式。
2、GBK
GBK编码是GB2312编码的超集，向下完全兼容GB2312，同时GBK收录了Unicode基本多文种平面中的所有CJK汉字。同 GB2312一样，GBK也支持希腊字母、日文假名字母、俄语字母等字符，但不支持韩语中的表音字符（非汉字字符）。GBK还收录了GB2312不包含的汉字部首符号、竖排标点符号等字符。
GBK的整体编码范围是为0x8140-0xFEFE，不包括低字节是0×7F的组合。高字节范围是0×81-0xFE，低字节范围是0x40-7E和0x80-0xFE。
低字节是0x40-0x7E的GBK字符有一定特殊性，因为这些字符占用了ASCII码的位置，这样会给一些系统带来麻烦。
有些系统中用0x40-0x7E中的字符（如“|”）做特殊符号，在定位这些符号时又没有判断这些符号是不是属于某个 GBK字符的低字节，这样就会造成错误判断。在支持GB2312的环境下就不存在这个问题。需要注意的是支持GBK的环境中小于0x80的某个字节未必就是ASCII符号；另外就是最好选用小于0×40的ASCII符号做一些特殊符号，这样就可以快速定位，且不用担心是某个汉字的另一半。Big5编码中也存在相应问题。
CP936和GBK的有些许差别，绝大多数情况下可以把CP936当作GBK的别名。
3、BIG5
Big5是双字节编码，高字节编码范围是0x81-0xFE，低字节编码范围是0x40-0x7E和0xA1-0xFE。和GBK相比，少了低字节是0x80-0xA0的组合。0x8140-0xA0FE是保留区域，用于用户造字区。
Big5收录的汉字只包括繁体汉字，不包括简体汉字，一些生僻的汉字也没有收录。GBK收录的日文假名字符、俄文字符Big5也没有收录。因为Big5当中收录的字符有限，因此有很多在Big5基础上扩展的编码，如倚天中文系统。Windows系统上使用的代码页CP950也可以理解为是对Big5的扩展，在Big5的基础上增加了7个汉字和一些符号。Big5编码对应的字符集是GBK字符集的子集，也就是说Big5收录的字符是GBK收录字符的一部分，但相同字符的编码不同。
因为Big5也占用了ASCII的编码空间（低字节所使用的0x40-0x7E），所以Big5编码在一些环境下存在和GBK编码相同的问题，即低字节范围为0x40-0x7E的字符有可能会被误处理，尤其是低字节是0x5C（"/"）和0x7C（"|"）的字符。可以参考GBK一节相应说明。
尽管有些区别，大多数情况下可以把CP950当作Big5的别名。
4、UTF-8
UTF-8是UCS字符集的另一种编码方式，UTF-16的每个单元是两个字节（16位），而UTF-8的每个单元是一个字节（8位）。UTF-16中用一个或两个双字节表示一个字符，UTF-8中用一个或几个单字节表示一个字符。
可以认为UTF-8编码是根据一定规律从UCS-2转换得到的，从UCS-2到UTF-8之间有以下转换关系：
UCS-2 UTF-8
U+0000 - U+007F 0xxxxxxx
U+0080 - U+07FF 110xxxxx 10xxxxxx
U+0800 - U+FFFF 1110xxxx 10xxxxxx 10xxxxxx
例如“啊”字的UCS-2编码是0x554A，对应的二进制是0101 0101 0100 1010，转成UTF-8编码之后的二进制是1110 0101 10 010101 10 001010，对应的十六进制是0xE5958A。
UCS-4也是一种UCS字符集的编码方式，是使用4个字节的等宽编码，可以用UCS-4来表示BMP之外的辅助面字符。UCS-2中每两个字节前再加上0x0000就得到了BMP字符的UCS-4编码。从UCS-4到UTF-8也存在转换关系，根据这种转换关系，UTF-8最多可以使用六个字节来编码UCS-4。
根据UTF-8的生成规律和UCS字符集的特性，可以看到UTF-8具有的特性：
UTF-8完全和ASCII兼容，也就是说ASCII对应的字符在UTF-8中和ASCII编码完全一致。范围在0x00-0x7F之内的字符一定是ASCII字符，不可能是其他字符的一部分。GBK和Big5都存在的缺陷在UTF-8中是不存在的。
大于U+007F的UCS字符，在UTF-8编码中至少是两个字节。
UTF-8中的每个字符编码的首字节总在0x00-0xFD之间（不考虑UCS-4支持的情况，首字节在0x00-0xEF之间）。根据首字节就可以判断之后连续几个字节。
非首字节的其他字节都在0x80-0xBF之间；0xFE和0xFF在UTF-8中没有被用到。
GBK编码中的汉字字符都在UCS-2中的范围都在U+0800 - U+FFFF之间，所以每个GBK编码中的汉字字符的UTF-8编码都是3个字节。但GBK中包含的其他字符的UTF-8编码就不一定是3个字节了，如GBK中的俄文字符。
在UTF-8的编码的传输过程中即使丢掉一个字节，根据编码规律也很容易定位丢掉的位置，不会影响到其他字符。在其他双字节编码中，一旦损失一个字节，就会影响到此字节之后的所有字符。从这点可以看出UTF-8编码非常适合作为传输编码特别说明

- 访问网络 - 查看网络状态 - 查看WLAN状态 - 读取电话状态 - 获取粗略位置 - 获取精确位置 - 使用振动 - 写入外部存储 - 访问外部存储 - 访问定位额外命令 - 使用蓝牙

标签

文字处理

展开更多