UTF8 Unicode 互转
文章转自王牌软件
站长推荐:NSetup一键部署软件
一键式完成美化安装包制作,自动增量升级,数据统计,数字签名。应对各种复杂场景,脚本模块化拆分,常规复杂的脚本代码,图形化设置。无需专业的研发经验,轻松完成项目部署。(www.nsetup.cn)
只回答业务咨询
站长推荐:NSetup一键部署软件
一键式完成美化安装包制作,自动增量升级,数据统计,数字签名。应对各种复杂场景,脚本模块化拆分,常规复杂的脚本代码,图形化设置。无需专业的研发经验,轻松完成项目部署。(www.nsetup.cn)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 |
#include <stdio.h> #include <stdlib.h> int UTF8ToUnicode(const char *pmbs, wchar_t *pwcs, int size) { int cnt = 0; // 这里 size-- 是预先除去尾零所需位置 if (pmbs != NULL && pwcs != NULL && size-- > 0) { while (*pmbs != 0 && size > 0) { unsigned char ch = *pmbs; if (ch > 0x7FU) { int cwch = 0; while (ch & 0x80U) { ch <<= 1; cwch++; } *pwcs = *pmbs++ & (0xFFU >> cwch); while (--cwch > 0) { *pwcs <<= 6; *pwcs |= (*pmbs++ & 0x3FU); } } else { *pwcs = *pmbs++; } pwcs++; size--; cnt++; } *pwcs = 0; cnt++; } return cnt; } int UnicodeToUTF8(const wchar_t *pwcs, char *pmbs, int size) { int cnt = 0; // 这里 size-- 是预先除去尾零所需位置 if (pwcs != NULL && pmbs != NULL && size-- > 0) { while (*pwcs != 0 && size > 0) { if (*pwcs < 0x00000080U) { *pmbs++ = (char)*pwcs; size -= 1; cnt += 1; } else if (*pwcs < 0x00000800U) { // 剩余空间不够存放该字符 if (size < 2) { break; } *pmbs++ = (0xFFU << 6) | (*pwcs >> 6); *pmbs++ = 0x80U | (*pwcs & 0x3FU); size -= 2; cnt += 2; } else if (*pwcs < 0x00010000U) { // 剩余空间不够存放该字符 if (size < 3) { break; } *pmbs++ = (0xFFU << 5) | (*pwcs >> 12); *pmbs++ = 0x80U | ((*pwcs >> 6) & 0x3FU); *pmbs++ = 0x80U | (*pwcs & 0x3FU); size -= 3; cnt += 3; } else if (*pwcs < 0x00200000U) { // 剩余空间不够存放该字符 if (size < 4) { break; } *pmbs++ = (0xFFU << 4) | (*pwcs >> 18); *pmbs++ = 0x80U | ((*pwcs >> 12) & 0x3FU); *pmbs++ = 0x80U | ((*pwcs >> 6) & 0x3FU); *pmbs++ = 0x80U | (*pwcs & 0x3FU); size -= 4; cnt += 4; } else if (*pwcs < 0x04000000U) { // 剩余空间不够存放该字符 if (size < 5) { break; } *pmbs++ = (0xFFU << 3) | (*pwcs >> 24); *pmbs++ = 0x80U | ((*pwcs >> 18) & 0x3FU); *pmbs++ = 0x80U | ((*pwcs >> 12) & 0x3FU); *pmbs++ = 0x80U | ((*pwcs >> 6) & 0x3FU); *pmbs++ = 0x80U | (*pwcs & 0x3FU); size -= 5; cnt += 5; } else if (*pwcs < 0x80000000U) { // 剩余空间不够存放该字符 if (size < 6) { break; } *pmbs++ = (0xFFU << 2) | (*pwcs >> 30); *pmbs++ = 0x80U | ((*pwcs >> 24) & 0x3FU); *pmbs++ = 0x80U | ((*pwcs >> 18) & 0x3FU); *pmbs++ = 0x80U | ((*pwcs >> 12) & 0x3FU); *pmbs++ = 0x80U | ((*pwcs >> 6) & 0x3FU); *pmbs++ = 0x80U | (*pwcs & 0x3FU); size -= 6; cnt += 6; } else { // 无法识别的 Unicode 字符 break; } pwcs++; } *pmbs = 0; cnt++; } return cnt; } int main(void) { // 这部分代码请在 Linux 上测试,Windows 命令行无法打印 UTF-8 字符串。 char mbs1[256] = { 0 }; wchar_t wcs1[] = L"测试文字"; int ret1 = UnicodeToUTF8(wcs1, mbs1, sizeof(mbs1)/sizeof(char)); printf("%d\n", ret1); // 这部分代码请在 Linux 上测试,Windows 的 char 类型非 UTF-8 编码。 char mbs2[] = "测试文字"; wchar_t wcs2[256] = { 0 }; int ret2 = UTF8ToUnicode(mbs2, wcs2, sizeof(wcs2)/sizeof(wchar_t)); printf("%d\n", ret2); return 0; } |
学习日记,兼职软件设计,软件修改,毕业设计。
本文出自 学习日记,转载时请注明出处及相应链接。
本文永久链接: https://www.softwareace.cn/?p=1394