打印本文 打印本文  关闭窗口 关闭窗口  
VB中的Unicode和Ansi格式
作者:佚名  文章来源:不详  点击数  更新时间:2008/4/18 14:44:39  文章录入:杜斌  责任编辑:杜斌

  VisualBasic32-bit版本的字串处理采用Unicode,也就是说字串在VB内部是以Unicode的格式来存放。何谓Unicode?简单的说,就是每一个字符都是以2-byte的形式表示,而每个「实体字符」就是一个「字符」。因此,
Len("大家好")
Len("abc")
所返回的值都是3,因为「大」和「a」都是一个字符。

  但是这对一些中文字串处理,例如纯文字的数据文件,却是一个大灾难,因为你必须以byte来定位每个字符,可是Unicode却把一切的处理全搞砸了。例如:
Len("GoodMorning")返回12,而
Len("今天天气很好")返回6

  对初学者而言,好不容易能使用VB来写程序已经是件了不起的事了,却马上在中文处理上挨了一记闷棍,所受到的打击实在不小。但是不要怕,事实上只要再多了解一些指令,就可以把中文处理的问题解决了。

是什么指令呢?最重要的莫过于StrConv了。StrConv函数的语法为:StrConv(待转换字串,转换格式)
其中转换格式在这里用到的是:
vbUnicode将Ansi字串转换为Unicode
vbFromUnicode将Unicode字串转换为Ansi
将字串转成Ansi之后,所有的字串处理指令都要加个B,例如:LeftB,RightB,
MidB,ChrB,InstrB,LenB,InputB等。例用这些指令来处理就行了。

  当你处理完毕之后,你可以再将它再转回Unicode,这样就可以使用一般的字串处理指令了。这样讲看得懂吗?如果还是不了解,看看下面的实例说明:
  简易使用范例
  看看下面的基本范例您应该就会对VB的字串处理方式有些概念。

PrivateSubCommand1_Click()
DimsUnicodeAsString
DimsAnsiAsString
'Unicode运算
sUnicode="王小明,A123456789,651023,上海市中山路100号,(02)2345678"
Debug.PrintLen(sUnicode)'返回44
Debug.PrintMid$(sUnicode,5,10)'返回A123456789
Debug.PrintInstr(sUnicode,"上海市")'返回23
'将Unicode字串转成Ansi
sAnsi=StrConv(sUnicode,vbFromUnicode)
'Ansi运算
Debug.PrintLenB(sAnsi)'返回54
Debug.PrintMidB$(sAnsi,8,10)'返回?????,因为忘了转回Unicode
Debug.PrintStrConv(MidB$(sAnsi,8,10),vbUnicode)'返回A123456789,请注意转回Unicode的动作一定要做

Debug.PrintInStrB(sAnsi,StrConv("上海市",vbFromUnicode))'返回23,不要忘了要把"上海市"也转成Ansi,否则会找不到
EndSub
读入文本文件
在VB的小技巧中,有一个是快速读文件法:
PrivateSubCommand1_Click()
DimsFileAsString
Open"C:\filename.txt"ForInputAs#1
sFile=Input$(LOF(1),#1)
Close#1
EndSub

  但是很不幸地,如果你读取的文件内含中文字,那上面这段程序会出现Inputpastendoffile的错误。因为LOF返回的是文件的byte数,而Input函数读取的是字符数,由于文件内含中文,因此文件中的字符数将会小于byte数,于是就发生错误了。要解决这个问题,我们就要用到StrConv和InputB这两个函数了:
PrivateSubCommand1_Click()
DimsFileAsString
Open"C:\filename.txt"ForInputAs#1
sFile=StrConv(InputB$(LOF(1),#1),vbUnicode)
Close#1
EndSub
  上面修正程序先用InputB将文件读进来,不过使用InputB所读入的文件是Ansi格式的,所以要再用StrConv转成Unicode才行。随机数据文件许多文字数据文件是以固定字节的位置来加以区格,例如下面的数据格式:王小民650110上海市中山路100号(02)1234567
张大呆660824花莲县大甲镇广东街23号(03)9876543

像这种类型的文件要如何处理呢?这是就必须用到Type以及bytearray了。
PrivateTypetagRecord
Username(5)AsByte'姓名6bytes
Birthday(5)AsByte'生日6bytes
Address(21)AsByte'地址22bytes
TEL(11)AsByte'电话12bytes
CrLf(1)AsByte'换行字符2bytes
EndType

PrivateSubCommand1_Click()
DimuRecordAstagRecord
Open"C:\filename.dat"ForRandomAs#1Len=LenB(uRecord)
Get#1,2,uRecord'取第二笔数据
WithuRecord'With...EndWith应该会用吧
Debug.Print.Username'返回???
Debug.PrintStrConv(.Username,vbUnicode)'返回"张大呆"
EndWith
Close#1
EndSub
  在这个例子中,一定要用到bytearray,因为只有bytearray才能正确地定位到每个byte的位置。以前使用字串来定位的方法已经不适用了,千万要记住!但是使用bytearray所读入的数据是Ansi格式,若要处理或是做运算的话,记得还要转成Unicode格式才行。
[●]使用ByteArray
  除了上面必须使用byte精确定位的例子之外,纯文字的处理基本上是用不到bytearray的。bytearray通常是用在处理binary数据。这方面的问题我们将另文讨论。看吧!只要熟悉使用StrConv,你就可以在Unicode及Ansi格式之间自由自在地变来变去,相信当您看完这篇文章之后,对处理中文应该不再烦恼了吧?

打印本文 打印本文  关闭窗口 关闭窗口