防止截取的中文字符串乱码的函数

作者:enenba | 发表于:2013-02-07 22:45 | 分类:php源码

大家在自己的程序中相信都会经常用到截取字符串吧,但是往往遇到截取中文字符串的时候会遇到乱码的问题。很是让人头疼,接下来介绍两种方法防止截取中文字符串的时候出现乱码的问题。

首先第一种,自己写好的一个函数方便使用

利用这个函数截取就不会出现乱码了。

/**
 * 支持中文字符串截取
 */
function msubstr($str, $start=0, $length, $charset="utf-8", $suffix=true){
    switch($charset){
        case 'utf-8':$char_len=3;break;
        case 'UTF8':$char_len=3;break;
        default:$char_len=2;
    }
    //小于指定长度,直接返回
    if(strlen($str)<=($length*$char_len)){    
        return $str;
    }
    if(function_exists("mb_substr")){   
        $slice= mb_substr($str, $start, $length, $charset);
    }else if(function_exists('iconv_substr')){
        $slice=iconv_substr($str,$start,$length,$charset);
    }else{ 
       $re['utf-8']   = "/[\x01-\x7f]|[\xc2-\xdf][\x80-\xbf]|[\xe0-\xef][\x80-\xbf]{2}|[\xf0-\xff][\x80-\xbf]{3}/";
        $re['gb2312'] = "/[\x01-\x7f]|[\xb0-\xf7][\xa0-\xfe]/";
        $re['gbk']    = "/[\x01-\x7f]|[\x81-\xfe][\x40-\xfe]/";
        $re['big5']   = "/[\x01-\x7f]|[\x81-\xfe]([\x40-\x7e]|\xa1-\xfe])/";
        preg_match_all($re[$charset], $str, $match);
        $slice = join("",array_slice($match[0], $start, $length));
    }
    if($suffix) 
        return $slice;
    return $slice;
}

第二种是php内置的一个函数mb_substr函数

指定要截取的字符串的编码格式,就能有效的防止出现乱码了。

 

说明

string mb_substr ( string $str , int $start [, int $length [, string $encoding ]] )
<?php
 function substr_unicode($str, $s, $l = null) {
     return join("", array_slice(
         preg_split("//u", $str, -1, PREG_SPLIT_NO_EMPTY), $s, $l));
 }
 
$str = "Büyük";
 $s = 0; // start from "0" (nth) char
 $l = 3; // get "3" chars
 echo substr($str, $s, $l) ."\n";    // Bü
 echo mb_substr($str, $s, $l) ."\n"; // Bü
 echo substr_unicode($str, $s, $l);  // Büy
 ?> 

以上转自http://www.xiaocainiao.net/code/451.html

end

 

上一篇: PHP 代码加密 O00O0O加密   |   下一篇:搜索词统计 插件 for Emlog 5.0» 标签: php函数 中文字符

评论: