日本搞逼视频_黄色一级片免费在线观看_色99久久_性明星video另类hd_欧美77_综合在线视频

國內(nèi)最全IT社區(qū)平臺 聯(lián)系我們 | 收藏本站
阿里云優(yōu)惠2
您當(dāng)前位置:首頁 > php開源 > php教程 > PHP函數(shù)similar_text()原理分析

PHP函數(shù)similar_text()原理分析

來源:程序員人生   發(fā)布時間:2014-03-28 07:32:39 閱讀次數(shù):5812次

PHP有個計算兩個字符串相似度的函數(shù)similar_text(),可以得出一個百分比來表示兩個字符串的相似程度。效果如下:

similar_text('aaaa', 'aaaa', $percent);
var_dump($percent);
//float(100)
similar_text('aaaa', 'aaaabbbb', $percent);
var_dump($percent);
//float(66.666666666667)
similar_text('abcdef', 'aabcdefg', $percent);
var_dump($percent);
//float(85.714285714286)
利用這個函數(shù),可以用來做模糊搜索的功能,或者其他需要模糊匹配的功能。最近我在驗證碼識別研究中的特征匹配一步上涉及到了這個函數(shù)。

但這個函數(shù)具體使用了怎樣的算法呢?我研究了他的底層實現(xiàn),總結(jié)為三步:

(1)找出兩個字符串中相同部分最長的一段;
(2)再用同樣的方法在剩下的兩段中分別找出相同部分最長的一段,以此類推,直到?jīng)]有任何相同部分;
(3)相似度 = 所有相同部分的長度之和 * 2 / 兩個字符串的長度之和;

我研究的源代碼版本是PHP 5.4.6,相關(guān)的代碼位于文件php-5.4.6/ext/standard/string.c的第2951~3031行。以下是我加過注釋后源代碼。

//找出兩個字符串中相同部分最長的一段
static void php_similar_str(const char *txt1, int len1, const char *txt2, int len2, int *pos1, int *pos2, int *max)
{
char *p, *q;
char *end1 = (char *) txt1 + len1;
char *end2 = (char *) txt2 + len2;
int l;

*max = 0;
//以第一個字符串為基準(zhǔn)開始遍歷
for (p = (char *) txt1; p < end1; p++) {
//遍歷第二個字符串
for (q = (char *) txt2; q < end2; q++) {
//發(fā)現(xiàn)有字符相同,繼續(xù)循環(huán)找,l為相同部分的長度
for (l = 0; (p + l < end1) && (q + l < end2) && (p[l] == q[l]); l++);
//冒泡方法找出最長的一個l,并記住相同部分的開始位置
if (l > *max) {
*max = l;
*pos1 = p - txt1;
*pos2 = q - txt2;
}
}
}
}

//計算兩個字符串的相同部分的總長度
static int php_similar_char(const char *txt1, int len1, const char *txt2, int len2)
{
int sum;
int pos1, pos2, max;

//找出兩個字符串相同部分最長的一段
php_similar_str(txt1, len1, txt2, len2, &pos1, &pos2, &max);
//這里是對sum的初始賦值,也是對max值的判斷
//如果max為零,表示兩個字符串沒有任何相同的字符,也就會跳出if
if ((sum = max)) {
//對前半段遞歸,相同段長度累加
if (pos1 && pos2) {
sum += php_similar_char(txt1, pos1,
txt2, pos2);
}
//對后半段遞歸,相同段長度累加
if ((pos1 + max < len1) && (pos2 + max < len2)) {
sum += php_similar_char(txt1 + pos1 + max, len1 - pos1 - max,
txt2 + pos2 + max, len2 - pos2 - max);
}
}

return sum;
}

//PHP函數(shù)定義
PHP_FUNCTION(similar_text)
{
char *t1, *t2;
zval **percent = NULL;
int ac = ZEND_NUM_ARGS();
int sim;
int t1_len, t2_len;

//檢查參數(shù)合法性
if (zend_parse_parameters(ZEND_NUM_ARGS() TSRMLS_CC, "ss|Z", &t1, &t1_len, &t2, &t2_len, &percent) == FAILURE) {
return;
}

//如果有第三個參數(shù)
if (ac > 2) {
convert_to_double_ex(percent);
}

//如果兩個字符串長度都為0,返回0
if (t1_len + t2_len == 0) {
if (ac > 2) {
Z_DVAL_PP(percent) = 0;
}

RETURN_LONG(0);
}

//調(diào)用上面的函數(shù),計算兩個字符串的相似庫
sim = php_similar_char(t1, t1_len, t2, t2_len);

//可以看第三個參數(shù)percent的計算公式
if (ac > 2) {
Z_DVAL_PP(percent) = sim * 200.0 / (t1_len + t2_len);
}

RETURN_LONG(sim);
}

另外,PHP還提供了另外一個計算字符串相似度的函數(shù)levenshtein(),通過計算兩個字符串的編輯距離來表示字符串相似度,這也是一種很常見的算法。levenshtein()的性能相比similar_text()要好一些,因為通過前面的代碼分析可以看到,similar_text()的復(fù)雜度是O(n^3),n表示最長字符串的長度,而levenshtein()的復(fù)雜度為O(m*n),m與n分別為兩個字符串的長度。

生活不易,碼農(nóng)辛苦
如果您覺得本網(wǎng)站對您的學(xué)習(xí)有所幫助,可以手機掃描二維碼進行捐贈
程序員人生
------分隔線----------------------------
分享到:
------分隔線----------------------------
關(guān)閉
程序員人生
主站蜘蛛池模板: 福利久久 | 污视频在线 | 国产精品久久久久久久久久免费 | 在线视频区 | 中文字幕一区二区三区日韩精品 | 国产精品视频免费看 | 国产一二区在线观看 | 国产午夜精品一区二区三区嫩草 | 久久精品99 | 欧美二区三区四区 | 久久久天堂 | 这里只有精品在线观看 | 久久久成人网 | 日本乱偷中文字幕 | 欧美国产精品一区二区 | 成人性调教在线播放 | 精品国产乱码久久久久久蜜柚 | 精品成人一区二区 | 日日网 | 久久66 | 亚洲色图 偷拍自拍 | 国产精品视频1区2区3区 | 国产高清第一页 | 97视频在线免费观看 | 在线观看视频一区 | 国产精品久久久久久久久久三级 | 粉嫩欧美一区二区三区高清影视 | 日韩av一区二区在线 | 亚洲自拍电影 | 图片区自拍偷拍 | 黄色毛片免费看 | 日韩精品成人在线观看 | 操伊人 | 久久久www成人免费精品张筱雨 | 日韩免费一级 | 亚洲精品三级 | 亚洲欧美一区二区久久 | 亚洲色图16p | 亚洲国产精品国自产拍av秋霞 | 99久久免费看精品国产 | 亚洲精品三级 |