- 相關(guān)推薦
搜索高手煉成三部曲——搜索引擎的原理、技巧與運(yùn)用
搜索高手煉成三部曲——搜索引擎的原理、技巧與運(yùn)用徐 煒
。ńK省靖江高級(jí)中學(xué))
摘 要:《普通高中信息技術(shù)課程標(biāo)準(zhǔn)》中"信息采集與加工"模塊是信息處理的起點(diǎn)。其中,通過(guò)計(jì)算機(jī)和網(wǎng)絡(luò)進(jìn)行信息的搜索是信息采集的重要途徑。為了幫助人們?cè)诤棋囊蛱鼐W(wǎng)中快捷、有效地搜索到所需信息,計(jì)算機(jī)技術(shù)專(zhuān)員研發(fā)了搜索引擎及相關(guān)技術(shù),主要是針對(duì)Web頁(yè)面的文本檢索工具,能夠迅速、準(zhǔn)確地檢索到用戶(hù)需要的信息。在此,將重點(diǎn)研究全文搜索引擎的基本工作原理、提煉關(guān)鍵詞的技巧及搜索引擎的靈活運(yùn)用。
關(guān)鍵詞:搜索;關(guān)鍵詞;運(yùn)用
現(xiàn)今時(shí)代,網(wǎng)絡(luò)已經(jīng)深入我們?nèi)粘I畹拿總(gè)角落,因特網(wǎng)已成為當(dāng)今社會(huì)人們獲取信息和相互交流的主要渠道。其中,通過(guò)計(jì)算機(jī)和網(wǎng)絡(luò)進(jìn)行信息的搜索是信息采集的重要途徑。隨著信息的不斷增長(zhǎng),共享在網(wǎng)絡(luò)上的信息量迅速膨脹,大容量的信息資源影響著網(wǎng)絡(luò)信息的有序性,造成了人們及時(shí)查找信息或組織信息的困擾。為此,計(jì)算機(jī)技術(shù)專(zhuān)員研究與開(kāi)發(fā)了搜索引擎,解決了人們的這一困擾。作為使用因特網(wǎng)的用戶(hù),知道搜索引擎的基本工作原理,掌握提煉關(guān)鍵詞的技巧,加上平時(shí)的積累、靈活的應(yīng)用,必定能更加快捷、有效地在浩瀚的因特網(wǎng)中搜索到所需信息。
搜索引擎主要有分類(lèi)目錄導(dǎo)航搜索、全文搜索兩種搜索方式。
本文主要討論全文搜索。
一、知道搜索引擎的基本工作原理
1.搜索引擎
搜索引擎是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對(duì)信息進(jìn)行組織和處理后,為用戶(hù)提供檢索服務(wù),將用戶(hù)檢索相關(guān)的信息展示給用戶(hù)的系統(tǒng)。
2.搜索引擎的一般原理
(1)數(shù)據(jù)采集與處理
現(xiàn)在的搜索引擎大多采用自動(dòng)信息搜集功能。每隔一段時(shí)間搜索引擎主動(dòng)派出"蜘蛛"程序,對(duì)一定范圍內(nèi)的互聯(lián)網(wǎng)網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會(huì)自動(dòng)提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫(kù)。搜索引擎將"蜘蛛"抓取回來(lái)的頁(yè)面,進(jìn)行各種步驟的預(yù)處理,為搜索做好準(zhǔn)備。
。2)信息搜索排名
當(dāng)用戶(hù)以關(guān)鍵詞查找信息時(shí),搜索引擎會(huì)在數(shù)據(jù)庫(kù)中進(jìn)行搜尋,如果找到與用戶(hù)要求內(nèi)容相符的網(wǎng)站,便采用特殊的算法——通常根據(jù)網(wǎng)頁(yè)中關(guān)鍵詞的匹配程度、出現(xiàn)的位置、頻次、鏈接質(zhì)量計(jì)算出各網(wǎng)頁(yè)的相關(guān)度及排名等級(jí),然后根據(jù)關(guān)聯(lián)度高低,(www.panasonaic.com)按順序?qū)⑦@些網(wǎng)頁(yè)鏈接返回給用戶(hù)。
二、掌握提煉關(guān)鍵詞的技巧
分析搜索引擎的工作原理,搜索結(jié)果主要根據(jù)關(guān)鍵詞的匹配程度、出現(xiàn)的位置、頻次等給出。對(duì)于具體搜索問(wèn)題,提煉關(guān)鍵詞成了第一步,也是最關(guān)鍵的一步。
1.表述準(zhǔn)確
以百度搜索引擎為例。百度會(huì)嚴(yán)格按照提交的關(guān)鍵詞去搜索,因此,關(guān)鍵詞表述準(zhǔn)確是獲得良好搜索結(jié)果的必要前提。一類(lèi)常見(jiàn)的表述不準(zhǔn)確的情況是,腦袋里想著一回事,搜索框里輸入的是另一回事。例如,要查找2013年國(guó)內(nèi)十大新聞,查詢(xún)?cè)~可以是"2013年國(guó)內(nèi)十大新聞";但如果把查詢(xún)?cè)~換成"2013年國(guó)內(nèi)十大事件",搜索結(jié)果就無(wú)法滿(mǎn)足需求。
2.少用自然語(yǔ)言,從自然語(yǔ)言中提煉關(guān)鍵詞
在提煉關(guān)鍵詞時(shí),我們盡量不要用自然語(yǔ)言(所謂自然語(yǔ)言,就是我們平時(shí)說(shuō)話(huà)的語(yǔ)言和口氣),而要從自然語(yǔ)言中提煉關(guān)鍵詞。這個(gè)提煉過(guò)程并不容易,但是我們可以用一種將心比心的方式思考:如果我知道問(wèn)題的解決辦法,我會(huì)怎樣對(duì)此作出回答。也就是說(shuō),猜測(cè)信息的表達(dá)方式,然后根據(jù)這種表達(dá)方式,取其中的特征關(guān)鍵詞,從而達(dá)到搜索目的。
例如,有學(xué)生參加2014年江蘇數(shù)學(xué)競(jìng)賽的復(fù)賽,只知道大概時(shí)間在7月份。如何搜索到比賽的具體情況?首先要確定的是,不要用自然語(yǔ)言。比如,"數(shù)學(xué)復(fù)賽的具體情況,誰(shuí)能告訴我呀".這是典型的自然語(yǔ)言,但網(wǎng)上和這樣的話(huà)完全匹配的網(wǎng)頁(yè),幾乎就是不存在的。因此,這樣的搜索常常得不到想要的結(jié)果。我們來(lái)看這個(gè)問(wèn)題中的核心詞匯。對(duì)象:高中生。問(wèn)題:2014江蘇數(shù)學(xué)復(fù)賽。關(guān)鍵詞中,至少應(yīng)該出現(xiàn)"數(shù)學(xué)復(fù)賽""2014""江蘇",這是問(wèn)題現(xiàn)象描述。一般情況下,只要對(duì)問(wèn)題作出適當(dāng)?shù)拿枋觯诰W(wǎng)上基本上就可以找到解決對(duì)策。例:數(shù)學(xué)復(fù)賽 江蘇 2014.
三、積累點(diǎn)滴,靈活運(yùn)用
知道全文搜索引擎的基本工作原理和掌握提煉關(guān)鍵詞的技巧以后,搜索者可以解決絕大多數(shù)的搜索問(wèn)題。想成為真正的高手,還需要積累點(diǎn)滴,靈活運(yùn)用。
1.使用高級(jí)搜索語(yǔ)法
以百度搜索引擎為例。
。1)用減號(hào)去除特定關(guān)鍵詞
如果你發(fā)現(xiàn)搜索結(jié)果中,有某一類(lèi)網(wǎng)頁(yè)是你不希望看見(jiàn)的,而且,這些網(wǎng)頁(yè)都包含特定的關(guān)鍵詞,那么用減號(hào)語(yǔ)法,就可以去除所有這些含有特定關(guān)鍵詞的網(wǎng)頁(yè)。
例如,搜索水滸傳,希望是關(guān)于小說(shuō)方面的內(nèi)容,卻發(fā)現(xiàn)很多關(guān)于電視劇方面的網(wǎng)頁(yè)。那么就可以這樣查詢(xún):水滸傳 -電視劇。注意,前一個(gè)關(guān)鍵詞和減號(hào)之間必須有空格,否則,減號(hào)會(huì)被當(dāng)成連字符處理,而失去減號(hào)語(yǔ)法功能。減號(hào)和后一個(gè)關(guān)鍵詞之間,有無(wú)空格均可。
。2)將搜索范圍限定在特定網(wǎng)站
把搜索范圍限定在特定站點(diǎn)中。有時(shí)候,你如果知道某個(gè)站點(diǎn)中有自己需要找的東西,就可以把搜索范圍限定在這個(gè)站點(diǎn)中,提高查詢(xún)效率。使用的方式是在查詢(xún)內(nèi)容的后面加上"site:站點(diǎn)域名".
例如,你知道新浪博客上有不少學(xué)習(xí)的文章,就可以這樣查詢(xún):快速排序site:blog.sina.com.cn注意,"site:"后面跟的站點(diǎn)域名,不要帶"http://";另外,"site:"和站點(diǎn)名之間,不要帶空格。
2.嘗試特色搜索服務(wù)
百度搜索,使用者用得最多的是"網(wǎng)頁(yè)"搜索。打開(kāi)百度網(wǎng)站"全部產(chǎn)品"鏈接,有搜索服務(wù)、新上線(xiàn)、導(dǎo)航服務(wù)、社區(qū)服務(wù)、游戲娛樂(lè)、移動(dòng)服務(wù)、站長(zhǎng)與開(kāi)發(fā)者服務(wù)、軟件工具、其他服務(wù)等分類(lèi)。仔細(xì)瀏覽各個(gè)服務(wù)分類(lèi),幾乎囊括了因特網(wǎng)上信息搜索的方方
面面。
以"百度識(shí)圖"為例。有些圖片資源并沒(méi)有配備圖片的文字說(shuō)明,使用者無(wú)法了解圖片的完整信息。假如現(xiàn)在有一張動(dòng)物或植物的圖片,使用者并不識(shí)得,想要了解動(dòng)物的名稱(chēng)、習(xí)性等信息,就可以嘗試百度識(shí)圖。百度識(shí)圖的圖片通過(guò)兩種方式來(lái)使用,有圖片文件的通過(guò)"本地上傳",將圖片上傳到百度;或者粘貼圖片網(wǎng)址到百度識(shí)圖搜索框中搜索。
"百度尋人"也是一項(xiàng)特色服務(wù)。百度尋人是百度推出的公益互動(dòng)開(kāi)放平臺(tái)。借助百度業(yè)界領(lǐng)先的搜索技術(shù)、龐大的用戶(hù)規(guī)模、海量的數(shù)據(jù)優(yōu)勢(shì),建立全國(guó)范圍內(nèi)失蹤人員的開(kāi)放數(shù)據(jù)庫(kù),并利用中國(guó)科學(xué)院計(jì)算技術(shù)研究所無(wú)償提供的人臉識(shí)別技術(shù)迅速匹配失蹤人員的照片,幫助家長(zhǎng)和熱心網(wǎng)友第一時(shí)間獲取信息。
3.嘗試不同搜索引擎
百度搜索是常用的搜索站點(diǎn),在解決一個(gè)搜索問(wèn)題時(shí),關(guān)鍵詞提煉準(zhǔn)確了,搜索的結(jié)果還是不令人滿(mǎn)意,這時(shí)可以換個(gè)搜索引擎試試。
筆者的女兒前陣子從幼兒園老師那里領(lǐng)回來(lái)一個(gè)親子活動(dòng)任務(wù),做一個(gè)燈籠狀的裙子。用什么材料呢?用布匹的話(huà)就得請(qǐng)專(zhuān)業(yè)裁縫師了,考慮可以使用廢舊報(bào)紙做材料。提煉的搜索關(guān)鍵詞是"紙裙""燈籠".使用百度搜索,可以找到相關(guān)信息,有實(shí)際指導(dǎo)如何做的網(wǎng)頁(yè)較少。嘗試使用搜狗更快地找到了所需信息。
4.嘗試專(zhuān)業(yè)網(wǎng)站
對(duì)于專(zhuān)業(yè)性強(qiáng)、嚴(yán)肅性高的信息,使用專(zhuān)業(yè)網(wǎng)站更能達(dá)到搜索需求。專(zhuān)業(yè)網(wǎng)站中收錄的信息資源專(zhuān)業(yè)性強(qiáng),主題明確,檢索的相關(guān)性高。資源入庫(kù)前進(jìn)行了嚴(yán)格的定向篩選,質(zhì)量比較高,具有較高的權(quán)威性。
例如,想要搜索"義務(wù)教育法"相關(guān)的內(nèi)容,找到專(zhuān)業(yè)網(wǎng)站:法律信息網(wǎng),在該網(wǎng)站搜索框中輸入關(guān)鍵詞:義務(wù)教育法。搜索結(jié)果中不僅有義務(wù)教育法的全文,還有各地政府實(shí)施義務(wù)教育法的辦法和情況信息。
專(zhuān)業(yè)網(wǎng)站的使用是個(gè)日積月累的過(guò)程,在日常的搜索過(guò)程中要注意搜集和甄別,找到不同分類(lèi)的專(zhuān)業(yè)網(wǎng)站并收藏,使用時(shí)就能快速搜索到有價(jià)值的信息。
知道搜索引擎的基本工作原理、掌握提煉關(guān)鍵詞的技巧、積累點(diǎn)滴和靈活運(yùn)用,這三個(gè)部分在開(kāi)始學(xué)習(xí)、應(yīng)用中有前后順序關(guān)系。學(xué)習(xí)、應(yīng)用到一定階段,用戶(hù)有了實(shí)踐體驗(yàn)后,可以根據(jù)需要深入學(xué)習(xí)搜索引擎的基本工作原理、提煉關(guān)鍵詞的技巧等部分,
再實(shí)踐、再學(xué)習(xí),多思考、多總結(jié),在學(xué)習(xí)、實(shí)踐的交替進(jìn)行中不斷進(jìn)步,最終煉成搜索的高手。
參考文獻(xiàn):
安文廣,魏曉光。搜索引擎及其關(guān)鍵技術(shù)分析[J].電子制作,2013(17)。
【搜索高手煉成三部曲——搜索引擎的原理、技巧與運(yùn)用】相關(guān)文章:
搜索引擎工作原理08-05
各類(lèi)搜索引擎的搜索語(yǔ)法應(yīng)用論文08-24
關(guān)于搜索引擎的作文500字08-15
搜索引擎:為電子商務(wù)做媒08-05
搜索引擎:為電子商務(wù)作媒08-05