nampo: ความรู้เกี่ยวกับ search engine

search engine คืออะร?

Search Engine คือ เครื่องมือการค้นหาข้อมูลผ่านอินเตอร์เน็ต ที่ทุกคนสามารถเข้าไปค้นหาข้อมูลผ่านอินเตอร์เน็ตก็ได้ โดย กรอก ข้อมูลที่ต้องการค้นหา หรือ Keyword (คีเวิร์ด) เข้าไปที่ช่อง Search Box แล้วกด Enter แค่นี้ข้อมูลที่เราค้นหาก็จะถูกแสดงออกมาอย่างมากมายก่ายกอง เพื่อให้เราเลือกข้อมูลที่เราโดนใจที่สุดเอามาใช้ งาน โดยลักษณะการแสดงผลของ Search Engine นั้นจะทำการแสดงผลแบบ เรียงอันดับ Search Results ผ่านหน้าจอคอมพิวเตอร์ของเรา

Search Engine มี 3 ประเภท

ประเภทที่ 1 Crawler Based Search Engines คือ เครื่องมือการค้นหาบนอินเตอร์เน็ตแบบอาศัยการบันทึกข้อมูล และ จัดเก็บข้อมูลเป็นหลัก ซึ่งจะเป็นจำพวก Search Engine ที่ได้รับความนิยมสูงสุด เนื่องจากให้ผลการค้นหาแม่นยำที่สุด และการประมวลผลการค้นหาสามารถทำได้อย่างรวดเร็ว จึงทำให้มีบทบาทในการค้นหาข้อมูลมากที่สุดในปัจจุบัน โดยมีองค์ประกอบหลักเพียง 2 ส่วนด้วยกันคือ
1. ฐานข้อมูล โดยส่วนใหญ่แล้ว Crawler Based Search Engine เหล่านี้จะมีฐานข้อมูลเป็นของตัวเอง ที่มีระบบการประมวลผล และ การจัดอันดับที่เฉพาะ เป็นเอกลักษณ์ของตนเองอย่างมาก
2. ซอฟแวร์ คือ เครื่องมือหลักสำคัญที่สุดอีกส่วนหนึ่งสำหรับ Serch Engine ประเภทนี้ เนื่องจากต้องอาศัยโปรแกรมเล็กๆ ทำหน้าที่ในการตรวจหา และทำการจัดเก็บข้อมูล หน้าเพจ หรือ เว็บไซต์ต่าง ๆ ในรูปแบบของการทำสำเนาข้อมูล เหมือนกับต้นฉบับทุกอย่าง ซึ่งเราจะรู้จักกันในนาม Spider หรือ Web Crawler หรือ Search Engine Robots เช่น www.google.com

ประเภทที่ 2 Web Directory หรือ Blog Directory คือ สารบัญเว็บไซต์ที่ให้สามารถค้นหาข่าวสารข้อมูล ด้วยหมวดหมู่ข่าวสารข้อมูลที่เกี่ยวข้องกัน ในปริมาณมากๆ คล้าย ๆ กับสมุดหน้าเหลือง ซึ่งจะมีการสร้าง ดรรชนี มีการระบุหมวดหมู่อย่างชัดเจน ซึ่งจะช่วยให้การค้นหาข้อมูลต่าง ๆ ตามหมวดหมู่นั้น ๆ ได้รับการเปรียบเทียบอ้างอิง เพื่อหาข้อเท็จจริงได้ในขณะที่เราค้นหาข้อมูล เพราะว่าจะมีเว็บไซต์มากมาย หรือ Blog มากมายที่มีเนื้อหาคล้าย ๆ กันในหมวดหมู่เดียวกัน ให้เราเลือกที่จะหาข้อมูลได้อย่างตรงประเด็นที่สุด (ลดระยะเวลาได้มากในการค้นหา) ตัวอย่างเช่น

1. ODP หรือ Dmoz ที่หลาย ๆ คนรู้จัก ซึ่งเป็น Web Directory ที่ใหญ่ที่สุดในโลก Search Engine หลาย ๆ แห่งก็ใช้ข้อมูลจากที่แห่งนี้เกือบทั้งสิ้น เช่น Google, AOL, Yahoo, Netscape และอื่น ๆ อีกมากมาย ODP มีการบันทึกข้อมูลประมาณ 80 ภาษาทั่วโลก รวมถึงภาษาไทยด้วย (URL : http://www.dmoz.org )
2. สารบัญเว็บไทย SANOOK ก็เป็น Web Directory ที่มีชื่อเสียงอีกเช่นกัน และเป็นที่รู้จักมากที่สุดในเมืองไทย(URL : http://webindex.sanook.com )

ประเภทที่ 3 Meta Search Engine คือ Search Engine ที่ใช้หลักการในการค้นหาโดยอาศัย Meta Tag ในภาษาHTML ซึ่งมีการประกาศชุดคำสั่งต่าง ๆ เป็นรูปแบบของ Tex Editor ด้วยภาษา HTML นั่นเองเช่น ชื่อผู้พัฒนา คำค้นหา เจ้าของเว็บ หรือ บล็อก คำอธิบายเว็บหรือบล็อกอย่างย่อ ผลการค้นหาของ Meta Search Engine นี้มักไม่แม่นยำอย่างที่คิด เนื่องจากบางครั้งผู้ให้บริการหรือ ผู้ออกแบบเว็บสามารถใส่อะไรเข้าไปก็ได้มากมายเพื่อให้เกิดการค้นหาและพบเว็บ หรือ บล็อกของตนเองและอีกประการหนึ่งก็คือ มีการอาศัย Search Engine Index Server หลาย ๆ แห่งมาประมวลผลรวมกัน จึงทำให้ผลการค้นหาข้อมูลต่าง ๆ ไม่เที่ยงตรงเท่าที่ควร

หลักการทำงาน เว็บคราวเลอร์ ( Web Crawler) หรือที่รู้จักกันดีในชื่อ เว็บสไปเดอร์ ( Web Spider ) หรือ เว็บโรบอท ( Web Robot ) เป็นโปรแกรมที่ทำงานด้วยตัวเอง โดยจะเชื่อมต่อกับเครือข่ายอินเตอร์เน็ต เก็บข้อมูลเพื่อจุดประสงค์ใดจุดประสงค์หนึ่ง เช่น เก็บ E-mail Address ( เพื่อนำไปใช้สแปมอีเมล์ ) เว็บคราวเลอร์ที่ใช้กันอยู่ในปัจจุบันทั่วไปและมีการวิจัยกันมากคือ ใช้ในการทำงานเกี่ยวกับระบบ เสิร์จเอนจิ้น โดยเว็บคราวเลอร์ทำหน้าที่เก็บรวบรวมข้อมูลเว็บเพจในระบบอินเตอร์เน็ต เพื่อนำมาใช้ในการทำดัชนี ทำเป็นระบบเสิร์จเอนจิ้นต่อไป หลักการทำงานของเว็บคราวเลอร์แบบพื้นฐานคือ การเริ่มต้นดาวน์โหลดเว็บเพจจากยูอาร์แอลเริ่มต้น หรือที่เรียกว่า Seed URLs ยูอาร์แอลเริ่มต้นอาจจะเป็นชุดของ ยูอาร์แอลหรือยูอาร์แอลเดียวก็ได้ เมื่อเว็บคราวเลอร์ดาวน์โหลดหน้าเอกสารเว็บเพจจากยูอาร์แอลที่ดาวน์โหลดมาแล้ว เว็บคราวเลอร์จะทำการวิเคราะห์ หายูอาร์แอลลิงค์ทั้งหมดในหน้าเว็บเพจนั้น เพื่อนำไปใช้ดาวน์โหลดเก็บข้อมูล ทำวนซ้ำต่อไปเรื่อยๆ วิธีการใช้งาน ... 1) คำสำคัญที่เป็นภาษาไทยล้วนๆ

สมมติว่าคุณจะค้นหาข้อมูลเกี่ยวกับนักคณิตศาสตร์ คำสำคัญอันดับแรกที่เรานึกถึงได้ทันทีก็คือ นักคณิตศาสตร์ แต่ผมคิดว่าคำสำคัญเพียงคำเดียวก็ดูจะกว้างไป และในบางครั้งผลการค้นหาก็มากมายหลายสิบหน้า ถ้าเราจะเปิดอ่านทุกลิงก์ทุกหน้าก็คงไม่ดีแน่ ดังนั้นเราจึงต้องจำกัดผลการค้นหาให้แคบลงตามที่เราต้องการ สมมติว่าคุณต้องการข้อมูลเกี่ยวกับนักคณิตศาสตร์ชาวกรีก คำสำคัญที่ใช้ได้ก็ได้แก่ นักคณิตศาสตร์ และคำว่า กรีก คราวนี้สังเกตผลการค้นหาที่ได้ คุณจะพบว่าผลการค้นหามีจำนวนน้อยลง คราวนี้ก็สะดวกที่เราจะเลือกลิงก์ที่ต้องการได้

จากภาพประกอบ 1 ในกรอบรูปวงรี คุณจะเห็นได้ว่าผลการค้นหามีทั้งหมด 343 ผลลัพธ์ แต่เมื่อเพิ่มคำสำคัญเข้าไปอีกเพียงคำเดียวซึ่งก็คือคำว่า “กรีก” ในภาพประกอบ 2 ก็จะทำให้ผลการค้นหาลดลงเหลือเพียงผลลัพธ์เดียวเท่านั้น แต่ทั้งนี้จำนวนผลลัพธ์ที่ลดน้อยลงไม่อาจประกันได้ว่าเราจะได้ข้อมูลอย่างที่คาดหวังไว้

2) คำสำคัญที่เป็นภาษาอังกฤษล้วนๆ

ในทำนองเดียวกัน ถ้าคุณอยากได้ข้อมูลเกี่ยวกับนักคณิตศาสตร์ชาวกรีกแต่เป็นภาษาอังกฤษ คำสำคัญ 2 คำแรกที่น่าจะใช้ได้ก็คือ greek mathematician แต่ผมมีข้อสังเกตของการใช้เว็บไซต์ http://www.google.co.th/ และ search engine หลายๆ ตัวในอินเทอร์เน็ต คือ ในการค้นหาข้อมูลที่ใช้คำสำคัญเป็นภาษาอังกฤษ (รวมทั้งภาษาไทยด้วย) ถ้าเราใช้เครื่องหมาย “ ” (double quote) คร่อมระหว่างคำสำคัญคู่ใดๆ ก็ตาม ผลการค้นหาอาจแตกต่างกันเล็กน้อยซึ่งเป็นรายละเอียดทางเทคนิค ผมจะไม่อธิบายไว้ในที่นี้ ในกรณีนี้คำสำคัญว่า greek mathematician (คำว่า greek แล้วเว้นวรรคจากนั้นตามด้วยคำว่า mathematician) อาจให้ผลการค้นหาที่ต่างจากคำสำคัญ “greek mathematician” และที่สำคัญอีกอย่างก็คือตัวอักษรใหญ่เล็กที่ต่างกันก็อาจจะให้ผลการค้นหาที่ต่างกันได้อีกเช่นกัน

จากภาพประกอบ 4 และภาพประกอบ 5 จะพบว่าเมื่อไม่ใช้เครื่องหมาย “ ” (double quote) คร่อมระหว่างคำสำคัญคู่ใดๆ ผลลัพธ์การค้นหามีจำนวนมากถึง 86,400 ผลลัพธ์ แต่เมื่อเราใส่เครื่องหมาย “ ” คร่อมระหว่างคำสำคัญคู่หนึ่งแล้ว ผลการค้นหาลดจำนวนลงเหลือเพียง 15,400 ผลลัพธ์ ซึ่งทำให้เราสะดวกต่อการค้นหาข้อมูลมากขึ้น และขอย้ำอีกครั้งหนึ่งว่า จำนวนผลลัพธ์ที่น้อยลงไม่ได้เป็นเครื่องรับประกันว่าเราจะได้ข้อมูลอย่างที่คาดหวังไว้แต่อย่างใด

3) คำสำคัญที่เป็นภาษาไทยปนภาษาอังกฤษ

search engine บางแห่งอาจค้นไม่พบข้อมูลที่ต้องการเมื่อใช้คำสำคัญที่เป็นภาษาไทยกับภาษาอังกฤษปนกัน แต่อย่างไรก็ตามผมพบว่าเว็บไซต์ http://www.google.co.th ไม่มีปัญหากับคำสำคัญที่เป็นแบบ 2 ภาษาปนกัน สมมติว่าคุณต้องการไฟล์บทเรียนเกี่ยวกับไฟฟ้ากระแส คำสำคัญที่อาจจะใช้ได้มีดังต่อไปนี้ 1) ไฟฟ้ากระแสตรง “direct current” 2) “direct current” ไฟฟ้า กระแสตรง 3) “direct current” เนื้อหา

ประโยชน์ของการค้นข้อมูลโดยใช้ search engine

1. ค้นหาเว็บที่ต้องการได้สะดวก รวดเร็ว 2. สามารถค้นหาแบบเจาะลึกได้ ไม่ว่าจะเป็น รูปภาพ, ข่าว, MP3 และอื่นๆ อีกมากมาย 3. สามารถค้นหาจากเว็บไซต์เฉพาะทาง ที่มีการจัดทำไว้ เช่น download.com เว็บไซต์เกี่ยวกับข้อมูลและซอร์ฟแวร์ เป็นต้น 4. มีความหลากหลายในการค้นหาข้อมูล 5. รองรับการค้นหา ภาษาไทย

สถิติการใช้ web ที่มีการทำงานในระบบของ search engine ในปัจจุบัน