Robots.txt คืออะไร ทำไมต้องทำ สำคัญกับการทำ SEO อย่างไร

SEOSZN | SEO Expert
3 Mins read
3 January 2024
214
Robots.txt คืออะไร

สารบัญ

ใครที่ทำเว็บไซต์หรือ SEO แต่น้องศรีแอบกระซิบว่าเรารับทำ SEO สายขาว ด้วยนะ ฮ่าๆ เอ้าาเข้าเรื่องต่ออคงเคยได้เห็นเกี่ยวกับ Robots.txt มาบ้างแล้ว ตัวช่วยที่จะทำให้เครื่องมือค้นหารวบรวมข้อมูลของเราได้ง่ายขึ้น เพราะการทำเว็บไซต์จะต้องทำหลาย ๆ หน้าเพื่อตอบโจทย์ผู้ใช้งานมากที่สุด ซึ่งมันจะเข้ามาช่วยเราในการบอกบอทว่าหน้าเว็บไหนที่เราอยากให้เข้ามาเก็บข้อมูล 

 

และหน้าไหนที่เราไม่ต้องการ ถ้าเรารู้กลยุทธ์ในการสร้างไฟล์ที่ถูกต้องก็จะส่งผลต่อการทำ SEO แน่นอน วันนี้น้องศรีเลยมาพร้อมกับเทคนิคมากมายที่จะช่วยให้คุณเบาสบายมากขึ้น!

Robots.txt คืออะไร

Robots.txt คือ

การบอกบอท (Bot) ที่เข้ามาเก็บข้อมูลว่า สามารถเก็บข้อมูลหน้าไหนภายในเว็บไซต์ได้บ้าง Robots.txt เหมือนป้ายบอกทางว่า หน้านี้เก็บได้ หน้านี้เก็บไม่ได้ ซึ่งช่วยกำหนดพื้นที่การนำเสนอหน้าเนื้อหาที่อยากให้เก็บ หรือหน้าหลังบ้านที่ไม่ต้องเก็บข้อมูลได้ บอทจะเลือกเก็บเฉพาะส่วนที่อนุญาตเท่านั้น 

 

โดยที่สามารถกำหนดได้ทั้งหน้าเว็บไซต์ เก็บแบบเฉพาะเจาะจงรูปภาพ หรือเฉพาะเจาะจงที่สกุลไฟล์ของรูปภาพ ไปจนถึงการหน่วงเวลาในการเก็บข้อมูล ถ้าเราใส่สคริปต์คำสั่งถูกต้อง บอทของ Search Engine ก็จะเก็บตามที่เราบอกไว้ได้อย่างแม่นยำมากขึ้น

Robots.txt สำคัญอย่างไร

Robots.txt สำคัญอย่างไรกับคนทำเว็บไซต์และทำ SEO

robots.txt ช่วยในจัดการกิจกรรมของโปรแกรมรวบรวมข้อมูลเว็บ เพื่อไม่ให้เว็บไซต์หรือหน้า Index ของเราทำงานมากเกินไป ซึ่งไม่ได้มีไว้สำหรับการดูสาธารณะหรอกนะ น้องศรีจะบอกเหตุผลที่ต้องใช้ไฟล์ robots.txt กัน

 

1. เพิ่มประสิทธิภาพงบประมาณการรวบรวมข้อมูล

งบประมาณในการรวบรวมข้อมูลหมายถึงจำนวนหน้าที่ Google จะรวบรวมข้อมูลในเว็บไซต์ของเราภายในกรอบเวลาที่กำหนด จำนวนก็อาจแตกต่างกันไปตามขนาด ความสมบูรณ์ของเว็บไซต์ และจำนวน backlink ถ้าจำนวนหน้าเว็บในเว็บไซต์ของเราเกินงบในการรวบรวมข้อมูลของเว็บไซต์ อาจมีหน้าที่ไม่มีการจัดทำ Index ในเว็บไซต์ของเราก็ได้ เว็บที่ไม่ได้จัดทำ Index จะไม่จัดอันดับ และท้ายที่สุดเราจะเสียเวลาไปกับการสร้างเว็บที่ไม่มีใครมองเห็นซะงั้น

 

การบล็อกหน้าเว็บที่ไม่จำเป็นด้วย robots.txt ช่วยให้ Googlebot (โปรแกรมรวบรวมข้อมูลเว็บของ Google) ใช้งบประมาณในการรวบรวมข้อมูลมากขึ้นในหน้าเว็บที่สำคัญ

 

2. บล็อกเพจที่ซ้ำกันและไม่ใช่เพจสาธารณะ

บอทรวบรวมข้อมูลไม่จำเป็นต้องกรองผ่านทุกหน้าในเว็บไซต์ของเรา เพราะไม่ใช่ทั้งหมดที่สร้างขึ้นเพื่อให้บริการในหน้าผลลัพธ์ของ Search Engine (SERPs) เช่นเดียวกับเว็บไซต์ทดลอง หน้าผลการค้นหาภายใน หน้าซ้ำ หรือหน้า login

 

ระบบจัดการเนื้อหาบางระบบมันจะจัดการเพจภายในให้เรา เช่น WordPress ไม่อนุญาตให้หน้าเข้า login, wp-admin สำหรับซอฟต์แวร์รวบรวมข้อมูลทั้งหมดโดยอัตโนมัติ แต่เจ้า Robots.txt อนุญาตให้เราบล็อกหน้าเหล่านี้จากโปรแกรมรวบรวมข้อมูลได้

 

3. ซ่อน Resources

บางครั้งเราต้องการแยก Resources เช่น PDF, วิดีโอ และรูปภาพออกจาก Search Engine เพื่อรักษาความเป็นส่วนตัว หรือให้ Google โฟกัสที่เนื้อหาที่สำคัญมากกว่า ไม่ว่าในกรณีไหน robots.txt จะป้องกันไม่ให้มีการรวบรวมข้อมูล

ตัวอย่างคำสั่ง Robots.txt ที่ควรรู้

ตัวอย่างคำสั่ง Robots.txt ที่ควรรู้

น้องศรีจะพาทุกคนมาดูตัวอย่างคำสั่ง Robots.txt ที่ควรรู้กัน!

คำสั่งนี้หมายถึงไม่อนุญาตให้เก็บข้อมูล 

 

User-agent: *

Disallow: /

 

คำสั่งนี้คืออนุญาตให้เก็บข้อมูลเฉพาะบอทของ Google เท่านั้น

User-agent: Googlebot-news

Allow: /

User-agent: *

Disallow: /

 

คำสั่งไม่อนุญาตให้เก็บข้อมูลในหน้า Directory และเนื้อหาในหน้านั้น ๆ

User-agent: *

Disallow: /calendar/

Disallow: /junk/

Disallow: /books/fiction/contemporary/

 

คำสั่งนี้หมายถึง ไม่อนุญาตให้เก็บข้อมูลในหน้าเว็บเพจนี้

User-agent: *

Disallow: /useless_file.html

Disallow: /junk/other_useless_file.html

 

คำสั่งการบล็อกรูปภาพแบบเจาะจงไม่ให้บอทของ Google เก็บข้อมูล

User-agent: Googlebot-Image

Disallow: /images/dogs.jpg

 

คำสั่งการบล็อกรูปภาพทั้งหมดไม่ให้บอทของ Google เก็บข้อมูล

User-agent: Googlebot-Image

Disallow: /

วิธีสร้างไฟล์ Robots.txt 

น้องศรีขอบอกว่าเราสามารถใช้เครื่องมือสร้าง robots.txt หรือสร้างเองก็ได้นะ ต่อไปน้องศรีจะบอกวิธีการสร้างให้ทุกคนเอง!

 

สร้างไฟล์และตั้งชื่อว่า Robots.txt

เริ่มต้นด้วยการเปิดเอกสาร .txt ภายในโปรแกรมแก้ไขข้อความหรือเว็บเบราว์เซอร์ แต่อย่าใช้โปรแกรมประมวลผลคำ เพราะมันจะบันทึกไฟล์ในรูปแบบที่เป็นกรรมสิทธิ์ ซึ่งสามารถเพิ่มตัวอักษรแบบสุ่มได้ ต่อไปให้ตั้งชื่อเอกสารว่า robots.txt ได้เลย

 

เพิ่มคำสั่งให้กับไฟล์ Robots.txt

ไฟล์ robots.txt ประกอบด้วยกลุ่มคำสั่งหนึ่งกลุ่มขึ้นไป แต่ละกลุ่มประกอบด้วยคำสั่งหลายบรรทัด

แต่ละกลุ่มขึ้นต้นด้วย “user-agent” และมีข้อมูลต่อไปนี้

  • กลุ่มนี้นำไปใช้กับใคร

  • ไดเร็กทอรีหรือไฟล์ใดที่เอเจนต์สามารถเข้าถึงได้

  • ไดเร็กทอรีหรือไฟล์ใดที่เอเจนต์ไม่สามารถเข้าถึงได้

  • sitemap เพื่อบอก Search Engine ว่าหน้าเว็บและไฟล์ไหนที่เราเห็นว่าสำคัญ

 

ซึ่งโปรแกรมรวบรวมข้อมูลไม่สนใจบรรทัดที่ไม่ตรงกับคำสั่งเหล่านี้ สมมติว่าเราไม่ต้องการให้ Google รวบรวมข้อมูลไดเรกทอรี หรือ clients ของเรา เพราะเป็นเพียงการใช้งานภายใน

กลุ่มแรกจะมีลักษณะดังนี้

 

User-agent: Googlebot

Disallow: /clients/

 

เราสามารถเพิ่มคำแนะนำเพิ่มเติมในบรรทัดแยกต่างหากด้านล่างได้ เช่น

User-agent: Googlebot

Disallow: /clients/

Disallow: /not-for-google

 

เมื่อเราทำตามคำแนะนำเฉพาะของ Google เสร็จแล้ว ให้กด Enter สองครั้งเพื่อสร้างกลุ่มคำสั่งใหม่ สร้างสิ่งนี้สำหรับ Search Engine ทั้งหมดและป้องกันไม่ให้รวบรวมข้อมูลจากไดเรกทอรี archive และ support ของเรา เนื่องจากเป็นโปรแกรมสำหรับใช้ภายในเท่านั้น ซึ่งมีลักษณะดังนี้

 

User-agent: Googlebot

Disallow: /clients/

Disallow: /not-for-google

User-agent: *

Disallow: /archive/

Disallow: /support/

 

เมื่อเสร็จแล้ว ให้เพิ่ม sitemap ของเรา

ไฟล์ robots.txt ที่เสร็จแล้วของเราจะมีลักษณะดังนี้

 

User-agent: Googlebot

Disallow: /clients/

Disallow: /not-for-google

User-agent: *

Disallow: /archive/

Disallow: /support/

Sitemap: https://www.yourwebsite.com/sitemap.xml

 

บันทึกไฟล์ robots.txt ของเรา จำไว้ให้ดี!!! ว่าจะต้องตั้งชื่อว่า robots.txt เท่านั้นนะ

อัปโหลดไฟล์ Robots.txt

หลังจากที่เราบันทึกไฟล์ robots.txt ลงในคอมพิวเตอร์แล้ว ให้อัปโหลดไปยังเว็บไซต์ของเราและทำให้ Search Engine สามารถรวบรวมข้อมูลได้ แต่น่าเสียดายที่ไม่มีเครื่องมือสากลสำหรับขั้นตอนนี้

 

การอัปโหลดไฟล์ robots.txt ขึ้นอยู่กับโครงสร้างไฟล์และเว็บโฮสติ้งของเว็บไซต์ ให้ค้นหาหรือติดต่อผู้ให้บริการโฮสต์ของเรา เพื่อขอความช่วยเหลือในการอัปโหลดไฟล์ robots.txt เช่น เราสามารถค้นหา “อัปโหลดไฟล์ robots.txt ไปยัง WordPress” ได้

 

ด้านล่างนี้เป็นบทความบางส่วนที่อธิบายวิธีอัปโหลดไฟล์ robots.txt ในแพลตฟอร์มยอดนิยม

 

  • ไฟล์ robots.txt ในWordPress

  • ไฟล์ robots.txt ในWix

  • ไฟล์ robots.txt ในJoomla

  • ไฟล์ Robots.txt ในShopify

  • ไฟล์ Robots.txt ในBigCommerce

 

หลังจากอัปโหลดแล้ว ให้ตรวจสอบว่ามีใครเห็นบ้างและ Google อ่านได้มั้ย

ทดสอบ Robots.txt

ขั้นแรก ให้ทดสอบว่าไฟล์ robots.txt ของเราสามารถเข้าถึงได้แบบสาธารณะไหม เช่น อัปโหลดถูกต้องไหม เปิดหน้าต่างส่วนตัวในเบราว์เซอร์และค้นหาไฟล์ robots.txt ถ้าเห็นไฟล์ robots.txt ที่มีเนื้อหาที่เราเพิ่ม ก็พร้อมที่จะทดสอบมาร์กอัป (โค้ด HTML) ได้แล้ว

 

Google เสนอ 2 ตัวเลือกสำหรับการทดสอบมาร์กอัปของ robots.txt มาด้วยนะ

 

  • robots.txt Tester ใน Search Console

  • robots.txt แบบ open-source ของ Google (ขั้นสูง)

 

เนื่องจากตัวเลือกที่ 2 มุ่งเน้นไปที่นักพัฒนาขั้นสูง มาทดสอบไฟล์ robots.txt ของเราใน Search Console กัน!

 

ไปที่เครื่องมือทดสอบ robots.txt แล้วคลิก “Open robots.txt Tester” ถ้าเรายังไม่ได้เชื่อมโยงเว็บไซต์กับบัญชี Google Search Console เราจะต้องเพิ่ม property ก่อน จากนั้น ยืนยันว่าเราเป็นเจ้าของเว็บไซต์ตัวจริงเสียงจริง!

 

ถ้าเรามีคุณสมบัติที่ผ่านการตรวจสอบแล้ว ให้เลือกหนึ่งรายการจากรายการ drop-down ในหน้าแรกของผู้ทดสอบ เครื่องทดสอบจะระบุคำเตือนเกี่ยวกับโครงสร้างหรือข้อผิดพลาด และแสดงจำนวนคำเตือนและข้อผิดพลาดทั้งหมดด้านล่างตัวแก้ไข

 

เราสามารถแก้ไขข้อผิดพลาดหรือคำเตือนได้โดยตรงบนเพจและทดสอบซ้ำอีกครั้ง การเปลี่ยนแปลงต่าง ๆ ที่ทำบนเว็บจะไม่ถูกบันทึกลงในเว็บไซต์ของเรา เครื่องมือนี้จะไม่เปลี่ยนแปลงไฟล์จริงบนเว็บไซต์ของเรา โดยจะทดสอบกับสำเนาที่โฮสต์ในเครื่องมือเท่านั้น

 

ถ้าต้องการใช้การเปลี่ยนแปลงใด ๆ ให้คัดลอกและวางสำเนาการทดสอบที่แก้ไขแล้วลงในไฟล์ robots.txt บนเว็บไซต์ของเราได้เลย

สรุป Robots.txt

สรุป

Robots.txt คือ ไฟล์ที่เราสร้างขึ้นมาเพื่อบอกบอทของ Search Engine ว่าข้อมูลหรือหน้าเว็บไหนที่เราอนุญาตให้เข้ามาเก็บข้อมูลหรือไม่อนุญาตให้เข้ามาเก็บข้อมูล ช่วยในการ Index เนื้อหาหรือหน้าเพจของเว็บไซต์เราให้มีคุณภาพและได้รับการจัดอันดับในผลการค้นหา ง่ายต่อการรวบรวมข้อมูลและจัดการเว็บไซต์ให้มีโครงสร้างที่ดีขึ้น ตอบโจทย์ผู้ใช้งานและนำไปสู่อันดับเว็บไซต์แบบปัง ๆ ได้เลย

SEOSZN | SEO Expert

SEOSEZNAM บริษัทรับทำการตลาดออนไลน์ หรือดิจิตอลมาร์เก็ตติ้งแบบครบวงจร ที่การันตีผลลัพธ์ พร้อมสร้าง “ที่หนึ่ง” ให้ธุรกิจคุณ