เกี่ยวกับการทดสอบ A/B ของ Firebase

หน้านี้มีข้อมูลโดยละเอียดเกี่ยวกับวิธีการทำงานของ Firebase A/B Testing เพื่อช่วยให้คุณได้รับประโยชน์สูงสุดจากความเกี่ยวข้องและประโยชน์ของผลการทดสอบ

ขนาดตัวอย่าง

Firebase A/B Testing การอนุมานไม่จำเป็นต้องระบุขนาดตัวอย่างขั้นต่ำก่อนเริ่มการทดสอบ โดยทั่วไป คุณควรเลือกระดับการแสดงการทดสอบที่ใหญ่ที่สุดที่คุณรู้สึกสบายใจ ขนาดตัวอย่างที่ใหญ่ขึ้นจะเพิ่มโอกาสในการได้ผลลัพธ์ที่มีนัยสำคัญทางสถิติ โดยเฉพาะอย่างยิ่งเมื่อความแตกต่างด้านประสิทธิภาพระหว่างตัวแปรมีน้อย นอกจากนี้ คุณยังอาจใช้เครื่องคำนวณขนาดตัวอย่างออนไลน์เพื่อค้นหาขนาดตัวอย่างที่แนะนำตามลักษณะของการทดสอบ

แก้ไขการทดสอบ

คุณสามารถแก้ไขพารามิเตอร์ที่เลือกของการทดสอบที่กำลังทำงานอยู่ ซึ่งรวมถึง

  • ชื่อการทดสอบ
  • คำอธิบาย
  • เงื่อนไขการกำหนดเป้าหมาย
  • ค่าตัวแปร

วิธีแก้ไขการทดสอบ

  1. ในคอนโซลFirebase ให้ไปที่DevOps และการมีส่วนร่วม > การทดสอบ A/B
  2. เปิดหน้าผลลัพธ์ของการทดสอบที่ต้องการแก้ไข
  3. เลือกแก้ไขการทดสอบที่กำลังทำงานอยู่ จากเมนูเพิ่มเติม
  4. ทำการเปลี่ยนแปลงที่ต้องการ แล้วคลิกเผยแพร่

โปรดทราบว่าการเปลี่ยนลักษณะการทำงานของแอประหว่างการทดสอบที่กำลังทำงานอยู่อาจส่งผลต่อผลลัพธ์

ตรรกะการกำหนดตัวแปรการกำหนดค่าระยะไกล

ระบบจะกำหนดผู้ใช้ที่ตรงกับเงื่อนไขการกำหนดเป้าหมายทั้งหมดของการทดสอบ (รวมถึงเงื่อนไขเปอร์เซ็นต์ การแสดง) ให้กับตัวแปรการทดสอบตาม น้ำหนักของตัวแปรและแฮชของรหัสการทดสอบและรหัสการติดตั้ง ของผู้ใช้Firebase

Google Analytics กลุ่มเป้าหมาย อาจมีความหน่วงและจะไม่พร้อมใช้งานทันทีเมื่อผู้ใช้มีคุณสมบัติตรงตามเกณฑ์กลุ่มเป้าหมายในครั้งแรก

  • เมื่อคุณสร้างกลุ่มเป้าหมายใหม่ ระบบอาจใช้เวลารวบรวมผู้ใช้ใหม่ 24-48 ชั่วโมง
  • โดยปกติแล้ว ระบบจะลงทะเบียนผู้ใช้ใหม่ในกลุ่มเป้าหมายที่มีสิทธิ์ 24-48 ชั่วโมงหลังจากที่ผู้ใช้มีสิทธิ์

สำหรับการกำหนดเป้าหมายที่คำนึงถึงเวลา ให้พิจารณาใช้พร็อพเพอร์ตี้ผู้ใช้ Google Analytics หรือตัวเลือกการกำหนดเป้าหมายในตัว เช่น ประเทศหรือภูมิภาค ภาษา และเวอร์ชันแอป

เมื่อผู้ใช้เข้าร่วมการทดสอบแล้ว ระบบจะกำหนดผู้ใช้ให้กับตัวแปรการทดสอบอย่างถาวรและผู้ใช้จะได้รับค่าพารามิเตอร์จากการทดสอบตราบใดที่การทดสอบยังคงใช้งานอยู่ แม้ว่าพร็อพเพอร์ตี้ผู้ใช้จะเปลี่ยนไปและผู้ใช้ไม่มีคุณสมบัติตรงตามเกณฑ์การกำหนดเป้าหมายของการทดสอบอีกต่อไป

เหตุการณ์การเปิดใช้งาน

เหตุการณ์การเปิดใช้งานการทดสอบจะจำกัดการวัดผลการทดสอบไว้ที่ผู้ใช้แอปที่ทริกเกอร์เหตุการณ์การเปิดใช้งาน เหตุการณ์การเปิดใช้งานการทดสอบจะไม่ส่งผลต่อพารามิเตอร์การทดสอบที่แอปดึงข้อมูล ผู้ใช้ทั้งหมดที่มีคุณสมบัติตรงตามเกณฑ์การกำหนดเป้าหมายของการทดสอบจะได้รับพารามิเตอร์การทดสอบ ดังนั้น คุณจึงควรเลือกเหตุการณ์การเปิดใช้งานที่เกิดขึ้นหลังจากที่ระบบดึงข้อมูลและเปิดใช้งานพารามิเตอร์การทดสอบแล้ว แต่ก่อนที่จะใช้พารามิเตอร์การทดสอบเพื่อแก้ไขลักษณะการทำงานของแอป

น้ำหนักของตัวแปร

ในระหว่างการสร้างการทดสอบ คุณสามารถเปลี่ยนน้ำหนักเริ่มต้นของตัวแปรเพื่อกำหนดให้ผู้ใช้การทดสอบจำนวนมากขึ้นอยู่ในตัวแปรหนึ่งๆ ได้

แปลผลการทดสอบ

Firebase A/B Testing ใช้ การอนุมานความถี่ เพื่อช่วยให้คุณเข้าใจ ความน่าจะเป็นที่ผลการทดสอบอาจเกิดขึ้นโดยบังเอิญ ความน่าจะเป็นนี้แสดงด้วย ค่าความน่าจะเป็น หรือ ค่า P-Value ค่า P-Value คือความน่าจะเป็นที่ความแตกต่างด้านประสิทธิภาพที่มีขนาดเท่านี้หรือใหญ่กว่าระหว่างตัวแปร 2 ตัวอาจเกิดขึ้นโดยบังเอิญหากไม่มีผลลัพธ์ใดๆ จริงๆ โดยวัดเป็นค่าระหว่าง 0 ถึง 1 A/B Testing ใช้ระดับนัยสำคัญ 0.05 ซึ่งหมายความว่า

  • ค่า P-Value น้อยกว่า 0.05 บ่งชี้ว่าหากความแตกต่างที่แท้จริงเป็น 0 จะมีโอกาสน้อยกว่า 5% ที่ความแตกต่างที่สังเกตได้ซึ่งมีค่าสุดขั้วเช่นนี้จะเกิดขึ้นแบบสุ่ม เนื่องจาก 0.05 เป็นเกณฑ์ ค่า P-Value ที่น้อยกว่า 0.05 จึงบ่งชี้ถึงความแตกต่างที่มีนัยสำคัญทางสถิติระหว่างตัวแปร
  • ค่า P-Value มากกว่า 0.05 บ่งชี้ว่าความแตกต่างระหว่างตัวแปรไม่มีนัยสำคัญทางสถิติ

ระบบจะรีเฟรชข้อมูลการทดสอบวันละครั้ง และเวลาอัปเดตล่าสุดจะปรากฏที่ด้านบนของหน้าผลการทดสอบ

กราฟผลการทดสอบจะแสดงค่าเฉลี่ยสะสมของเมตริกที่เลือก เช่น หากคุณติดตามรายได้จากโฆษณาต่อผู้ใช้เป็นเมตริก กราฟจะแสดงรายได้ที่สังเกตได้ต่อผู้ใช้ และหากคุณติดตามผู้ใช้ที่ไม่มีข้อขัดข้อง กราฟจะติดตามเปอร์เซ็นต์ของผู้ใช้ที่ไม่พบข้อขัดข้อง ข้อมูลนี้เป็นข้อมูลสะสมตั้งแต่เริ่มต้นการทดสอบ

ผลลัพธ์จะแบ่งออกเป็นข้อมูลที่สังเกตได้ และข้อมูลการอนุมาน ข้อมูลที่สังเกตได้จะคำนวณจากข้อมูล Google Analytics โดยตรง และข้อมูลการอนุมานจะแสดงค่า P-Value และช่วงความเชื่อมั่นเพื่อช่วยคุณประเมินนัยสำคัญทางสถิติของข้อมูลที่สังเกตได้

ระบบจะแสดงสถิติต่อไปนี้สำหรับแต่ละเมตริก

ข้อมูลที่สังเกตได้

  • มูลค่ารวมของเมตริกที่ติดตาม (จำนวนผู้ใช้ที่ยังคงใช้งานอยู่ จำนวนผู้ใช้ที่พบข้อขัดข้อง รายได้รวม)
  • อัตราเฉพาะของเมตริก (อัตราการคงผู้ใช้ไว้ อัตรา Conversion รายได้ต่อผู้ใช้)
  • เปอร์เซ็นต์ความแตกต่าง (Lift) ระหว่างตัวแปรกับเกณฑ์พื้นฐาน

ข้อมูลการอนุมาน

  • CI 95% (ความแตกต่างของค่าเฉลี่ย) จะแสดงช่วงที่มีค่า "จริง" ของเมตริกที่ติดตามด้วยความเชื่อมั่น 95% ตัวอย่างเช่น หากผลการทดสอบแสดง CI 95% สำหรับรายได้รวมโดยประมาณระหว่าง 5 ถึง 10 ดอลลาร์สหรัฐ จะมีโอกาส 95% ที่ความแตกต่างของค่าเฉลี่ยที่แท้จริงจะอยู่ระหว่าง 5 ถึง 10 ดอลลาร์สหรัฐ หากช่วง CI มี 0 แสดงว่าระบบไม่พบความแตกต่างที่มีนัยสำคัญทางสถิติระหว่างตัวแปรกับเกณฑ์พื้นฐาน

    ค่าช่วงความเชื่อมั่นจะปรากฏในรูปแบบที่ตรงกับเมตริกที่ติดตาม เช่น เวลา (ในรูปแบบ HH:MM:SS) สำหรับการคงผู้ใช้ไว้ ดอลลาร์สหรัฐสำหรับรายได้จากโฆษณาต่อผู้ใช้ และเปอร์เซ็นต์สำหรับอัตรา Conversion

  • ค่า P-Value ซึ่งแสดงความน่าจะเป็นที่จะ สังเกตเห็นข้อมูลที่มีค่าสุดขั้วเท่ากับผลลัพธ์ที่ได้ในการทดสอบ โดยพิจารณาว่า ไม่มีความแตกต่างที่แท้จริงระหว่างตัวแปรกับเกณฑ์พื้นฐาน ค่า P-Value ยิ่งต่ำ ความเชื่อมั่นที่ประสิทธิภาพที่สังเกตได้จะยังคงเป็นจริงหากเราทำการทดสอบซ้ำก็จะยิ่งสูง ค่า 0.05 หรือต่ำกว่าบ่งชี้ถึงความแตกต่างที่มีนัยสำคัญและความน่าจะเป็นต่ำที่ผลลัพธ์จะเกิดขึ้นโดยบังเอิญ ค่า P-Value อิงตาม การทดสอบแบบด้านเดียว ซึ่งค่าตัวแปรมากกว่าค่าเกณฑ์พื้นฐาน Firebase ใช้ การทดสอบ t แบบความแปรปรวนไม่เท่ากัน สำหรับตัวแปรต่อเนื่อง (ค่าตัวเลข เช่น รายได้) และ การทดสอบ z ของสัดส่วน สำหรับข้อมูล Conversion (ค่าไบนารี เช่น การคงผู้ใช้ไว้ ผู้ใช้ที่ไม่มีข้อขัดข้อง ผู้ใช้ที่ทริกเกอร์เหตุการณ์ Google Analytics)

ผลการทดสอบให้ข้อมูลเชิงลึกที่สำคัญสำหรับตัวแปรการทดสอบแต่ละตัว ซึ่งรวมถึง

  • เมตริกการทดสอบแต่ละรายการสูงหรือต่ำกว่าเกณฑ์พื้นฐานเท่าใดเมื่อวัดโดยตรง (นั่นคือ ข้อมูลที่สังเกตได้จริง)
  • ความน่าจะเป็นที่ความแตกต่างที่สังเกตได้ระหว่างตัวแปรกับเกณฑ์พื้นฐานอาจเกิดขึ้นโดยบังเอิญ (ค่า P-Value)
  • ช่วงที่มีแนวโน้มที่จะมีความแตกต่างด้านประสิทธิภาพ "จริง" ระหว่างตัวแปรกับเกณฑ์พื้นฐานสำหรับเมตริกการทดสอบแต่ละรายการ ซึ่งเป็นวิธีทำความเข้าใจสถานการณ์ด้านประสิทธิภาพ "ดีที่สุด" และ "แย่ที่สุด"

แปลผลลัพธ์สำหรับการทดสอบที่ขับเคลื่อนโดย Google Optimize

Firebase A/B Testing ผลลัพธ์สำหรับการทดสอบที่เริ่มก่อนวันที่ 23 ตุลาคม 2023 ขับเคลื่อนโดย Google Optimize Google Optimize ใช้การอนุมานแบบเบย์เซียนเพื่อสร้างสถิติเชิงลึกจากข้อมูลการทดสอบ

ผลลัพธ์จะแบ่งออกเป็น "ข้อมูลที่สังเกตได้" และ "ข้อมูลโดยประมาณ" ข้อมูลที่สังเกตได้คำนวณมาจากข้อมูลวิเคราะห์โดยตรง และข้อมูลโดยประมาณได้มาจากการใช้แบบจำลองเบย์เซียนกับข้อมูลที่สังเกตได้

ระบบจะแสดงสถิติต่อไปนี้สำหรับแต่ละเมตริก

ค่าที่สังเกตได้

  • มูลค่ารวม (ผลรวมของเมตริกสำหรับผู้ใช้ทุกรายในตัวแปร)
  • ค่าเฉลี่ย (ค่าเฉลี่ยของเมตริกสำหรับผู้ใช้ในตัวแปร)
  • % ส่วนต่างจากเกณฑ์พื้นฐาน

ข้อมูลโดยประมาณ

  • ความน่าจะเป็นที่จะสูงกว่าเกณฑ์พื้นฐาน: ความน่าจะเป็นที่เมตริกจะสูงกว่าสำหรับตัวแปรนี้เมื่อเทียบกับเกณฑ์พื้นฐาน
  • เปอร์เซ็นต์ความแตกต่างจากเกณฑ์พื้นฐาน: อิงตามค่าประมาณแบบจำลองมัธยฐานของเมตริกสำหรับตัวแปรและเกณฑ์พื้นฐาน
  • ช่วงเมตริก: ช่วงที่มีแนวโน้มที่จะพบค่าของเมตริกมากที่สุด โดยมีความแน่นอน 50% และ 95%

โดยรวมแล้ว ผลการทดสอบจะให้ข้อมูลเชิงลึกที่สำคัญ 3 ประการสำหรับตัวแปรแต่ละตัวในการทดสอบ

  1. เมตริกการทดสอบแต่ละรายการสูงหรือต่ำกว่าเกณฑ์พื้นฐานเท่าใดเมื่อวัดโดยตรง (นั่นคือ ข้อมูลที่สังเกตได้จริง)
  2. ความ น่าจะเป็น ที่เมตริกการทดสอบแต่ละรายการจะสูงกว่าเกณฑ์พื้นฐาน / โดยรวมดีที่สุด โดยอิงตามการอนุมานแบบเบย์เซียน (ความน่าจะเป็นที่จะดีกว่า / ดีที่สุดตามลำดับ)
  3. ช่วงที่เป็นไปได้สำหรับเมตริกการทดสอบแต่ละรายการโดยอิงตามการอนุมานแบบเบย์เซียน ซึ่งเป็นสถานการณ์ "ดีที่สุด" และ "แย่ที่สุด" (ช่วงความน่าเชื่อถือ)

การพิจารณาตัวแปรที่ได้คะแนนนำ

สำหรับการทดสอบที่ใช้ การอนุมานความถี่, Firebase จะประกาศว่าตัวแปรทำได้เหนือกว่า หากพบว่าประสิทธิภาพของตัวแปรและโฆษณาฐานแตกต่างอย่างมีนัยสำคัญทางสถิติ เมื่อพิจารณาเมตริกเป้าหมาย หากมีตัวแปรหลายรายการทำได้ตามเกณฑ์ ตัวแปรที่ได้ค่า P-Value ต่ำสุดจะได้รับเลือก

สำหรับการทดสอบที่ใช้ Google Optimize, Firebase จะประกาศว่าตัวแปรเป็น "ตัวแปรที่ได้คะแนนนำอย่างชัดเจน" หากตัวแปรนั้นมีโอกาสมากกว่า 95% ที่จะทำได้ดีกว่าตัวแปรฐานในเมตริกหลัก หากมีตัวแปรหลายรายการทำได้ตามเกณฑ์ "ตัวแปรที่ได้คะแนนนำอย่างชัดเจน" ระบบจะติดป้ายกำกับตัวแปรที่มีประสิทธิภาพโดยรวมดีที่สุดเท่านั้นว่าเป็น "ตัวแปรที่ได้คะแนนนำอย่างชัดเจน"

เนื่องจากการพิจารณาตัวแปรที่ได้คะแนนนำจะอิงตามเป้าหมายหลักอย่างเดียว คุณควรพิจารณาปัจจัยทั้งหมดที่เกี่ยวข้องและดูผลเมตริกรองก่อนตัดสินใจว่าจะเปิดตัวตัวแปรที่ได้คะแนนนำหรือไม่ คุณอาจพิจารณาถึงผลลัพธ์ที่คาดหวังจากการเปลี่ยนแปลง ความเสี่ยงด้านลบ (เช่น ขอบเขตล่างของช่วงความเชื่อมั่นสำหรับการปรับปรุง) และผลกระทบต่อเมตริกอื่นๆ นอกเหนือจากเป้าหมายหลัก

ตัวอย่างเช่น หากเมตริกหลักคือผู้ใช้ที่ไม่มีข้อขัดข้อง และตัวแปร ก. ทำได้เหนือกว่าเกณฑ์พื้นฐานอย่างชัดเจน แต่เมตริกการคงผู้ใช้ไว้ของตัวแปร ก. ต่ำกว่าการคงผู้ใช้ไว้ของเกณฑ์พื้นฐาน คุณอาจต้องการตรวจสอบเพิ่มเติมก่อนที่จะเปิดตัวตัวแปร ก. ในวงกว้างมากขึ้น

คุณสามารถเปิดตัวตัวแปรใดก็ได้ ไม่ใช่แค่ตัวแปรที่ได้คะแนนนำ โดยอิงตามการประเมินประสิทธิภาพโดยรวมในเมตริกหลักและเมตริกรอง

ระยะเวลาการทดสอบ

Firebase แนะนำให้ดำเนินการทดสอบต่อไปจนกว่าจะเป็นไปตามเงื่อนไขต่อไปนี้

  1. การทดสอบได้รวบรวมข้อมูลเพียงพอที่จะให้ผลลัพธ์ที่เป็นประโยชน์ ระบบจะอัปเดตข้อมูลการทดสอบและผลลัพธ์วันละครั้ง คุณอาจใช้เครื่องคำนวณขนาดตัวอย่างออนไลน์เพื่อประเมินขนาดตัวอย่างที่แนะนำสำหรับการทดสอบ
  2. การทดสอบดำเนินการมานานพอที่จะให้ตัวอย่างซึ่งเป็นตัวแทนของทั้งหมดของผู้ใช้ของคุณและวัดประสิทธิภาพในระยะยาวได้ 2 สัปดาห์คือระยะเวลาการทำงานขั้นต่ำที่แนะนำสำหรับการทดสอบการกำหนดค่าระยะไกลทั่วไป

ระบบจะประมวลผลข้อมูลการทดสอบเป็นเวลาสูงสุด 90 วันหลังจากเริ่มการทดสอบ หลังจากผ่านไป 90 วัน ระบบจะหยุดการทดสอบโดยอัตโนมัติ ระบบจะไม่แสดงผลการทดสอบในคอนโซล Firebase และการทดสอบจะหยุดส่งค่าพารามิเตอร์เฉพาะการทดสอบ เมื่อถึงจุดนี้ ไคลเอ็นต์จะเริ่มดึงข้อมูลค่าพารามิเตอร์ตามเงื่อนไขที่ตั้งไว้ในเทมเพลต Remote Config ระบบจะเก็บข้อมูลการทดสอบในอดีตไว้จนกว่าคุณจะลบการทดสอบ

สคีมา BigQuery

นอกเหนือจากการดูข้อมูลการทดสอบ A/B Testing ใน Firebase คอนโซลแล้ว คุณยังตรวจสอบและวิเคราะห์ข้อมูลการทดสอบใน BigQuery ได้ด้วย แม้ว่า A/B Testing จะไม่มีตาราง BigQuery แยกต่างหาก แต่ระบบจะจัดเก็บการเป็นสมาชิกการทดสอบและตัวแปรไว้ในเหตุการณ์ Google Analytics ทุกเหตุการณ์ภายในตารางเหตุการณ์ Analytics

พร็อพเพอร์ตี้ผู้ใช้ที่มีข้อมูลการทดสอบจะมีรูปแบบ userProperty.key like "firebase_exp_%" หรือ userProperty.key = "firebase_exp_01" โดยที่ 01 คือรหัสการทดสอบ และ userProperty.value.string_value จะมีดัชนี (เริ่มต้นจาก 0) ของ ตัวแปรการทดสอบ

คุณสามารถใช้พร็อพเพอร์ตี้ผู้ใช้การทดสอบเหล่านี้เพื่อดึงข้อมูลการทดสอบ ซึ่งจะช่วยให้คุณแบ่งผลการทดสอบออกเป็นหลายวิธี และตรวจสอบผลการทดสอบ A/B Testingได้อย่างอิสระ

หากต้องการเริ่มต้นใช้งาน ให้ทำตามขั้นตอนต่อไปนี้ตามที่อธิบายไว้ในคู่มือนี้

  1. เปิดใช้ BigQuery การส่งออกสำหรับ Google Analytics ในคอนโซล Firebase
  2. เข้าถึงข้อมูลA/B Testing โดยใช้BigQuery
  3. สำรวจการค้นหาตัวอย่าง

เปิดใช้การส่งออก BigQuery สำหรับ Google Analytics ในคอนโซล Firebase

หากใช้แพ็กเกจ Spark คุณสามารถใช้ BigQueryแซนด์บ็อกซ์เพื่อ เข้าถึง BigQueryได้โดยไม่มีค่าใช้จ่าย โดยขึ้นอยู่กับ ขีดจำกัดของแซนด์บ็อกซ์ ดูข้อมูลเพิ่มเติมได้ที่ ราคาและแซนด์บ็อกซ์ BigQuery

ก่อนอื่น ให้ตรวจสอบว่าคุณได้ส่งออกข้อมูล Analytics ไปยัง BigQuery แล้ว โดยทำดังนี้

  1. ในคอนโซลFirebase ให้ไปที่ การตั้งค่า > แท็บการผสานรวม

  2. ในการ์ด BigQuery ให้คลิกจัดการ และตรวจสอบว่า โปรเจ็กต์ของคุณส่งออกข้อมูล Analytics ไปยัง BigQuery

    หากการ์ดระบุว่า Link แสดงว่าคุณต้องตั้งค่าการส่งออก (ทำตามขั้นตอนถัดไป )

  3. หากต้องการตั้งค่าการส่งออก ให้ทำดังนี้

    1. อ่านเกี่ยวกับการลิงก์ Firebase กับBigQuery แล้วคลิก ถัดไป

    2. ในส่วนกำหนดค่าการผสานรวม ให้เปิดใช้ Google Analytics

    3. เลือกภูมิภาคและเลือกการตั้งค่าการส่งออก

    4. คลิก ลิงก์กับ BigQuery

ตารางอาจใช้เวลาถึง 1 วันจึงจะพร้อมใช้งาน ทั้งนี้ขึ้นอยู่กับวิธีที่คุณเลือกส่งออกข้อมูล ดูข้อมูลเพิ่มเติมเกี่ยวกับการส่งออกข้อมูลโปรเจ็กต์ไปยัง BigQuery ได้ที่หัวข้อ ส่งออกข้อมูลโปรเจ็กต์ไปยัง BigQuery

เข้าถึงข้อมูล A/B Testing ใน BigQuery

ก่อนที่จะค้นหาข้อมูลสำหรับการทดสอบที่เฉพาะเจาะจง คุณจะต้องได้รับข้อมูลต่อไปนี้บางส่วนหรือทั้งหมดเพื่อใช้ในการค้นหา

  • รหัสการทดสอบ: คุณดูรหัสนี้ได้จาก URL ของหน้าภาพรวมการทดสอบ ตัวอย่างเช่น หาก URL มีลักษณะเป็น https://console.firebase.google.com/project/my_firebase_project/config/experiment/results/25 รหัสการทดสอบคือ 25
  • Google Analytics รหัสพร็อพเพอร์ตี้: นี่คือรหัสพร็อพเพอร์ตี้ 9 หลัก Google Analytics คุณดูรหัสนี้ได้ใน Google Analytics และรหัสนี้จะปรากฏใน BigQuery ด้วยเมื่อคุณขยาย ชื่อโปรเจ็กต์เพื่อแสดงชื่อตารางเหตุการณ์ Google Analytics (project_name.analytics_000000000.events)
  • วันที่ทดสอบ: แนวทางปฏิบัติแนะนำคือการจำกัดการค้นหาไว้ที่พาร์ติชันตารางเหตุการณ์รายวันของ Google Analytics ที่มีข้อมูลการทดสอบ ซึ่งเป็นตารางที่ระบุด้วยคำต่อท้าย YYYYMMDD เพื่อให้การค้นหาเร็วขึ้นและมีประสิทธิภาพมากขึ้นGoogle Analytics ดังนั้น หากการทดสอบดำเนินการตั้งแต่วันที่ 2 กุมภาพันธ์ 2024 ถึง 2 พฤษภาคม 2024 คุณจะต้องระบุ _TABLE_SUFFIX between '20240202' AND '20240502' ดูตัวอย่างได้ที่ หัวข้อเลือกค่าของการทดสอบที่เฉพาะเจาะจง
  • ชื่อเหตุการณ์: โดยปกติแล้ว ชื่อเหตุการณ์จะสอดคล้องกับ เมตริกเป้าหมาย ที่คุณกำหนดค่าไว้ในการทดสอบ เช่น เหตุการณ์ in_app_purchase เหตุการณ์ ad_impression หรือเหตุการณ์ user_retention

หลังจากรวบรวมข้อมูลที่จำเป็นในการสร้างการค้นหาแล้ว ให้ทำดังนี้

  1. ในคอนโซล Google Cloud ให้ไปที่ BigQuery
  2. เลือกโปรเจ็กต์ แล้วเลือกสร้างการค้นหา SQL
  3. เพิ่มการค้นหา ดูการค้นหาตัวอย่างที่จะเรียกใช้ได้ที่ หัวข้อสำรวจการค้นหาตัวอย่าง
  4. คลิกเรียกใช้

ค้นหาข้อมูลการทดสอบโดยใช้การค้นหาที่สร้างขึ้นโดยอัตโนมัติของคอนโซล Firebase

หากใช้แพ็กเกจ Blaze หน้าภาพรวมการทดสอบ จะมีการค้นหาตัวอย่างที่แสดงชื่อการทดสอบ ตัวแปร ชื่อเหตุการณ์ และจำนวนเหตุการณ์สำหรับการทดสอบที่คุณกำลังดู

วิธีรับและเรียกใช้การค้นหาที่สร้างขึ้นโดยอัตโนมัติ

  1. ในคอนโซลFirebase ให้ไปที่DevOps และการมีส่วนร่วม > การทดสอบ A/B
  2. เลือกการทดสอบ A/B Testing ที่ต้องการค้นหาเพื่อเปิด ภาพรวมการทดสอบ
  3. เลือก ค้นหาข้อมูลการทดสอบ จากเมนูตัวเลือกใต้BigQuery การผสานรวม ซึ่งจะเปิดโปรเจ็กต์ใน BigQuery ภายในคอนโซล Google Cloud และแสดงการค้นหาพื้นฐานที่คุณ ใช้เพื่อค้นหาข้อมูลการทดสอบได้

ตัวอย่างต่อไปนี้แสดงการค้นหาที่สร้างขึ้นสำหรับการทดสอบที่มีตัวแปร 3 ตัว (รวมถึงเกณฑ์พื้นฐาน) ชื่อ "การทดสอบต้อนรับฤดูหนาว" โดยจะแสดงชื่อการทดสอบที่ใช้งานอยู่ ชื่อตัวแปร เหตุการณ์ที่ไม่ซ้ำ และจำนวนเหตุการณ์สำหรับแต่ละเหตุการณ์ โปรดทราบว่าเครื่องมือสร้างการค้นหาจะไม่ระบุชื่อโปรเจ็กต์ในชื่อตาราง เนื่องจากเครื่องมือจะเปิดขึ้นภายในโปรเจ็กต์โดยตรง

  /*
    This query is auto-generated by Firebase A/B Testing for your
    experiment "Winter welcome experiment".
    It demonstrates how you can get event counts for all Analytics
    events logged by each variant of this experiment's population.
  */
  SELECT
    'Winter welcome experiment' AS experimentName,
    CASE userProperty.value.string_value
      WHEN '0' THEN 'Baseline'
      WHEN '1' THEN 'Welcome message (1)'
      WHEN '2' THEN 'Welcome message (2)'
      END AS experimentVariant,
    event_name AS eventName,
    COUNT(*) AS count
  FROM
    `analytics_000000000.events_*`,
    UNNEST(user_properties) AS userProperty
  WHERE
    (_TABLE_SUFFIX BETWEEN '20240202' AND '20240502')
    AND userProperty.key = 'firebase_exp_25'
  GROUP BY
    experimentVariant, eventName

ดูตัวอย่างการค้นหาเพิ่มเติมได้ที่หัวข้อ สำรวจการค้นหาตัวอย่าง

สำรวจการค้นหาตัวอย่าง

ส่วนต่อไปนี้แสดงตัวอย่างการค้นหาที่คุณใช้เพื่อดึงข้อมูลการทดสอบ A/B Testing จากตารางเหตุการณ์Google Analytics ได้

ดึงค่าเบี่ยงเบนมาตรฐานของการซื้อและการทดสอบจากการทดสอบทั้งหมด

คุณสามารถใช้ข้อมูลผลการทดสอบเพื่อตรวจสอบผลลัพธ์ Firebase A/B Testingได้อย่างอิสระ คำสั่ง SQL BigQuery ต่อไปนี้ จะดึงตัวแปรการทดสอบ จำนวนผู้ใช้ที่ไม่ซ้ำในตัวแปรแต่ละตัว และรวมรายได้ทั้งหมด จากเหตุการณ์ in_app_purchase และ ecommerce_purchase รวมถึงค่าเบี่ยงเบนมาตรฐาน สำหรับการทดสอบทั้งหมดภายในช่วงเวลาที่ระบุเป็นวันที่เริ่มต้น และวันที่สิ้นสุดของ _TABLE_SUFFIX คุณสามารถใช้ข้อมูลที่ได้รับจากการค้นหานี้ร่วมกับเครื่องมือสร้างนัยสำคัญทางสถิติสำหรับการทดสอบ t แบบด้านเดียวเพื่อยืนยันว่าผลลัพธ์ที่ Firebase แสดงนั้นตรงกับการวิเคราะห์ของคุณเอง

ดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีที่ A/B Testing คำนวณการอนุมานได้ที่หัวข้อ แปลผลการทดสอบ

  /*
    This query returns all experiment variants, number of unique users,
    the average USD spent per user, and the standard deviation for all
    experiments within the date range specified for _TABLE_SUFFIX.
  */
  SELECT
    experimentNumber,
    experimentVariant,
    COUNT(*) AS unique_users,
    AVG(usd_value) AS usd_value_per_user,
    STDDEV(usd_value) AS std_dev
  FROM
    (
      SELECT
        userProperty.key AS experimentNumber,
        userProperty.value.string_value AS experimentVariant,
        user_pseudo_id,
        SUM(
          CASE
            WHEN event_name IN ('in_app_purchase', 'ecommerce_purchase')
              THEN event_value_in_usd
            ELSE 0
            END) AS usd_value
      FROM `PROJECT_NAME.analytics_ANALYTICS_ID.events_*`
      CROSS JOIN UNNEST(user_properties) AS userProperty
      WHERE
        userProperty.key LIKE 'firebase_exp_%'
        AND event_name IN ('in_app_purchase', 'ecommerce_purchase')
        AND (_TABLE_SUFFIX BETWEEN 'YYYYMMDD' AND 'YYYMMDD')
      GROUP BY 1, 2, 3
    )
  GROUP BY 1, 2
  ORDER BY 1, 2;

เลือกค่าของการทดสอบที่เฉพาะเจาะจง

การค้นหาตัวอย่างต่อไปนี้แสดงวิธีรับข้อมูลสำหรับการทดสอบที่เฉพาะเจาะจง ใน BigQuery การค้นหาตัวอย่างนี้จะแสดงชื่อการทดสอบ ชื่อตัวแปร (รวมถึงเกณฑ์พื้นฐาน) ชื่อเหตุการณ์ และจำนวนเหตุการณ์

  SELECT
    'EXPERIMENT_NAME' AS experimentName,
    CASE userProperty.value.string_value
      WHEN '0' THEN 'Baseline'
      WHEN '1' THEN 'VARIANT_1_NAME'
      WHEN '2' THEN 'VARIANT_2_NAME'
      END AS experimentVariant,
    event_name AS eventName,
    COUNT(*) AS count
  FROM
    `analytics_ANALYTICS_PROPERTY.events_*`,
    UNNEST(user_properties) AS userProperty
  WHERE
    (_TABLE_SUFFIX BETWEEN 'YYYMMDD' AND 'YYYMMDD')
    AND userProperty.key = 'firebase_exp_EXPERIMENT_NUMBER'
  GROUP BY
    experimentVariant, eventName

จำกัดสูงสุด

A/B Testing จำกัดไว้ที่การทดสอบทั้งหมด 300 รายการ การทดสอบที่กำลังทำงานอยู่ 24 รายการ และการทดสอบฉบับร่าง 24 รายการ ขีดจำกัดเหล่านี้ใช้ร่วมกับการเปิดตัว Remote Config ตัวอย่างเช่น หากคุณมีการเปิดตัว 2 รายการที่กำลังทำงานอยู่และการทดสอบ 3 รายการที่กำลังทำงานอยู่ คุณจะมีการเปิดตัวหรือการทดสอบเพิ่มเติมได้สูงสุด 19 รายการ

  • หากคุณมีการทดสอบทั้งหมดครบ 300 รายการหรือมีการทดสอบฉบับร่างครบ 24 รายการ คุณต้องลบการทดสอบที่มีอยู่ก่อนจึงจะสร้างการทดสอบใหม่ได้

  • หากคุณมีการทดสอบที่กำลังทำงานอยู่และการเปิดตัวครบ 24 รายการ คุณต้องหยุดการทดสอบหรือการเปิดตัวที่กำลังทำงานอยู่ก่อนจึงจะเริ่มการทดสอบหรือการเปิดตัวใหม่ได้

การทดสอบมีตัวแปรได้สูงสุด 8 ตัว (รวมถึงเกณฑ์พื้นฐาน) และพารามิเตอร์สูงสุด 25 รายการสำหรับตัวแปรแต่ละตัว การทดสอบมีขนาดได้สูงสุดประมาณ 200 KiB ซึ่งรวมถึงชื่อตัวแปร พารามิเตอร์ตัวแปร และข้อมูลเมตาการกำหนดค่าอื่นๆ