ใครเป็นผู้รวบรวมข้อมูลขนาดใหญ่และทำไม

ในฤดูใบไม้ร่วงปี 2019 เรื่องอื้อฉาวปะทุขึ้นกับบริการ Apple Card: เมื่อลงทะเบียน จะมีการออกวงเงินเครดิตที่แตกต่างกันสำหรับชายและหญิง แม้แต่ Steve Wozniak ก็ยังโชคไม่ดี:

หนึ่งปีก่อนหน้านี้ มีการเปิดเผยว่าแพลตฟอร์ม Netflix แสดงโปสเตอร์และทีเซอร์ที่แตกต่างกันให้ผู้ใช้ โดยขึ้นอยู่กับเพศ อายุ และสัญชาติของผู้ใช้ ด้วยเหตุนี้บริการดังกล่าวจึงถูกกล่าวหาว่าเหยียดเชื้อชาติ

ประการสุดท้าย มาร์ก ซักเคอร์เบิร์กมักถูกตำหนิบ่อยครั้งจากข้อกล่าวหาว่ารวบรวม ขาย และจัดการข้อมูลของผู้ใช้โดย Facebook ในช่วงหลายปีที่ผ่านมา เขาถูกกล่าวหาและแม้แต่พยายามบิดเบือนในระหว่างการเลือกตั้งของอเมริกา ช่วยเหลือหน่วยบริการพิเศษของรัสเซีย ยุยงให้เกิดความเกลียดชังและมุมมองที่ต่างไปจากเดิมอย่างสิ้นเชิง การโฆษณาที่ไม่เหมาะสม การรั่วไหลของข้อมูลผู้ใช้

โพสต์เฟซบุ๊กโดย zuck

ในเวลาเดียวกัน บริการออนไลน์ของ Pornhub เผยแพร่รายงานเป็นประจำทุกปีเกี่ยวกับประเภทของสื่อลามกที่คนจากเชื้อชาติ เพศ และอายุต่างๆ กำลังมองหา และด้วยเหตุผลบางอย่างสิ่งนี้ไม่ได้รบกวนใครเลย แม้ว่าเรื่องราวทั้งหมดเหล่านี้จะคล้ายกัน แต่ในแต่ละเรื่องราวเรากำลังจัดการกับข้อมูลขนาดใหญ่ ซึ่งในศตวรรษที่ XNUMX เรียกว่า "น้ำมันใหม่"

ข้อมูลขนาดใหญ่คืออะไร

ข้อมูลขนาดใหญ่ - พวกเขายังเป็นข้อมูลขนาดใหญ่ (อังกฤษ ข้อมูลขนาดใหญ่) หรือข้อมูลเมตา - เป็นอาร์เรย์ของข้อมูลที่มาถึงอย่างสม่ำเสมอและในปริมาณมาก รวบรวม ประมวลผล และวิเคราะห์ เกิดเป็นโมเดลและรูปแบบที่ชัดเจน

ตัวอย่างที่เด่นชัดคือข้อมูลจาก Large Hadron Collider ซึ่งเข้ามาอย่างต่อเนื่องและในปริมาณมาก ด้วยความช่วยเหลือของพวกเขา นักวิทยาศาสตร์แก้ปัญหามากมาย

แต่ข้อมูลขนาดใหญ่บนเว็บไม่ได้เป็นเพียงสถิติสำหรับการวิจัยทางวิทยาศาสตร์เท่านั้น สามารถใช้เพื่อติดตามพฤติกรรมของผู้ใช้ในกลุ่มและสัญชาติต่างๆ สิ่งที่พวกเขาให้ความสนใจ และวิธีที่พวกเขามีปฏิสัมพันธ์กับเนื้อหา บางครั้ง ข้อมูลไม่ได้ถูกรวบรวมจากแหล่งเดียว แต่จากหลายแหล่ง เพื่อเปรียบเทียบและระบุรูปแบบบางอย่าง

เกี่ยวกับความสำคัญของข้อมูลขนาดใหญ่บนเครือข่าย พวกเขาเริ่มพูดคุยกันเมื่อมีข้อมูลจำนวนมากจริงๆ ในช่วงต้นปี 2020 มีผู้ใช้อินเทอร์เน็ต 4,5 พันล้านคนในโลก โดย 3,8 พันล้านคนลงทะเบียนในโซเชียลเน็ตเวิร์ก

ใครบ้างที่สามารถเข้าถึง Big Data

จากการสำรวจ ประเทศของเรามากกว่าครึ่งเชื่อว่าข้อมูลของพวกเขาบนเครือข่ายนั้นถูกใช้โดยบุคคลที่สาม ในขณะเดียวกัน หลายๆ คนก็โพสต์ข้อมูลส่วนบุคคล รูปถ่าย หรือแม้แต่หมายเลขโทรศัพท์บนโซเชียลเน็ตเวิร์กและแอปพลิเคชันต่างๆ

จำเป็นต้องอธิบายที่นี่: คนแรกคือผู้ใช้เองซึ่งวางข้อมูลไว้ในทรัพยากรหรือแอปพลิเคชันใดๆ ในเวลาเดียวกันเขาตกลง (ทำเครื่องหมายในข้อตกลง) เพื่อประมวลผลข้อมูลนี้ บุคคลที่สอง – นั่นคือเจ้าของทรัพยากร. บุคคลที่สามคือบุคคลที่เจ้าของทรัพยากรสามารถโอนหรือขายข้อมูลผู้ใช้ให้. บ่อยครั้งสิ่งนี้เขียนไว้ในข้อตกลงผู้ใช้ แต่ก็ไม่เสมอไป

บุคคลที่สามคือหน่วยงานรัฐบาล แฮ็กเกอร์ หรือบริษัทที่ซื้อข้อมูลเพื่อวัตถุประสงค์ทางการค้า อดีตสามารถรับข้อมูลได้จากการตัดสินใจของศาลหรือหน่วยงานที่มีอำนาจสูงกว่า แน่นอนว่าแฮ็กเกอร์ไม่ได้ใช้การอนุญาตใด ๆ พวกเขาแค่เจาะฐานข้อมูลที่จัดเก็บไว้ในเซิร์ฟเวอร์ บริษัท (ตามกฎหมาย) จะเข้าถึงข้อมูลได้ก็ต่อเมื่อคุณอนุญาตเท่านั้น โดยทำเครื่องหมายที่ช่องใต้ข้อตกลง มิฉะนั้นจะผิดกฎหมาย

ทำไมบริษัทต่างๆ ถึงใช้ Big Data?

มีการใช้ข้อมูลขนาดใหญ่ในเชิงพาณิชย์มานานหลายทศวรรษ เพียงแต่ไม่เข้มข้นเท่าตอนนี้ ตัวอย่างเช่น บันทึกจากกล้องวงจรปิด ข้อมูลจากเครื่องนำทาง GPS หรือการชำระเงินออนไลน์ ปัจจุบัน ด้วยการพัฒนาของโซเชียลเน็ตเวิร์ก บริการออนไลน์ และแอปพลิเคชัน ทั้งหมดนี้สามารถเชื่อมต่อกันและได้ภาพที่สมบูรณ์ที่สุด: ผู้มีโอกาสเป็นลูกค้าอาศัยอยู่ที่ไหน ชอบดูอะไร ไปเที่ยวพักผ่อนที่ไหน และมีรถยี่ห้ออะไร

จากตัวอย่างข้างต้น เป็นที่ชัดเจนว่าด้วยความช่วยเหลือของข้อมูลขนาดใหญ่ อันดับแรก บริษัทต่างๆ ต้องการกำหนดเป้าหมายโฆษณา นั่นคือ เพื่อเสนอผลิตภัณฑ์ บริการ หรือตัวเลือกเฉพาะให้กับผู้ชมที่เหมาะสมเท่านั้น และแม้แต่ปรับแต่งผลิตภัณฑ์สำหรับผู้ใช้เฉพาะราย นอกจากนี้ การโฆษณาบน Facebook และแพลตฟอร์มขนาดใหญ่อื่น ๆ ก็มีราคาแพงขึ้นเรื่อย ๆ และการแสดงให้ทุกคนเห็นติดต่อกันนั้นไม่ได้ผลกำไรเลย

ข้อมูลเกี่ยวกับผู้มีโอกาสเป็นลูกค้าจากโอเพ่นซอร์สถูกใช้อย่างแข็งขันโดยบริษัทประกันภัย คลินิกเอกชน และนายจ้าง ตัวอย่างเช่น เงื่อนไขเดิมสามารถเปลี่ยนเงื่อนไขการประกันได้หากพวกเขาเห็นว่าคุณมักจะมองหาข้อมูลเกี่ยวกับโรคหรือยาบางชนิด และนายจ้างสามารถประเมินได้ว่าคุณมีแนวโน้มที่จะเกิดความขัดแย้งและพฤติกรรมต่อต้านสังคมหรือไม่

แต่มีภารกิจสำคัญอีกอย่างหนึ่งที่ต้องดิ้นรนในช่วงไม่กี่ปีที่ผ่านมา นั่นคือการเข้าใกล้ผู้ชมที่เป็นตัวทำละลายมากที่สุด การดำเนินการนี้ไม่ใช่เรื่องง่าย แม้ว่างานจะได้รับการอำนวยความสะดวกอย่างมากด้วยบริการชำระเงินและเช็คอิเล็กทรอนิกส์ผ่าน OFD (ตัวดำเนินการข้อมูลทางการเงิน) เพียงตัวเดียว เพื่อให้เข้าใกล้ที่สุดเท่าที่จะเป็นไปได้ บริษัทต่างๆ พยายามติดตามและ "เลี้ยงดู" ผู้มีโอกาสเป็นลูกค้าตั้งแต่วัยเด็ก: ผ่านเกมออนไลน์ ของเล่นโต้ตอบ และบริการด้านการศึกษา

มันทำงานอย่างไร?

โอกาสที่ใหญ่ที่สุดสำหรับการรวบรวมข้อมูลมาจากบริษัทระดับโลกที่เป็นเจ้าของบริการหลายอย่างพร้อมกัน ปัจจุบัน Facebook มีผู้ใช้งานมากกว่า 2,5 ล้านคน ในขณะเดียวกัน บริษัทยังเป็นเจ้าของบริการอื่นๆ: Instagram – มากกว่า 1 พันล้าน WhatsApp – มากกว่า 2 พันล้าน และอื่นๆ

แต่ Google มีอิทธิพลมากกว่านั้น Gmail ถูกใช้โดย 1,5 พันล้านคนในโลก อีก 2,5 พันล้านคนใช้ระบบปฏิบัติการมือถือ Android และมากกว่า 2 พันล้านคนโดย YouTube และนั่นไม่นับรวมการค้นหาของ Google และแอป Google Maps, Google Play Store และเบราว์เซอร์ Chrome ยังคงต้องผูกมัดธนาคารออนไลน์ของคุณ – และ Google จะสามารถรู้ทุกอย่างเกี่ยวกับคุณได้อย่างแท้จริง อย่างไรก็ตามยานเดกซ์ได้ก้าวไปข้างหน้าในเรื่องนี้แล้ว แต่ครอบคลุมเฉพาะผู้ชมที่พูดภาษารัสเซียเท่านั้น

???? ประการแรก บริษัทต่าง ๆ สนใจในสิ่งที่เราโพสต์และชอบบนโซเชียลเน็ตเวิร์ก ตัวอย่างเช่น หากธนาคารเห็นว่าคุณแต่งงานแล้วและกำลังชอบผู้หญิงบน Instagram หรือ Tinder คุณก็มีแนวโน้มที่จะอนุมัติสินเชื่อผู้บริโภค และภาระจำนองของครอบครัวก็หมดลง

สิ่งสำคัญคือคุณคลิกโฆษณาใด บ่อยแค่ไหน และผลลัพธ์เป็นอย่างไร

(IE ขั้นตอนต่อไปคือข้อความส่วนตัว: มีข้อมูลมากขึ้น ข้อความรั่วไหลบน VKontakte, Facebook, WhatsApp และผู้ส่งข้อความโต้ตอบแบบทันทีอื่น ๆ ตามที่พวกเขากล่าวไว้มันเป็นเรื่องง่ายที่จะติดตามตำแหน่งทางภูมิศาสตร์ ณ เวลาที่ส่งข้อความ แน่นอนคุณสังเกตเห็น: เมื่อคุณพูดคุยเกี่ยวกับการซื้อบางอย่างหรือเพียงแค่สั่งพิซซ่ากับใครบางคน โฆษณาที่เกี่ยวข้องจะปรากฏขึ้นทันทีในฟีด

🚕 ข้อมูลขนาดใหญ่ถูกใช้อย่างแข็งขันและ "รั่วไหล" โดยบริการจัดส่งและแท็กซี่ พวกเขารู้ว่าคุณอาศัยอยู่ที่ไหนและทำงานอะไร คุณรักอะไร รายได้โดยประมาณของคุณเป็นอย่างไร ตัวอย่างเช่น Uber แสดงราคาที่สูงขึ้นหากคุณกำลังขับรถกลับบ้านจากบาร์และเห็นได้ชัดเจน และเมื่อคุณมีเครื่องมือรวบรวมอื่น ๆ มากมายบนโทรศัพท์ของคุณ ในทางกลับกัน พวกเขาจะเสนอตัวที่ถูกกว่า

(IE มีบริการที่ใช้ภาพถ่ายและวิดีโอเพื่อรวบรวมข้อมูลให้ได้มากที่สุด ตัวอย่างเช่น ห้องสมุดคอมพิวเตอร์วิทัศน์ Google มีหนึ่งแห่ง พวกเขาสแกนตัวคุณและสภาพแวดล้อมเพื่อดูว่าคุณมีขนาดหรือส่วนสูงเท่าไร สวมเสื้อผ้ายี่ห้ออะไร ขับรถอะไร มีเด็กหรือสัตว์เลี้ยงอยู่ด้วยหรือไม่

(IE ผู้ที่ให้เกตเวย์ SMS ไปยังธนาคารสำหรับการส่งจดหมายสามารถติดตามการซื้อของคุณบนบัตรได้ – รู้เลข 4 ตัวท้ายและหมายเลขโทรศัพท์ – แล้วขายข้อมูลนี้ให้คนอื่น ดังนั้นสแปมทั้งหมดนี้พร้อมส่วนลดและพิซซ่าเป็นของขวัญ

🙋️️ สุดท้าย ตัวเราเองทำให้ข้อมูลของเรารั่วไหลไปยังบริการและแอปพลิเคชันด้านซ้าย โปรดจำไว้ว่าโฆษณา Getcontact เมื่อทุกคนยินดีที่จะกรอกหมายเลขโทรศัพท์ของตนเพื่อดูว่าคนอื่นเขียนได้อย่างไร และตอนนี้ค้นหาข้อตกลงของพวกเขาและอ่านสิ่งที่ระบุเกี่ยวกับการถ่ายโอนข้อมูลของคุณ (สปอยเลอร์: เจ้าของสามารถถ่ายโอนไปยังบุคคลที่สามตามดุลยพินิจของพวกเขา):

บริษัทต่างๆ สามารถรวบรวมและขายข้อมูลผู้ใช้ได้สำเร็จเป็นเวลาหลายปี จนกว่าจะมีการฟ้องร้อง เช่นเดียวกับที่เกิดกับ Facebook เหมือนกัน จากนั้นจึงมีบทบาทชี้ขาดโดยบริษัทละเมิด GDPR ซึ่งเป็นกฎหมายในสหภาพยุโรปที่จำกัดการใช้ข้อมูลอย่างเข้มงวดกว่าของอเมริกา อีกตัวอย่างล่าสุดคือเรื่องอื้อฉาวเกี่ยวกับโปรแกรมป้องกันไวรัสของ Avast: หนึ่งในบริการย่อยของบริษัทที่รวบรวมและขายข้อมูลจากผู้ใช้ 100 ถึง 400 ล้านคน

แต่ทั้งหมดนี้มีข้อดีสำหรับเราหรือไม่?

ข้อมูลขนาดใหญ่ช่วยพวกเราทุกคนได้อย่างไร?

ใช่ มีด้านสว่างด้วย

ข้อมูลขนาดใหญ่ช่วยจับอาชญากรและป้องกันการโจมตีของผู้ก่อการร้าย ค้นหาเด็กที่หายไป และปกป้องพวกเขาจากอันตราย

ด้วยความช่วยเหลือของพวกเขา เรา เราได้รับข้อเสนอพิเศษจากธนาคารและส่วนลดส่วนบุคคล. ขอบคุณพวกเขาเรา เราไม่จ่ายค่าบริการและโซเชียลเน็ตเวิร์กจำนวนมากที่ได้รับจากการโฆษณาเท่านั้น. มิฉะนั้น Instagram เพียงอย่างเดียวจะทำให้เราเสียค่าใช้จ่ายหลายพันดอลลาร์ต่อเดือน

Facebook เพียงอย่างเดียวมีผู้ใช้งาน 2,4 พันล้านคน ในขณะเดียวกัน กำไรของพวกเขาในปี 2019 อยู่ที่ 18,5 พันล้านดอลลาร์ ปรากฎว่าบริษัทมีรายได้สูงถึง 7,7 ดอลลาร์ต่อปีจากผู้ใช้แต่ละคนผ่านการโฆษณา

สุดท้าย บางครั้งก็สะดวก: เมื่อบริการรู้แล้วว่าคุณอยู่ที่ไหนและต้องการอะไร และคุณไม่ต้องค้นหาข้อมูลที่ต้องการด้วยตัวเอง

อีกด้านที่มีแนวโน้มสำหรับการประยุกต์ใช้ Big Data คือการศึกษา

ในมหาวิทยาลัยแห่งหนึ่งของอเมริกาในรัฐเวอร์จิเนีย มีการศึกษาเพื่อรวบรวมข้อมูลเกี่ยวกับนักเรียนที่เป็นกลุ่มเสี่ยง คือพวกที่เรียนไม่ดี ขาดเรียน และกำลังจะออกกลางคัน ความจริงก็คือในรัฐทุกปีมีคนหักเงินประมาณ 400 คน สิ่งนี้ไม่ดีทั้งกับมหาวิทยาลัยซึ่งถูกลดอันดับและถูกตัดเงินทุน และสำหรับตัวนักเรียนเอง: หลายคนกู้ยืมเงินเพื่อการศึกษา ซึ่งหลังจากหักเงินแล้วก็ยังจะต้องชำระคืน ไม่ต้องพูดถึงเวลาที่เสียไปและโอกาสในการทำงาน ด้วยความช่วยเหลือของข้อมูลขนาดใหญ่ ทำให้สามารถระบุผู้ที่ล้าหลังได้ทันเวลาและเสนอครูสอนพิเศษ ชั้นเรียนเพิ่มเติม และความช่วยเหลือที่ตรงเป้าหมายอื่นๆ

นอกจากนี้ยังเหมาะสำหรับโรงเรียน: จากนั้นระบบจะแจ้งให้ครูและผู้ปกครองทราบ - พวกเขาบอกว่าเด็กมีปัญหามาช่วยเขาด้วยกันเถอะ ข้อมูลขนาดใหญ่จะช่วยให้คุณเข้าใจว่าตำราเล่มใดทำงานได้ดีกว่าและครูผู้สอนรายใดอธิบายเนื้อหาได้ง่ายขึ้น

อีกตัวอย่างที่ดีคือการทำประวัติอาชีพ: เป็นช่วงที่วัยรุ่นได้รับการช่วยเหลือในการตัดสินใจเลือกอาชีพในอนาคต ที่นี่ ข้อมูลขนาดใหญ่ช่วยให้คุณสามารถรวบรวมข้อมูลที่ไม่สามารถได้รับจากการทดสอบแบบดั้งเดิม: พฤติกรรมของผู้ใช้ สิ่งที่เขาให้ความสนใจ วิธีที่เขาโต้ตอบกับเนื้อหา

ในสหรัฐอเมริกามีโครงการแนะแนวอาชีพ – SC ACCELERATE เหนือสิ่งอื่นใด ใช้เทคโนโลยี CareerChoice GPS: วิเคราะห์ข้อมูลเกี่ยวกับธรรมชาติของนักเรียน ความโน้มเอียงต่อวิชา จุดแข็งและจุดอ่อน จากนั้นข้อมูลจะถูกใช้เพื่อช่วยให้วัยรุ่นเลือกวิทยาลัยที่เหมาะสมสำหรับพวกเขา

สมัครสมาชิกและติดตามเราบน Yandex.Zen — เทคโนโลยี นวัตกรรม เศรษฐกิจ การศึกษา และการแบ่งปันในช่องทางเดียว

เขียนความเห็น