Tờ tạp chí "Das Magazin" của Thụy sĩ  xuất bản bằng tiếng Đức một cuộc điều tra về cách thức mà các nhà khoa học về dữ liệu (data scientist) kết hợp các công ty phân tích dữ liệu lớn (data analytics) sử dụng công nghệ quảng cáo tùy biến theo cá nhân trên Facebook gây ảnh hưởng đến cuộc bầu cử tổng thống Hoa Kỳ. Nhiều nhà báo trên thế giới đã gọi bài báo điều tra này là “text of the year” (bài viết của năm) về tác dụng của bigdata vào đời sống trong đó chúng ta có thể thấy các công nghệ mới nhất về dữ liệu lớn (Big Data), khoa học hành vi, và các phần mềm gián điệp đang len lỏi vàođời sống hàng ngày của mỗi người chúng ta. Phần lớn bài biết dưới đây rút ra từ bài báo: “Ich habe nur gezeigt, dass es die Bombe gibt” đăng ngày 3 tháng 12 năm 2016 trên Das Magazin.

Ngày 9 tháng 11 năm 2016, theo như Das Magazin thì một quả bom đã phát nổ: Donald Trump đã được bầu làm tổng thống Mỹ, bất chấp dự báo của các nhà xã hội học.

Cũng ngày hôm đó, một công ty nhỏ chưa ai nghe tên ở London đã gửi đi thông cáo báo chí: “chúng tôi lấy làm kinh ngạc vì phương pháp truyền thông dựa trên dữ liệu có tính cách mạng của mình đã góp phần đáng kế vào chiến thắng của Donald Trump”. Thông cáo được ký bởi một người tên là Alexander Nix, 41 tuổi, người Anh và lãnh đạo công ty Cambridge Analytica. Phương pháp cách mạng về truyền thông dựa trên dữ liệu (revolutionary approach to data-driven communications)  này sử dụng kết quả công trình nghiên cứu của một nhà khoa học 34 tuổi tên là Michal Kosinski, chuyên gia hàng đầu trong lĩnh vực psychometrics – ngành tâm lý học dựa trên phân tích dữ liệu.

{keywords} 

Từ dữ liệu (data) đến  phân tích dữ liệu (data analytics) và dữ liệu lớn (Big Data) thành những từ thời thượng (buzzword) nhưng Big Data nguy hiểm đến mức nào?

Dữ liệu lớn là một thuật ngữ dựa trên một khái niệm rằng tất cả những gì ta làm, trên mạng hay offline, đều để lại dấu vết số. Mua hàng bằng thẻ tín dụng, tìm đường trên Google, dạo chơi với điện thoại trong túi, dùng thiết bị đeo (wearable device) để theo dõi sức khỏe, mức độ tập luyện đến việc nhấn like trên mạng xã hội: tất cả đều được lưu lại dưới dạng những dữ liệu và dữ liệu này rất lớn, khổng lồ theo thời gian. Một thời gian dài không ai hình dung có thể sử dụng các dữ liệu ấy làm gì. Cũng không ai biết Big Data sẽ là gì đối với nhân loại, hiểm họa lớn hay thành tựu vĩ đại? Nhưng từ 9/11 chúng ta đã biết câu trả lời. Đằng sau chiến dịch tranh cử của Trump trên mạng, và đằng sau chiến dịch ủng hộ Brexit là cùng một công ty chuyên nghiên cứu Big Data: Cambridge Analytica (CA) dưới sự lãnh đạo của  giám đốc AlexanderNix. Tuy nhiên, dữ liệu chỉ là dữ liệu nếu nó không được phân tích và được mô hình hóa. Có rất nhiều mô hình để phân tích dữ liệu nhưng công ty CA đã sử dụng phương pháp đo nhân cách (psychometrics), đôi khi gọi là đồ hình nhân cách (psychography) do Michal Kosinski,nhà khoa học hàng đầu về dữ liệu và là phó giám đốc Trung tâm đo nhân cách (Psychometrics Centre) thuộc trường Đại học Cambridge.

Trong tâm lý học hiện đại, để đo nhân cách thì phổ biến nhất là dùng phương pháp OCEAN (từ chữ cái đầu của 5 chiều đo). Vào những năm 1980, các nhà tâm lý học đã chứng minh là mỗi người có thể được đo bằng 5 chiều. Đó là Big Five: độ mở đối với trải nghiệm (Openness), sự ý thức (Conscientiousness), sự hướng ngoại (Extraversion), sự dễ chịu (Agreeableness) và sự nhạy cảm (Neuroticism).  Trên cơ sở những số đo ấy có thể hiểu chính xác bạn là ai, bạn có mong muốn và nỗi sợ hãi nào, và bạn sẽ hành xử như thế nào. Trở ngại chính là việc thu thập dữ liệu vì để hiểu được một người, cần phải điền bảng hỏi khổng lồ và cần thu thập dữ liệu rất lớn. Sự phát triển của khoa học dữ liệu và dữ liệu lớn đã góp phần giải quyết thành công những trở ngại mà phương pháp OCEAN đặt ra.

Tại Trung tâm đo nhân cách, Kosinski và các cộng sự đã phát triển một ứng dụng trên facebook là MyPersonality trong đó người dùng trả lời các bảng các câu hỏi để biết nhân cách của mình và họ đã thu thập được dữ liệu của hàng triệu người dùng Facebook.

Kosinski và nhóm nghiên cứu các hành động của họ trên Facebook như like và re-post, và giới tính, độ tuổi và nơi ở. Qua đó nhóm thu được các mối tương quan (correlation). Từ kỹ thuật phân tích các dữ liệu trên mạng có thể cho ra những kết luận bất ngờ. Ví dụ, nếu một người đàn ông là fan của page mỹ phẩm MAC, thì khả năng lớn là đồng tính; Ngược lại, anh ta rất nam tính nếu là fan của ban nhạc hip hop Wu-Tang Clan ở New York. Fan của Lady Gaga khả năng lớn là người hướng ngoại, còn kẻ hay like các post mang tính triết lý thì hướng nội.

{keywords}

Công ty Cambridge Analytica đã phát triển một giải pháp toàn diện cho phép biết tính cách của mỗi công dân Mỹ, những người có quyền bỏ phiếu.

Công trình nghiên cứu của Kosinski không chỉ cho phép lập chân dung tâm lý của người dùng, mà còn cho phép tìm kiếm những người có chân dung cần thiết. Ví dụ như có thể tìm những ông bố lo lắng, những kẻ hướng nội giận dữ, hay những người ngả theo đảng Dân chủ nhưng còn lưỡng lự bỏ phiếu. Về bản chất, đó là hệ thống tìm kiếm con người với những đặc tính cần tìm hiểu.

Vào năm 2014, một công ty quan tâm đến phương pháp của Kosinski đề nghị thực hiện một dự án  sử dụng psychometrics để phân tích 10 triệu người dùng Mỹ trên Facebook nhưng phân tích người dùng làm gì và tên công ty thì không nói viện cớ bảo mật thông tin. Lúc đầu Kosinski đồng ý nhưng rồi anh lại trì hoãn. Cuối cùng, tên công ty được tiết lộ là SCL (Strategic Communications Laboratories). Và trên website của công ty giới thiệu:  “chúng tôi là công ty toàn cầu chuyên về quản lý các chiến dịch tranh cử”. Công ty SCL này là công ty mẹ của công ty Cambridge Analytica, công ty thực hiện chiến dịch online cho Brexit và Trump.

Tháng 11 năm 2015 lãnh tụ phái cấp tiến ủng hộ Brexit Nigel Farage tuyên bố là website của của ông ta bắt đầu làm việc với một công ty chuyên về Big Data, chính là CA. Năng lực cốt lõi của công ty này là tiếp thị chính trị (political marketing) kiểu mới, còn được gọi là microtargeting, trên nền tảng phương pháp OCEAN.

(Còn nữa)

  • Đào Trung Thành

Kỳ II: Big Data nguy hiểm tới mức nào?