Twitter là gì? Các bài báo nghiên cứu khoa học liên quan

Twitter là nền tảng mạng xã hội vi mô cho phép người dùng đăng tải và tương tác với các nội dung ngắn gọi là tweet, giới hạn tối đa 280 ký tự. Với thiết kế thời gian thực và công khai, Twitter hoạt động như một hệ thống phân phối thông tin toàn cầu, phản ánh nhanh các xu hướng và dư luận.

Định nghĩa Twitter

Twitter là một nền tảng truyền thông xã hội thuộc thể loại microblogging, cho phép người dùng đăng tải nội dung ngắn được gọi là tweet. Mỗi tweet ban đầu giới hạn trong 140 ký tự, sau nâng lên 280 ký tự, tập trung vào việc truyền đạt thông tin nhanh, gọn và tức thời. Người dùng có thể đính kèm hình ảnh, video, liên kết và thăm dò ý kiến trong mỗi tweet để tăng tương tác và truyền đạt đa phương tiện.

Twitter không chỉ là một mạng xã hội đơn thuần mà còn là công cụ phân phối thông tin quy mô toàn cầu. Từ người dùng cá nhân, nhà báo, đến tổ chức chính phủ và doanh nghiệp đều sử dụng Twitter để cập nhật và phản hồi thông tin theo thời gian thực. Sự ngắn gọn và công khai của nội dung tạo điều kiện cho Twitter trở thành nền tảng định hình dư luận và lan truyền xu hướng rất hiệu quả.

Các thành phần chính trong một tweet bao gồm:

  • Nội dung văn bản (tối đa 280 ký tự)
  • Hình ảnh/video (tối đa 4 ảnh hoặc 1 video)
  • Hashtag (#) để phân loại nội dung theo chủ đề
  • Mentions (@username) để nhắc đến người dùng khác

Lịch sử phát triển và cấu trúc sở hữu

Twitter được tạo ra vào tháng 3 năm 2006 bởi Jack Dorsey, Noah Glass, Biz Stone và Evan Williams như một sản phẩm phụ của công ty podcast Odeo. Đến tháng 7 cùng năm, nền tảng được phát hành công khai. Với thiết kế đơn giản và tính năng cập nhật theo thời gian thực, Twitter nhanh chóng trở nên phổ biến toàn cầu, đặc biệt trong các sự kiện chính trị, thể thao và thảm họa thiên nhiên.

Năm 2013, Twitter chính thức niêm yết trên sàn giao dịch chứng khoán New York với mã TWTR. Đến năm 2022, Elon Musk – CEO của Tesla và SpaceX – hoàn tất thương vụ mua lại Twitter với giá trị khoảng 44 tỷ USD, chuyển công ty từ công ty đại chúng sang công ty tư nhân. Từ đó, nhiều thay đổi lớn về cấu trúc tổ chức, chính sách nội dung và chiến lược sản phẩm đã diễn ra.

Bảng tóm tắt các mốc phát triển quan trọng:

NămSự kiện
2006Ra mắt phiên bản beta công khai
2010Vượt mốc 50 triệu tweet mỗi ngày
2013Niêm yết cổ phiếu trên sàn NYSE
2022Elon Musk mua lại và tư nhân hóa

Thông tin tài chính và hồ sơ pháp lý của Twitter có thể được tra cứu tại U.S. SEC - Twitter Filings.

Nguyên lý hoạt động và kiến trúc công nghệ

Twitter vận hành dựa trên kiến trúc phân tán quy mô lớn để xử lý hàng trăm triệu tweet và lượt tương tác mỗi ngày. Các tweet được lưu trữ, truy xuất và phân phối theo dòng thời gian cá nhân hóa bằng một hệ thống backend sử dụng kiến trúc microservices, giao tiếp qua hàng đợi sự kiện như Apache Kafka, và lưu trữ trên cơ sở dữ liệu phân tán như MySQL, Redis, và Manhattan – một hệ thống key-value store được Twitter phát triển riêng.

Phần frontend của Twitter sử dụng React để hiển thị giao diện người dùng. Các luồng xử lý chính như tweet ingestion, timeline construction, notification delivery đều được tối ưu hóa để hoạt động trong thời gian thực, với độ trễ dưới vài trăm mili-giây. Hệ thống còn tích hợp nhiều mô hình học máy phục vụ xếp hạng nội dung, lọc spam và đề xuất tài khoản hoặc chủ đề.

Các công nghệ chính được sử dụng trong Twitter gồm:

  • Frontend: React, GraphQL
  • Backend: Scala, Java, Finagle (RPC)
  • Streaming: Apache Kafka, EventBus
  • Lưu trữ: MySQL, Redis, Manhattan

Chi tiết về kiến trúc có thể tìm hiểu thêm tại Twitter Engineering Blog.

Đặc điểm nội dung và hành vi người dùng

Nội dung trên Twitter có tính chất ngắn gọn, phản xạ nhanh và định hướng theo sự kiện. Người dùng có thể đăng bài (tweet), chia sẻ lại (retweet), trích dẫn (quote tweet), thả tim (like) và trả lời (reply). Nội dung thường sử dụng hashtag để kết nối thành luồng chủ đề, giúp dễ theo dõi các xu hướng, phong trào hoặc chiến dịch xã hội.

Hành vi người dùng trên Twitter được đặc trưng bởi mô hình quyền lực: phần lớn tương tác và nội dung phổ biến xuất phát từ một tỷ lệ nhỏ tài khoản có sức ảnh hưởng cao. Đây là cơ sở để hình thành các “trung tâm truyền thông” không chính thức như các KOL, nhà báo, chính trị gia và thương hiệu lớn. Đồng thời, người dùng phổ thông đóng vai trò khuếch đại thông tin thông qua hành vi chia sẻ và bình luận.

Bảng phân loại các hành vi chính trên Twitter:

Hành viChức năng
TweetXuất bản nội dung mới
RetweetChia sẻ lại nội dung người khác
Quote TweetChia sẻ kèm theo bình luận cá nhân
ReplyTrả lời hoặc thảo luận
LikeThể hiện sự quan tâm, đồng tình

Thuật toán phân phối và cá nhân hóa

Dòng thời gian trên Twitter có thể được hiển thị theo hai cách: “Latest Tweets” – dòng thời gian thời gian thực, và “For You” – dòng thời gian được xếp hạng bằng thuật toán. Hệ thống phân phối nội dung trong chế độ “For You” sử dụng các mô hình học sâu kết hợp dữ liệu hành vi (retweet, like, click), mạng lưới kết nối (theo dõi, nhắc đến), và nội dung (hashtag, ngôn ngữ) để cá nhân hóa kết quả.

Twitter áp dụng hệ thống xếp hạng dạng pipeline gồm nhiều tầng: trước tiên là tầng lựa chọn ứng viên (candidate generation), sau đó là tầng xếp hạng (ranking layer) với các mô hình như gradient boosting hoặc neural ranking. Đầu ra được chuẩn hóa và lọc bằng logic kinh doanh, như loại trừ nội dung bị đánh dấu, kiểm duyệt hoặc không phù hợp vùng địa lý.

Hàm mục tiêu trong xếp hạng thường là xác suất người dùng sẽ tương tác với nội dung, biểu diễn bằng mô hình hồi quy logistic như:

y^=σ(w1x1+w2x2++wnxn)\hat{y} = \sigma(w_1 x_1 + w_2 x_2 + \dots + w_n x_n)

Trong đó \( x_i \) là đặc trưng đầu vào (số lượt like, độ mới, mức độ liên quan), \( w_i \) là trọng số được học từ dữ liệu lịch sử, và \( \sigma \) là hàm sigmoid cho đầu ra từ 0 đến 1.

Tác động xã hội và truyền thông

Twitter đóng vai trò then chốt trong hệ sinh thái truyền thông hiện đại. Tính chất thời gian thực, công khai và dễ lan truyền khiến nền tảng trở thành công cụ phản ánh nhanh nhất các sự kiện chính trị, xã hội và thiên tai. Twitter thường là nơi đầu tiên xuất hiện thông tin về các vụ biểu tình, bầu cử, tấn công mạng, hoặc động đất trước cả truyền thông chính thống.

Về mặt truyền thông khoa học, các nhà nghiên cứu và tổ chức học thuật sử dụng Twitter để chia sẻ công bố, kêu gọi cộng đồng, hoặc giám sát dư luận trong các lĩnh vực như sức khỏe cộng đồng, biến đổi khí hậu, dịch tễ học. Trong thời kỳ đại dịch COVID-19, Twitter được dùng như một công cụ phân tích dữ liệu bệnh tật và lan truyền nhận thức phòng dịch.

Các nghiên cứu về Twitter cho thấy:

  • Hashtag có thể được dùng như proxy để đo dư luận
  • Mạng lưới retweet tiết lộ cấu trúc ảnh hưởng xã hội
  • Bot có khả năng làm lệch hướng thông tin quy mô lớn

Nghiên cứu chi tiết tại PLOS ONE - Twitter Data in Crisis Communication.

Vấn đề kiểm duyệt và tự do ngôn luận

Kiểm duyệt nội dung trên Twitter là một chủ đề phức tạp, liên quan đến luật pháp, đạo đức công nghệ và triết lý tự do biểu đạt. Trước năm 2022, Twitter áp dụng các thuật toán kiểm duyệt tự động để giảm thiểu nội dung độc hại như lời lẽ thù ghét, tin giả, hoặc bạo lực. Sau khi Elon Musk tiếp quản, chính sách kiểm duyệt được nới lỏng, nhiều tài khoản bị khóa trước đây được khôi phục, dẫn đến tranh cãi về giới hạn của tự do ngôn luận.

Một số hình thức kiểm duyệt hoặc hạn chế nội dung bao gồm:

  • Ẩn tweet vi phạm tiêu chuẩn cộng đồng
  • Đánh dấu “Nội dung nhạy cảm”
  • Giảm khả năng tiếp cận thông qua thuật toán
  • Chặn tài khoản theo quy định pháp luật địa phương

Các thay đổi này dẫn đến xu hướng phân cực trong cộng đồng người dùng, và gây ảnh hưởng đến niềm tin vào nền tảng như một không gian thông tin công bằng.

Ứng dụng trong nghiên cứu và khoa học dữ liệu

Twitter là nguồn dữ liệu dồi dào cho các nghiên cứu về mạng xã hội, phân tích cảm xúc, lan truyền thông tin và phát hiện xu hướng. Với đặc trưng dữ liệu văn bản ngắn, ngôn ngữ tự nhiên, có thời gian cụ thể và liên kết mạng xã hội rõ ràng, Twitter là nền tảng lý tưởng cho xử lý ngôn ngữ tự nhiên (NLP), học máy (ML) và nghiên cứu hành vi trực tuyến.

Twitter API (v2) cho phép nhà nghiên cứu truy cập dữ liệu thời gian thực (Streaming) hoặc lịch sử (Search/Archive), với quyền truy cập khác nhau theo cấp độ người dùng (Essential, Elevated, Academic). Các thông tin thu được gồm nội dung tweet, metadata, thông tin tác giả, và dữ liệu mạng (follower, mention, hashtag).

Ứng dụng phổ biến trong khoa học dữ liệu:

  • Phân tích cảm xúc (Sentiment Analysis)
  • Phát hiện bot và mạng lưới giả mạo
  • Dự báo xu hướng thị trường
  • Phân tích chủ đề (Topic modeling)

Xem thêm tài liệu kỹ thuật tại Twitter Developer Documentation.

Mô hình kinh doanh và hệ sinh thái API

Twitter từng hoạt động theo mô hình kinh doanh dựa trên quảng cáo – chiếm phần lớn doanh thu đến năm 2022. Tuy nhiên, sự thay đổi chính sách và biến động thị trường khiến công ty chuyển hướng sang các mô hình thu phí trực tiếp như Twitter Blue (dịch vụ xác minh trả phí), bán quyền truy cập API và tích hợp thương mại điện tử.

Từ tháng 3/2023, Twitter bắt đầu thu phí đối với phần lớn truy cập API, làm thay đổi cách các nhà phát triển bên thứ ba và các tổ chức nghiên cứu tiếp cận dữ liệu. Nhiều ứng dụng khách (client app) bị chặn quyền truy cập, trong khi các đối tác thương mại có thể mua quyền truy cập với mức giá từ vài trăm đến hàng chục nghìn USD/tháng.

Bảng phân loại API Twitter (2024):

Gói APIĐặc điểmĐối tượng
EssentialMiễn phí, giới hạn 500.000 tweet/thángNgười dùng cá nhân
Academic ResearchMiễn phí, truy cập dữ liệu lịch sửNhà nghiên cứu học thuật
ProTruy cập mở rộng, thời gian thựcDoanh nghiệp nhỏ
EnterpriseTruy cập đầy đủ, hỗ trợ API tùy chỉnhTập đoàn, tổ chức lớn

Chi tiết gói dịch vụ API xem tại Twitter API Products.

Các bài báo, nghiên cứu, công bố khoa học về chủ đề twitter:

Truyền thông sức khỏe có vũ khí: Bots Twitter và Troll Nga khuếch đại cuộc tranh luận về vắc xin Dịch bởi AI
American journal of public health - Tập 108 Số 10 - Trang 1378-1384 - 2018
Mục tiêu. Hiểu cách mà bots và trolls trên Twitter (“bots”) thúc đẩy nội dung sức khỏe trực tuyến. Phương pháp. Chúng tôi so sánh tỷ lệ thông điệp liên quan đến vắc xin của bots với người dùng trung bình, những thông điệp này được thu thập trực tuyến từ tháng 7 năm 2014 đến tháng 9 năm 2017. Chúng tôi ước tính khả năng người dùng là bots, so sánh tỷ lệ các tweet phân cực...... hiện toàn bộ
A tale of two sites: Twitter vs. Facebook and the personality predictors of social media usage
Computers in Human Behavior - Tập 28 Số 2 - Trang 561-569 - 2012
Social interaction via new social media: (How) can interactions on Twitter affect effectual thinking and behavior?
Journal of Business Venturing - Tập 26 Số 1 - Trang 1-18 - 2011
The Role of Dissemination in Market Liquidity: Evidence from Firms' Use of Twitter™
Accounting Review - Tập 89 Số 1 - Trang 79-112 - 2014
ABSTRACT Firm disclosures often reach only a portion of investors, which results in information asymmetry among investors and, therefore, lower market liquidity. This issue is particularly salient for firms that are not highly visible, as they tend not to receive broad news dissemination via traditional intermediaries, such as the press. This paper e...... hiện toàn bộ
Detecting Automation of Twitter Accounts: Are You a Human, Bot, or Cyborg?
IEEE Transactions on Dependable and Secure Computing - Tập 9 Số 6 - Trang 811-824 - 2012
Twitter as a Tool for Health Research: A Systematic Review
American journal of public health - Tập 107 Số 1 - Trang e1-e8 - 2017
Background. Researchers have used traditional databases to study public health for decades. Less is known about the use of social media data sources, such as Twitter, for this purpose. Objectives. To systematically review the use of Twitter in health research, define a taxonomy to describe Twitter use, and characterize the current state of Twitter in health research. ... hiện toàn bộ
Twitter evolution: converging mechanisms in birdsong and human speech
Nature Reviews Neuroscience - Tập 11 Số 11 - Trang 747-759 - 2010
Norms of online expressions of emotion: Comparing Facebook, Twitter, Instagram, and WhatsApp
New Media and Society - Tập 20 Số 5 - Trang 1813-1831 - 2018
The main aim of this study was to examine the norms of expressing emotions on social media. Specifically, the perceived appropriateness (i.e. injunctive norms) of expressing six discrete emotions (i.e. sadness, anger, disappointment, worry, joy, and pride) was investigated across four different social media platforms. Drawing on data collected in March 2016 among 1201 young Dutch users (1...... hiện toàn bộ
Tổng số: 1,455   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 10