LemmyNet/lemmy 社区排序算法优化：解决单用户主导社区的权重失衡问题

2025-05-16 09:23:15作者：魏侃纯Zoe

背景介绍

Lemmy是一个开源的联邦式社交链接聚合平台，其社区排序算法直接影响用户的内容发现体验。在0.19.5版本中，存在一个关于"Scaled"(比例排序)算法的设计问题，导致某些由单一活跃用户主导的小型社区在排序中获得过高权重。

问题分析

当前Scaled排序算法使用ca.users_active_month(社区月度活跃用户数)作为分母来计算社区内容的权重。这种设计存在一个明显缺陷：当社区中只有1-2个非常活跃的用户持续发布内容，而其他用户互动较少时，由于分母(活跃用户数)很小，这些社区的内容会被异常地提升到排序前列。

技术解决方案

经过社区讨论，提出了一种改进方案：将分母从简单的活跃用户数改为社区内容的"总互动量"，计算方式为：

SELECT community_id, 
       SUM(comments + upvotes + downvotes) as total_interactions
FROM post_aggregates
WHERE published >= date_trunc('month', CURRENT_TIMESTAMP - interval '1 month')

这种改进有以下优势：

更准确地反映社区实际活跃度
避免单一用户主导社区获得过高权重
仍保留对小社区的适当提升
维持算法简单高效的特点

实现考量

在实现过程中，开发者考虑了多种方案：

完全替换现有Scaled算法
新增一个排序选项(如"Rescaled"或"LowContent")
调整现有算法参数

最终倾向于直接优化现有Scaled算法，因为：

新算法本质上是对原设计的完善而非替代
避免增加用户选择复杂度
减少代码维护成本

社区影响

这一改进将显著提升Lemmy的用户体验：

首页内容分布更加均衡
真正活跃的小社区仍能获得适当曝光
减少"内容刷屏"现象
保持对小社区新创者的支持

总结

通过对Lemmy排序算法的这一优化，解决了联邦社交网络中一个典型的内容发现问题。这种基于实际互动数据而非简单用户数的权重计算方式，为分布式社交平台的算法设计提供了有价值的参考。该改进已在PR#5261中实现，将包含在后续版本更新中。

lemmy

🐀 A link aggregator and forum for the fediverse

项目地址：https://gitcode.com/gh_mirrors/le/lemmy

登录后查看全文

项目优选

收起

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力