Skip to content

Add social-media-scraper skill#66

Closed
wu1982966308 wants to merge 1 commit into
Qoder-AI:mainfrom
wu1982966308:main
Closed

Add social-media-scraper skill#66
wu1982966308 wants to merge 1 commit into
Qoder-AI:mainfrom
wu1982966308:main

Conversation

@wu1982966308

Copy link
Copy Markdown

Add a new Agent Skill for scraping social media post data from Douyin, Xiaohongshu, Bilibili, Kuaishou, and WeChat Channels.

Features:

  • Free scraping without login/API keys
  • Support for 5 major Chinese social media platforms
  • Optional Feishu (Lark) Base sync
  • Batch scraping support

Files added:

  • src/content/skills/social-media-scraper.md (English)
  • src/content/skills-zh/social-media-scraper.md (Chinese)

@cyandata

Copy link
Copy Markdown
Collaborator

感谢提交。我们审核后认为,social-media-scraper 当前版本存在较高的平台合规、隐私和安全风险,暂不建议合入,建议关闭当前 PR。

主要原因是:该 Skill 的核心能力是对抖音、小红书、Bilibili、快手、微信视频号等平台进行无登录、无 API Key 的抓取,并包含反检测、浏览器回退抓取、TLS 指纹模拟,以及将抓取结果同步到飞书的能力。这类能力涉及平台条款、隐私保护、数据二次分发和 Marketplace 分发合规风险。

具体问题包括:

  1. SKILL.md 中明确将“无登录 / 无 API Key / 免费抓取”作为核心卖点,并覆盖多个社交媒体平台。
  2. SKILL.md 中包含 xsec_tokencurl_cffi、Chrome TLS 指纹模拟、DrissionPage / 浏览器回退等反检测或绕过式抓取说明。
  3. scraper.py 中实现了平台请求、短链跳转、浏览器/TLS 指纹模拟和微信视频号回退抓取路径。
  4. feishu_sync.py 会持久化飞书配置并将抓取结果同步到飞书,涉及进一步的数据外传和凭证管理风险。

如果后续希望重新提交,建议提供一个 reduced package:移除社交媒体抓取、反检测、浏览器回退抓取和飞书同步相关脚本、说明、示例与测试,仅保留低风险的通用研究能力,例如用户自有 CSV/JSON 数据分析、公开网页资料整理、引用解析、报告生成等。

如果确实需要保留社交媒体能力,请拆成单独 PR,并补充平台授权依据、隐私政策、数据保留/删除规则,以及禁止针对私人个体、未成年人、身份关联、骚扰或监控用途的约束;该方向需要单独进入法务和安全 review。在这些问题解决前,我们建议关闭当前 PR。

@cyandata cyandata closed this Jun 18, 2026
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants