BaoyanPromax — 985 高校教师信息爬虫
2026 数据挖掘 爬虫 教育
项目背景
保研选导师时,各校教师主页格式迥异、信息分散。BaoyanPromax 通过统一爬取框架,将 13+ 所 985 高校教师信息聚合入库,方便按研究方向、邮箱等字段快速筛选。
技术要点
- 统一提取层(
extractor.py):抽取姓名、职称、研究方向、联系方式等结构化字段 - 各校专属 Crawler(
_SPECIFIC_CRAWLERSdict):针对各高校主页差异定制解析逻辑 - tsites 邮箱解密:还原部分学校对邮箱地址做的混淆/加密处理
已抓高校(13 所)
SDU、CSU、BUAA、UESTC、USTC、TJU、WHU、CQU、XMU、FDU、SCU、DLUT、XJTU(进行中)
数据规模
截至 2026-03-27,去重教师记录约 23,000 条。