BaoyanPromax — 985 高校教师信息爬虫

2026 数据挖掘 爬虫 教育

项目背景

保研选导师时,各校教师主页格式迥异、信息分散。BaoyanPromax 通过统一爬取框架,将 13+ 所 985 高校教师信息聚合入库,方便按研究方向、邮箱等字段快速筛选。

技术要点

  • 统一提取层extractor.py):抽取姓名、职称、研究方向、联系方式等结构化字段
  • 各校专属 Crawler_SPECIFIC_CRAWLERS dict):针对各高校主页差异定制解析逻辑
  • tsites 邮箱解密:还原部分学校对邮箱地址做的混淆/加密处理

已抓高校(13 所)

SDU、CSU、BUAA、UESTC、USTC、TJU、WHU、CQU、XMU、FDU、SCU、DLUT、XJTU(进行中)

数据规模

截至 2026-03-27,去重教师记录约 23,000 条