利用网络爬虫抓取网络中名老中医医案数据, 可以为医案数据挖掘提供优质的原始数据。提出了一种基于网络爬虫的名老中医医案数据采集与清理算法DCCA (Data Collection and Cleaning Algorithm), 处理了12670个网页, 抽取出28813条诊次数据。与传统方法比较, DCCA的抓取效率更高、 处理结果属性清晰、 处理后的数据冗余度低, 极大地提高了中医药网站中名老中医医案数据采集与清理效果。