更多课程 选择中心


Python培训

400-111-8989

Python爬虫学习笔记——信息组织和提取

  • 发布:LoneSurvivor
  • 来源:面包板社区
  • 时间:2017-11-17 16:25

YAML:信息无类型,文本信息比例最高,可读性好。

(一)信息的标记

标记后的信息可以形成信息组织结构,增加了维度;

标记后的信息可以用于通信、存储或展示;

标记的结构与信息一样具有重要的价值;

1、XML

XML:最早的通用标记语言,可扩展性好,但是繁琐;

Internet 上的信息交互与传递;

2、JSON

JSON:信息有类型,适合程序处理,较XML简洁;

移动应用云端和节点的信息通信,无注释;

3、YAML

YAML:信息无类型,文本信息比例最高,可读性好

各类系统的配置文件,有注释易读

(二)信息的提取

方法一:完整解析信息的标记形式,再提取关键信息。需要标记解析器,例如:bs4库的标签树遍历;

优点:信息解析准确;

缺点:提取过程繁琐,速度慢

方法二:无视标记形式,直接搜索关键信息

测试代码

1、<>.find_all(name,attrs,recursive,string,**kwargs) 返回一个列表类型,存储查找结果。

(1)name: 对标签名称的检索字符串


(2)attrs:对标签属性值检索的字符串,可标注属性检索


(3)recursive: 是否对子孙全部检索,默认True

(4)string: <>…</>中字符串区域的检索字符串

本文内容转载自网络,本着分享与传播的原则,版权归原作者所有,如有侵权请联系我们进行删除!

预约申请免费试听课

填写下面表单即可预约申请免费试听! 怕学不会?助教全程陪读,随时解惑!担心就业?一地学习,可全国推荐就业!

上一篇:梯度下降法及其Python实现
下一篇:差评近一半,用 Python 分析胡歌的《猎场》到底值不值得看?

2021年Python全套免费视频教程在哪里?

Python编程学习路线

Python最高有几级?

人工智能与语音遥控的区别?

  • 扫码领取资料

    回复关键字:视频资料

    免费领取 达内课程视频学习资料

Copyright © 2023 Tedu.cn All Rights Reserved 京ICP备08000853号-56 京公网安备 11010802029508号 达内时代科技集团有限公司 版权所有

选择城市和中心
黑龙江省

吉林省

河北省

湖南省

贵州省

云南省

广西省

海南省