网页爬取只获得单个标签的信息

网页源代码为:<dl><dd><a href="/789654.html">第一章</a></dd><dd><a href="/234567.html">第二章</a></dd><dd><a href="/123456.html">第三章</a></

Nonino

310人浏览 · 2020-09-23 01:31:11

Nonino · 2020-09-23 01:31:11 发布

网页源代码为:

<dl>
	<dd><a href="/789654.html">第一章</a></dd><dd><a href="/234567.html">第二章</a></dd><dd><a href="/123456.html">第三章</a></dd>
</dl>

爬取代码为:

def parseLink(html):
    doc = pq(html)
    items = doc("dl")
    for item in items.items():
        print(item)
        yield {
            'page': item.find('a').attr('href')
        }

此时获得的内容为单个’href’.
多数情况是因为item的标签全部连在一块,需要分离标签.
即修改为:

for item in items.items('dd'):

AtomGit 开源协作平台测评赛

瓜分20万奖金获得内推名额丰厚实物奖励易参与易上手

更多推荐

ADS1292R 使用过程心电图高精度ADC模块

文章目录1 Fundamentals ofPrecision ADC Noise Analysis 精密模数转换器噪声分析基础1 Fundamentals ofPrecision ADC Noise Analysis 精密模数转换器噪声分析基础https://www.ti.com.cn/cn/lit/wp/slyy192/slyy192.pdf?ts=1600659610730&ref_u

开放原子开发者工作坊

实现一个家庭安防与环境监测系统（一）

开放原子开发者工作坊

【cf】Codeforces Round #774 (Div. 2) 前4题

题目A. Square Counting 简单数学题目大意题解代码B. Quality vs Quantity 排序题目大意题解代码C. Factorials and Powers of Two 状态压缩dp+位运算题目大意题解代码D. Weight the Tree 树形dp+dfs题目大意题解代码E. Power Board 看起来像是数论？许多年没打cf了，偶尔打了一盘，恢复紫名了。A. S