前言

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家:https://www.captainbed.cn/z

ChatGPT体验地址

文章目录

前言前言正则表达式进行转换送书活动

前言

在信息爆炸的时代,互联网上的海量文字信息如同无尽的沙滩。然而,其中真正有价值的信息往往埋在各种网页中,需要经过筛选和整理才能被有效利用。幸运的是,Python这个强大的编程语言可以帮助我们完成这项任务。

本文将介绍如何使用Python将网页文字转换为Markdown格式,这将使得我们能够更加方便地阅读和处理网页内容。无论是将文章保存为本地文件还是转化为其他格式,Markdown都能够提供清晰简洁的排版和格式,让我们更加专注于内容本身。

正则表达式

我们将页面进行Maekdown的转换为了保证准确度,我们可以使用正则表达式去修改,如下

import re

__all__ = ['Tomd', 'convert']

MARKDOWN = {

'h1': ('\n# ', '\n'),

'h2': ('\n## ', '\n'),

'h3': ('\n### ', '\n'),

'h4': ('\n#### ', '\n'),

'h5': ('\n##### ', '\n'),

'h6': ('\n###### ', '\n'),

'code': ('`', '`'),

'ul': ('', ''),

'ol': ('', ''),

'li': ('- ', ''),

'blockquote': ('\n> ', '\n'),

'em': ('**', '**'),

'strong': ('**', '**'),

'block_code': ('\n```\n', '\n```\n'),

'span': ('', ''),

'p': ('\n', '\n'),

'p_with_out_class': ('\n', '\n'),

'inline_p': ('', ''),

'inline_p_with_out_class': ('', ''),

'b': ('**', '**'),

'i': ('*', '*'),

'del': ('~~', '~~'),

'hr': ('\n---', '\n\n'),

'thead': ('\n', '|------\n'),

'tbody': ('\n', '\n'),

'td': ('|', ''),

'th': ('|', ''),

'tr': ('', '\n')

}

BlOCK_ELEMENTS = {

'h1': '(.*?)',

'h2': '(.*?)',

'h3': '(.*?)',

'h4': '(.*?)',

'h5': '(.*?)',

'h6': '(.*?)',

'hr': '


',

'blockquote': '(.*?)',

'ul': '(.*?)',

'ol': '(.*?)',

'block_code': '(.*?)',

'p': '(.*?)

',

'p_with_out_class': '

(.*?)

',

'thead': '(.*?)',

'tr': '(.*?)'

}

INLINE_ELEMENTS = {

'td': '(.*?)',

'tr': '(.*?)',

'th': '(.*?)',

'b': '(.*?)',

'i': '(.*?)',

'del': '(.*?)',

'inline_p': '(.*?)

',

'inline_p_with_out_class': '

(.*?)

',

'code': '(.*?)',

'span': '(.*?)',

'ul': '(.*?)',

'ol': '(.*?)',

'li': '(.*?)',

'img': '(.*?)',

'a': '(.*?)',

'em': '(.*?)',

'strong': '(.*?)'

}

DELETE_ELEMENTS = ['', '', '', '