情景重现

有时候,我们看到网上比较好的文章,我们油然会想去转载,但是呈现在浏览器上文章的格式为 HTML,我们书写文章的格式又为 Markdown,所以我便想实现 HTML 到 Markdown 的转换。

注:对于一些文章排版较为复杂的 HTML 标签(如 table),暂时直接输出 HTML

使用

还是从 npm 开始,支持三种方式(URL/file/命令参数)的调用。

npm i -g html-markdown
html2md -h
html2md https://www.npmjs.com/package/html-markdown -s "#readme" > html-markdown-readme.md
html2md path/to/html/file -s "#markdown"
html2md path/to/html/file
html2md --eval "<h1>Hello!</h1>"
html2md - # get string from stdin
html2md   # get string from stdin, better REPL
{
    echo "<h1>HEAD1</h1>";
    echo "<h2>HEAD2</h2>";
} | html2md -

URL 只支持 HTTP/HTTPs 协议,-s --selector 选项表示 HTML 文档中的 DOM 选择器,如 jQuery 选择器。

以上为命令行的方式,同时还提供第三方包的形式

npm i --save html-markdown
var html2md = require('html-markdown');

// can use in browser and node.
var md1 = html2md.html2mdFromString("<h1>Hello!</h1>");

// https or http, not isomorphic
html2md.html2mdFromURL("https://www.npmjs.com/package/song-robot", "#readme").then(console.log).catch(console.error);

// not isomorphic
html2md.html2mdFromPath("path/to/html/file", "#markdown").then(console.log).catch(console.error);

实现

一共实现了 2 个版本,分别用 Cheerio、jsDom 实现。

Cheerio 更侧重于 node 端,jsDom 则将 HTML 标准在 node 上实现了,所以在浏览器端不需要导入 jsDom,因为浏览器已经实现了 HTML 标准。故 jsDom 版本加上环境的判断,可以在浏览器和服务器端使用同一套代码

具体的转化思路大致是,递归遍历 dom 树。对于单个 node ,判断其 tagName 进行映射。

if (/^h([\d]+)$/i.test(tagName)) {
    mapStr = `${'#'.repeat(+RegExp.$1)} ${childrenRender()}`;
} else if ('ul' === tagName || 'ol' === tagName) {
    mapStr = `${childrenRender(level+(parentTagName === 'li'? 1 : 0))}`
} else if ('li' === tagName) {
    mapStr = `${'   '.repeat(level)}${parentTagName === 'ul' ? '-' : 1+index+'.'} ${childrenRender()}`
} else if ('img' === tagName) {
    mapStr = `![${dom.getAttribute('alt') || ''}](${dom.getAttribute('src')})`
} else if ('p' === tagName) {
    mapStr = `${childrenRender()}  `
} else if ('code' === tagName) {
    mapStr = "`" + childrenRender() + "`"
} else if ('pre' === tagName) {
    mapStr = "\n```\n"+ `${jsdomText(dom).replace(/^\r?\n/, '').replace(/\r?\n$/, '')}\n` +"```\n"
} else if ('a' === tagName) {
    mapStr = `[${childrenRender()}](${dom.getAttribute('href')})`;
} else if ('div' === tagName) {
    mapStr = `${childrenRender()}`
} else if ('strong' === tagName) {
    mapStr = `**${childrenRender()}**`
} else if ('em' === tagName) {
    mapStr = `*${childrenRender()}*`
} else if ('hr' === tagName) {
    mapStr = `------`
} else if ('del' === tagName) {
    mapStr = `~~${childrenRender()}~~`
} else if ('html' === tagName || 'body' === tagName) {
    mapStr = childrenRender()
} else if ('head' === tagName) {
    mapStr = '';
} else {
    mapStr = dom.outerHTML;
}

同时还需要注意!对于代码块

其换行是被样式控制的,如下图 <div>

而且 Dom 中的属性 innerText 不属于 HTML 标准,是浏览器各自实现的。如下图,innerText 是带换行的,而 textContent 则不带(jQuery 中 text() 也是不带的)

所以就需要我们自己判断是否需要换行,即自己实现 innerText

var jsdomText = function (dom) {
    var html = dom.innerHTML;
    if(!html) {
        return dom.textContent;
    }
    var myhtml = html.replace(/<p.*?>(.*?)<\/p>/gmi, '$1\n')
        .replace(/<div.*?>(.*?)<\/div>/gmi, '$1\n')
        .replace(/<br.*?>/gmi, '\n')
        .replace(/<(?:.)*?>/gm, '') // remove all html tags
        
    var he = require('he'); // he for decoding html entities
    var mytext = he.decode(myhtml);
    return mytext;
}

欢迎使用,并给我提 Issue,我将会不断进行优化改善。