文档转markdown实测 - 微软markitdown
来源:黄建同学
微软markitdown出来之后,广受欢迎,今天我们来实测一下看看效果如何!
微博:
github:
测试时间:2024-12-16
1. 代码
比较简单,和github项目写的一样
PDF中的图片丢失,而且PDF里面的段落结构/标题/粗体也没有体现出来。
我试了一下以下代码,尝试用LLM去分析图片,一样的效果(看来LLM分析只适合图片分析)
输出内容包括Slide分割、每张Slide的标题和正文
图片输出为"内容占位符3.JPG",有点奇怪
3. Word文档
保留大标题,小标题,图片有识别,转成一段base64的占位data
4. Excel文件
需要切换到以下代码,通过LLM来识别图像。
能够借助LLM识别并分析图片的内容
6. Audio音频
不支持中文音频,支持英文音频
尝试了传入LLM来解析中文音频,也不支持。
7. HTML文件
Head 标签里面的内容都没输出,其他内容正常。
相关文章
- Shell中针对字符串的切片,截取,替换,删除,大小写操作
- Python学不会来打我(8)字符串string类型深度解析
- TS类型体操,看懂你就能玩转TS了_ts l
- 你只会用 split?试试 StringTokenizer,性能可以快 4 倍
- 2025-08-22:最短匹配子字符串。用go语言,给定两个字符串 s 和 p,
- case when语句增加_case when加条件
- 一次完整的HTTP请求与响应涉及了哪些知识?
- Excel超链接点击无反应及安全提示问题
- Java 判断对象是否所有属性为空,大家觉得这样写可以吗?
- Spring事物(@transactional注解)在什么情况下会失效,为什么?