OmniParser,微软开源基于纯视觉的图形界面Agent的屏幕解析工具
lewuxian 1年前(2025-02-19) 259浏览 0评论
OmniParser,微软开源基于纯视觉的图形界面Agent的屏幕解析工具,能够将屏幕截图转化为 LLM 可读懂的结构化元素,提高多模态大模型的视觉识别准确度。 特别适合自动化测试、自动化操作等交互场景 https://github.c...
lewuxian 1年前(2025-02-19) 259浏览 0评论
OmniParser,微软开源基于纯视觉的图形界面Agent的屏幕解析工具,能够将屏幕截图转化为 LLM 可读懂的结构化元素,提高多模态大模型的视觉识别准确度。 特别适合自动化测试、自动化操作等交互场景 https://github.c...
lewuxian 1年前(2025-02-19) 279浏览 0评论
Step-Audio,集语音理解与生成控制一体化的产品级开源实时语音对话系统,支持多语言对话(如 中文,英文,日语),语音情感(如 开心,悲伤),方言(如 粤语,四川话),可控制语速及韵律风格,支持RAP和哼唱等 http...
lewuxian 1年前(2025-02-19) 280浏览 0评论
xAI发布Grok 3,xAI最新活动:通过向 x.ai 分享数据,每月可得$150 credits https://decrypt.co/306474/musks-xai-unveils-grok-3 xAI最新活动:通过向 x.ai...
lewuxian 1年前(2025-02-19) 254浏览 0评论
Podcast MP3 Downloader,播客音频下载工具,方便离线收听,支持Spotify, Apple Podcasts, Pocket Casts, Overcast https://podcastmp3.com...
lewuxian 1年前(2025-02-19) 283浏览 0评论
V2EX 导航·分享创造,V2EX 分享创造板块内容导航站 https://rustpoint.com/nav https://www.v2ex.com/t/1112232 更多软件推荐 &nb...
lewuxian 1年前(2025-02-19) 272浏览 0评论
Catime,简洁的 Windows 倒计时工具,支持番茄时钟功能 https://github.com/vladelaina/Catime 更多Windows资源
lewuxian 1年前(2025-02-19) 311浏览 0评论
iflix,腾讯视频海外版,很多腾讯视频上VIP剧在iflix是免费的 https://www.iflix.com
lewuxian 1年前(2025-02-18) 387浏览 1评论
虽然市场上有大量的免费临时邮箱服务,也有众多基于Cloudflare 免费服务搭建临时邮箱的开源项目。 但由于临时邮箱的滥用,导致很多互联网服务都对常用的临时邮箱注册做了屏蔽。 由于Gmail的公信力,基本上没有网站会拒绝Gmail邮箱...
lewuxian 1年前(2025-02-18) 280浏览 0评论
Zonos,Zyphra开源的文本转语音(TTS)模型,仅需5秒的样本音频即可克隆用户声音 发布说明:https://www.zyphra.com/post/beta-release-of-zonos-v0-1 部署说明:https:/...
lewuxian 1年前(2025-02-18) 304浏览 0评论
ebook2audiobook,目前最好用的电子书转有声书工具ebook2audiobook 发布v25.2.0,有重大更新 https://github.com/DrewThomasson/ebook2audiobook