Skip to content

MemoAI 更新日志

Memo AI 提醒

推荐 16G 内存以上的设备使用 Memo AI 能够获得更好的使用的体验,设备越好,转写速度更快。

2024-12-05 v1.4.0

  • 采用全新的左侧边栏组件,提升交互体验
  • 笔记窗口新增内部弹窗功能,方便多窗口操作
  • 新增录音设备选择功能,支持自定义麦克风输入
  • 独立字幕窗口增加关闭按钮,操作更便捷
  • 解决在页面中打开的笔记窗口无法拖动的问题
  • 修复首页拖放文件时未能正确触发转写设置的问题

2024-11-05 v1.3.10

  • fix: 修复了双语字幕消失的问题
  • fix: 修复了导出时字体显示的问题

2024-10-29 v1.3.9

新功能

  • 重磅功能:支持录音实时转文字,纯本地模型,低消耗,也能保证不错的效果
  • 支持 m4v 格式

问题修复

  • 优化配置历史失效问题
  • 修复标题编辑,转写之前编辑,转写完了又变回去了
  • 优化 Apple 播客加载失效问题
  • 优化繁体中文文案
  • 支持 Deepseek 总结和生成思维导图
  • 脑图支持快捷复制
Welcome! It looks like you are using a Windows
Please ensure your PC runs Windows 10+ with at least 8 GB memory.
Download for Windows
Discover more versions below.

Windows

Version 1.4.1

For Windows with Intel or AMD x86 processors

Download for Windows

Windows ARM

Version 1.4.1

Windows ARM version is currently not available.

Mac (Apple Silicon)

Version 1.4.1

For Mac with Apple Silicon (M1~M4)

Download for Apple Silicon

Mac (Intel)

Version 1.4.1

For Mac with Intel processor

Download for Intel

2024-08-29 v1.3.8

新功能

  • 增加 YouTube 字幕下载功能,支持下载上传字幕和自动生成字幕
  • 增加字幕一键导出至 Obsidian (两小时以内的视频字幕)
  • 导出文本支持展示段落和单行的模式
  • 激活系统优化,支持展示激活设备、移除设备、扩展设备数量等
  • 跳转字幕剪辑界面后,同步播放进度
  • 支持标题重命名,请双击标题重命名

修复

  • 批量任务修复插入链接和删除链接无效
  • 批量任务处理空间中文路径
  • 修复翻译返回内容可能超过原文导致的软件报错
  • 修复继续翻译无法停止的问题
  • 字幕剪辑界面点击编辑中的文本时不再自动播放视频

2024-08-05 v1.3.7

  • feat:支持 Ollama 本地 AI 模型总结,目前测试 72B 以下模型思维导图转换有问题,调试提示词中,如果介意生成效果问题,请使用线上 OpenAI 或者自定义相关适配 OpenAI 的模型。
  • feat:支持剪辑模式手动插入字幕行
  • feat:导出文本支持设置显示序号、说话人、时间戳
  • fix:调整并发滑条为下拉
  • fix:修复首页列表点击无法跳转到详情的问题
  • fix: 修复tts视频导出报错

小提示:

  • 如果你的设备内存低于 8G,谨慎使用高质量模型,很容易造成软件闪退,建议升级硬件获得更好的使用体验。
  • YouTube 最近升级了算法,如果代理 IP 被滥用过,转文本过程中容易报错。
  • 使用 Windows 的朋友如果有 N 卡,请尝试 Cuda 模式,稳定,速度更快。
  • 使用 macOS 的朋友,请使用 GPU 模式,CoreML 加载速度远不及 GPU,且需要额外下载模型和稳定性不高。

2024-07-12 v1.3.6

  • feat: 改造播放器控制条,优化播放器常用快捷键
  • feat: 增加扩展包管理界面
  • feat: 调整最小窗口宽度限制
  • feat: AI翻译增加单行翻译和并发
  • feat: 支持导出和导入双语字幕
  • feat: 支持字幕剪辑页面点击时间进行更改
  • fix: 更改TTS提示object的问题
  • fix: 修复过滤完关键词之后还剩下空字幕的问题

2024-06-05 v1.3.5

  • feat: 默认开启 100% cuda 加速
  • fix: 修复了说话人识别字幕颜色展示问题

2024-06-03 v1.3.4

  • feat: 优化反馈方式,请点击左下角的帮助与支持-反馈问题直接反馈你的问题
  • fix: 修复了丢失的翻译字幕时间轴

2024-05-29 v1.3.3

  • feat:全新的 Cuda 与 Mac M 芯片加速,推荐启用,特别是 NVIDIA 显卡可以获得 110% 的 转写加速。请前往设置 - 实验室 - 启用 flash attention 机制
  • feat:转写面板支持断句开关,如遇到断句不准或者大段情况,请更换模型或者提示词中输出“,。”两个标点符号,提示 AI 恢复标点符号。
  • feat:音频支持悬浮窗口播放字幕
  • feat:音频播放器支持记录观看进度
  • feat:说话人识别支持进度加载
  • feat:OpenAI 支持配置自定义模型和 Host
  • feat:增加重新转写片段进度
  • feat:优化搜索高亮,以及搜索交互
  • feat:优化 Pro 界面交互
    • fix:修复批量模式无法导出,导出如果留空,默认导入到当前视频来源文件夹

2024-03-17 v1.2.1 Beta

  • feat:新增片段剪辑,你可以通过字幕来剪辑导出视频
  • feat:新增 Twitter 平台内容翻译,目前暂不支持 Space
  • feat:更新预置插件和插件列表,新增实时获取线上最新插件列表
  • feat:调整首页卡片对齐方式
  • fix:启动检查未完成任务,修复翻译内容中存在 null 的问题导致界面白屏
  • fix:优化导出时预览字幕性能
  • fix:修复编辑原始字幕会自动保存并把光标移到最后面 #217 #216 #215
Welcome! It looks like you are using a Windows
Please ensure your PC runs Windows 10+ with at least 8 GB memory.
Download for Windows
Discover more versions below.

Windows

Version 1.4.1

For Windows with Intel or AMD x86 processors

Download for Windows

Windows ARM

Version 1.4.1

Windows ARM version is currently not available.

Mac (Apple Silicon)

Version 1.4.1

For Mac with Apple Silicon (M1~M4)

Download for Apple Silicon

Mac (Intel)

Version 1.4.1

For Mac with Intel processor

Download for Intel

2024-03-13 v1.2.0 Beta

  • feat:新的翻译服务设置界面以及语言模型界面拆分,需要翻译插件可以前往集成下载。
  • feat:支持 Open AI 等 AI 自定义提示词
  • feat:支持 Claude、Ollama 本地 AI 翻译,请前往集成中添加
  • feat:翻译支持继续翻译,中断翻译,合并断句问题可以很好解决 #174
  • feat:添加 Shift 区间选择编辑 #206
  • feat:支持历史播放记录 #42

2024-03-05 v1.1.9 Beta

  • optimize:字幕剪辑增加序号、字/秒统计
  • optimize:首页拖拽或选择字幕时,如果没有正在转写的任务,则直接跳转到详情
  • fix:日语转写效果问题
  • fix:无法关联本地文件
  • fix:详情标题栏自动中间省略
  • fix:自定义文件夹的名字时候无法打空格 #176
  • fix:修复详情页标题被按钮覆盖的问题

2024-02-25 v1.1.7 Beta

  • feat: 双语字幕编辑与视频压制导出,无需导出字幕再导入剪辑工具编辑压制
  • feat: 独立字幕翻译,拖拽字幕文件进入 Memo 中可以直接翻译
  • feat: 字幕位置和顺序支持位置切换
  • feat: 新增 Temo,支持文字翻译与转音频,此为独立应用,在 Memo 中供使用测试

2023-12-25 v1.1.5 Beta

新功能

  • 对转写停止的触发事件进行优化,防止过早结束
  • 在首页新增拖曳直接启动转写功能
  • 在RSS中添加转写按钮
  • 批量任务增加VAD选项以及支持语言选择功能

问题修复

  • 移除打开网页的快捷键
  • 修正批量任务转跳至详情问题
  • 解决批量任务无法导出字幕文件问题
  • 解决tts空字符串不能生成语音问题

2023-12-21 v1.1.4 Beta

现在,可以直接在转写过程中任意切换页面,转写体验大提升。

  • 支持人声检测,有效方式 whisper 幻觉,出现重复内容输出,请在转写页面的高级设置中开启使用。
  • 思维导图再升级,支持导出 SVG、JPG 等格式,同时支持编辑 Markdown
  • AI 翻译升级,支持二次翻译,翻译效果说人话。

2023-12-09 v1.1.3 Beta

  • AI 思维导图,你的视频,可以使用 Memo 一键总结出漂亮的思维导图。(实验功能,还在优化
  • RSS,可以通过 Youtube 个人链接订阅视频(实验功能,还在优化)
  • 增加 3 倍速播放视频
  • 增加 Core ML 加速
  • 支持编辑后自动保存

请注意,AI 思维导图的使用需要在设置 - 翻译中配置 Open AI 的 Key,确保 Key 已经预充值,否则会失败。

2023-11-26 v1.1.2 Beta

-微软翻译支持超长文本翻译 -添加粤语选项 -空间逻辑优化,默认内置空间 -优化批处理模式性能问题 -优化简体和繁体中文的转换

2023-11-26 v1.1.1 Beta

  • 修复下载问题
  • 修复翻译问题
  • 优化体验和提示

2023-11-22 v1.1.0 Beta

  • 模型:支持 Whisper V3,当前仅支持 Mac 版本和 Windows CPU
  • 模型:优化首次加载模型体验
  • 字幕:优化批量操作样式,拖拽多选方式暂时下架,下个版本更新,请使用右键方式来进行多选。
  • 转写:支持关键词替换
  • 批量:支持 Prompt 参数

2023-11-15 v1.0.13 Beta

  • 支持火山引擎 TTS
  • 优化激活方式

2023-11-06 v1.0.12 Beta

  • 增加空间隔离,旧数据暂时不支持迁移,可以在各空间中看到
  • 删除文件夹自动清空历史任务列表,删除资源任务自动移除转写和任务备份文件
  • 任务复制文件时改为复制成 UUID,解决重复文件会覆盖的问题
  • 首页输入框添加完链接再展示转写按钮
  • 移除模型管理页面模型文件夹展示,调整导入模型按钮
  • 调整选择转写语言列表
  • 调整批量任务启动和任务列表的失败消息提示
  • 修复 macOS x64 VAD 无法生效的问题
  • 移除 VAD 模式,自动使用宽松模式,调整 VAD 默认阈值

2023-11-04 v1.0.11 Beta

这些天都在忙着人声提取相关算法,难度略大,但是我们兼容了。问题还有很多,如果遇到问题,麻烦从设置 - 实验室导出日志后将日志反馈给我们,我们来协助排查问题。反馈邮箱:feedback@memo.ac

人声检测提取(实验功能)

请前往设置 - 实验室开启。

经常出现重复输出问题?其实就是静音以及背景音引起的问题,现在可以重复大段空白中提取有说话的音频了。

Whisper VAD

经过测试,0.3 是一个比较均衡的数值,数值越大意味着提取越严格,会导致部分声音丢失。Mac Intel 机型可能无法使用,请等待下一个版本更新。

字幕合成音频导出

合成的音频可以导出了,此功能为 Pro 功能,请购买 Memo Pro 使用。

请先转写好音频内容,再点击导出,否则会提示无法导出。导出后,你可以合并的音频和按照字幕拆分好的音频进行后续工作。

AI 字幕合成语音导出

音视频批量转格式

有很多视频想转成 MP3?Memo 批量能力帮助解决,轻松搞定转格式。

AhGVJRawMTEpBsS

相关优化

  • 增加翻译语言,罗马尼亚语,维吾尔语,乌兹别克语,哈萨克语,阿塞拜疆语,吉尔吉斯语,波斯语,塔吉克语
  • Windows GPU 支持自动检测语言
  • 移除自动断句设置,简化操作,如果遇到未能自动断句,请添加提示词:“Please add punctuation.”
  • 优化部分快捷键和提示文字,比如首页打开转写面板(Alt/Option + O),滚动切换模型(Alt/Option + M),开始转写(Alt/Option + S)
  • 支持转写时使用低质量视频(设置 - 实验室开启)
  • 增加批量时字幕导出
  • 增加更加自然的字幕跟随滚动效果
  • 修复下载视频之后无法转写问题
  • 修复下载标题过长无法点击转写的问题

Memo 实践

了解 Memo 如何使用:精准转写:利用 Whisper 处理音视频转文字不完全指南,感谢张立行同学。

2023-10-20 v1.0.10 Beta

🐞捉了几只蹦蹦跳跳的虫。

2023-10-16 V1.0.9 Beta

这一期批量能力实现困难程度远超我们早期预想。我们预想的是一步一步的往下走就行,但是我们集成的服务每个服务都要重新写一遍针对批量的逻辑,相对来说工作量就大了许多。但是基础版本已经可用,先放出来供大家使用。

下一期完整版本出来后,非 Pro 用户会限制一次只能批量两个文件且早鸟价格可能同步涨价到 $21.99。

Memo 批量能力基础版

作为技术,经常看一些英文技术视频最烦恼就是一个系列视频贼多贼长,云端转字幕翻译成本也贼高,以及上传来来回回操作贼烦。所以这次我们把批量能力完成了,一个系列视频,转写文字同时还能翻译,然后直接打开播放记笔记,贼爽。

支持能力

  1. 批量拖拽
  2. 文件夹管理
  3. 同时设置转写以及翻译

此批量能力非完整版,我们还在逐个处理可能出现的异常逻辑并进行兼容。

可能遇到的问题

  1. 转换过程中暂停了:缓存、翻译服务没有在设置中打开代理服务;转写语言选择成了要翻译的语言;翻译服务欠费或对超长文本进行翻译造成服务器无法响应。
  2. 转换后的文本出现重复内容:AI 模型幻觉所致,建议更换模型、添加提示词、手动音频降噪、裁切人声合并再转换,或等待我们下一个版本添加 VAD 优化。
  3. 转换后没有翻译:翻译服务欠费,比如火山翻译只有 200 万免费字符;超万字的过长文本翻译,目前分段只有火山以及 AI 翻译。

大家使用过程中遇到问题请点击此处反馈:MemoAI 反馈

AI 总结能力优化

这次我们改进了展示效果、支持总结语言选择以及保存历史的能力,后续我们将迭代 AI 对话模式,和音频内容做对话交流。

可能需要注意一下

大陆地区目前仅能使用 ChatGLM、文心一言等 AI 模型进行总结,我们测试 ChatGLM 速度和总结效果都很不错,而且价格也比较亲民,推荐注册使用。

For non-continental regions, Open AI Key can be used for summary in the English version.

其他改进

  1. 移动“重写按钮”至界面右上角
  2. 优化简体中文提示词,输出简体中文更准确
  3. 增加 ts、ogv、3gp、vob、wtv 等格式文件支持

2023-09-25 V1.0.8 Beta

久等了,大家!这次我们放开了激活码限制,无需填写问卷申请也能自助申请激活码。请点击此处获取:Memo 邀请码

Mac M 系列芯片支持 GPU 加速

如果你使用 M1、M2 系列芯片,且有 GPU 核数超过 10 个,推荐开启此选项。测试下来,M1 Max 32 核,Large 模型下转写一小时音频需要 5 分钟,转写效率随着核数上升而加快。该功能为 Pro 能力。

Whisper supports Mac M-series chip GPU acceleration

字幕配置面板重构

现在字幕支持配置字体、颜色、以及阴影效果了。

VPGSsM8FLpYRbZQ

转写面板支持拖拽调整视频大小

去除限制,一身轻松!

OLsVyRbvNcFieEl

支持 ChatGLM 翻译

我们测试下来 ChatGLM 作为 AI 翻译比较稳妥,其他的一众模型输出效果并不理想,我们还在找方法看后续怎么接入。

注意要先申请 ChatGLM API,然后前往设置 - 翻译中配置 Key。再前往对应的内容中做具体翻译,AI 翻译一般比较慢,请耐心等待。

ChatGLM AI 接入

Memo Pro 支持填写激活码

Memo Pro 激活页面我们也做了简单的优化,如果你曾经捐赠过 Memo,请添加微信 MemoHQ 来获取优惠方式。购买在这里:Memo Pro

ZkBw9Aty46zrhHd

还有什么优化?

  1. 实际已经支持压制导出,在导出 - 媒体中使用。但是效果还有优化空间,我们再优化优化使用。如果你想导出双语字幕,记得选择右上角双语,再导出。
  2. 支持文心一言总结
  3. TTS支持原文转语音
  4. 修复单行文本翻译导致全文丢失的问题
  5. 剪辑模式时间轴的文字支持拖拽,修复调整字幕时间没有实时显示的问题

2023-09-13 V1.0.7 Beta

是的,我们的文字、字幕合成语音更新了!有了合成语音能力,听 Youtube、以及各类外语教程、播客不用当练习听力,不用忍受各种奇怪的英语口音,视障人士可以便捷学习外语内容。希望这个能力,给大家工作、学习和生活带来一些便利。

Memo AI 免费文字、字幕合成语音

同时感谢捐赠了 Memo 的股东们,给我们持续迭代下去的动力。如果 Memo AI 能帮到你,欢迎捐赠我们,激励我们加速迭代。捐赠 Memo Team

文字、字幕合成语音

使用教程:

  1. 先翻译文本,再点击 TTS 旁的 V 菜单面板设置语言
  2. 点击应用并播放按钮,开始播放合成后声音
  3. 退出后默认停止并取消 TTS,后续需要手动启用

注意

这一期未支持原文转录,如果希望原文使用,以英文为例,翻译选择英文,然后再点击 TTS 播放即可。部分逻辑如果优化不到位,各位可以左下角向我们提一提反馈,后续会优化。以及记忆播放我们后续在支持素材管理时会兼容。

功能优化

  • 链接转写:修复 YouTube 链接转写失败的问题,支持 Google Podcast、Apple Podcast 等网站视频、语音转写文本
  • 字幕格式:支持翻译语言在上展示
  • 转写格式:支持 wmv、flv、mpeg、ogv、flac、wma 等音视频格式
  • 快捷键:支持 ctrl/cmd +S 快捷保存

聊一聊

聊聊这次开发的想法吧,合成语音难度还行,难点主要还是视频优先还是语音优先。

  • 视频优先的话,那么语音就会加速,出现声音失真。
  • 如果语音优先的话,那么视频画面就会加速减速,出现画面卡顿。

不过我们全都要,两种都做了。观测下来,语音优先体验比较好,尤其是教学类视频,视频放慢加速并不太影响体验。

后续规划上,我们希望把体验做的更好一些,比如支持人声背景音分离,本地模型文字合成语音等等。说真的,我们最想做的还是原声合成然后播放,但是成本太高了,后面有机会做。

2023-09-04 V1.0.6 Beta

这是 Memo AI 9 月的第一次更新,这次我们带来了“自动断句”能力以及繁体中文的支持。希望大家用的开心。如果 Memo AI 能帮到你,欢迎捐赠我们,激励我们加速迭代。捐赠 Memo Team

转录:支持自动断句以及手动合并断句能力

真的,做中英文字幕可以非常轻松了!再结合 AI 翻译,真的太好用了!

使用教程:

  1. 语言 Auto 换成 English,添加英文、德语等内容;
  2. 转换界面打开自动断句开关;
  3. 选择断句长度,我们推荐 75-120 词以内的断句。

Memo AI 智能 Youtube 字幕断句

注意:

  1. 智能断句不支持中文、日文以及韩文等东亚语言,后续会解决。使用时请切换到英文等拉丁语系;
  2. 如果模型生成无标点符号,请添加提示词:“Please add a period.”,测试下来 Medium 中等模型会发生此类情况;
  3. 智能断句不支持 Windows GPU 下使用,后续会解决。

多语言:支持繁体中文界面

繁体中文界面也有了~

Memo AI 支持繁体中文界面

导出:支持 TXT,双语导出

TXT,双语导出也有了!

Memo AI 支持 TXT,双语导出

更多更新

  1. 支持百度云智能云翻译;
  2. 提示词提示框优化;
  3. 支持导航栏收起展开;
  4. 高级下载能力预埋,如果无法下载,出现加载情况,请前往设置 - 实验室关闭下载。

2023-08-28 V1.0.5 Beta

转录:新增 Windows GPU 加速

现在,可以启用 Windows GPU 加速文件转录,让播客、视频、音频转录文本速度 x10 提升。以及这是 Memo AI 的第一个付费能力,当前可以免费使用。了解 Memo 后续付费策略:Memo 价格策略

如需使用 GPU 能力,需要请前往设置 - 实验室启用。 经过群友测试,以下为转录时间参考:

  • RTX4090 显卡在 Large 模型下转录 1.2 小时音频时间为 7 分钟
  • RTX3080Ti 显卡在 Large 模型下转录 1.2 小时音频时间为 8 分钟
  • RTX3080Ti 显卡在 Large 模型下转录 0.4 小时日漫时间为 2 分钟
  • RTX3060 laptop 显卡在 Large 模型下转录 1.2 小时音频时间为 20 分钟
  • RTX3060 在 Large 模型下转录 1.2 小时音频时间为 12 分钟
  • 6600XT 显卡在 Large 模型下转录 1.2 小时音频时间为 11 分钟
  • 5700XT 显卡在 Large 模型下转录 1.2 小时音频时间为 15 分钟

注意:

  • 出现繁体中文,请在转录界面上使用提示词:简体中文。
  • 出现重复词汇,可以手动删除或更换模型,我们后续解决模型幻听问题。

在此感谢 GPU 测试群中的朋友抽时间测试!

转录:Mac 支持 coreML 加速

Mac 现在也可以启动加速啦,不过启用这个加速需要额外做一些工作。

  • 另外首次加载时间略长,时间不敏感的朋友可以尝试。
  • 经过测试,64G 的 M1 Max 加载模型需要 15 分钟,以此类推,不同设备加载时长可能延长。

另外,如果出现出现重复文字的幻觉情况,请在设置 - 实验室切换为 CPU,然后重启。适用于 1.0.3 版本用户。

Translation: Open AI Translation

Given China's generative regulations, we can't use OpenAI to translate in Simplified Chinese. We'll hook up a China's big model later for the AI translation instead.

If you're seeing this in English, head to Settings - Translation and switch to OpenAI translation. Keep in mind the quality depends on the prompt, so use the prompt words "output full sentences." It might also stop working sometimes - we'll get a segmented algorithm online later to help with that.

更多更新

  • 界面 UI 调整,笔记的 UI 变为 icon,界面更统一。
  • 翻译支持长文本,谷歌因为支持长文本后,如果调用频繁会封禁 IP。后续会提供填写 Key 的方式。
  • 自动更新,新版自动升级,无需手动下载。

还有更多就交给大家探索啦,用的愉快~

2023-08-13 V1.0.4 Beta

  • 笔记:悬浮笔记,快捷时间戳、截图!
  • 字幕:支持导入本地字幕、双语字幕导出
  • 翻译:支持翻译配置测试,界面样式改版
  • 播放器:支持剧场模式
  • 空间:内容隔离,家人共用一台电脑看不同内容

2023-07-22 V1.0.3 Beta

  • 翻译:支持更多翻译平台:火山、DeepL、微软翻译
  • 字幕:支持字幕编辑与单行翻译
  • 播放:支持全屏字幕

2023-07-12 V1.0.2 Beta

这次多达几千份内测申请让我们猝不及防,算是开心的烦恼。开心是原来被这么多人需要,烦恼是需要手动筛选处理申请。还好,这都是幸福!

这一次我们带来了重磅能力:

  • 剪辑:段落剪辑,粗剪内容更高效~字幕滚动
  • 代理:优化代理获取逻辑
  • 导入:Notion 导入支持

2023-07-06 V1.0.1 Beta

这次带来了翻译能力,支持多达九十六种语言。

2023-06-13 V1.0.0 Beta

第一个版本发布,算是一个小小的里程碑。在第一个版本中,拥有以下能力:

  1. 多格式:mp3、wav、aac、m4a、mkv、avi、mp4、mov 等多格式支持导入
  2. 多语言:支持中文、English、Deutsch、ltaliano、日本語
  3. 自定义 Prompt:可以让 AI 识别是四川话还是河南话,是美式英文还是英式英文。可以这样说"这是一段四川话的说法",就可以识别四川话啦~
  4. 导出:支持 Markdown,字幕 SRT 等常见的导出格式

还有实时字幕预览,实时流,批量替换,字幕合并更多功能等待发掘!

最后更新于:

让学习与创造更简单