Skip to content

MemoAI 更新日志

Memo AI 提醒

推荐 16G 内存以上的设备使用 Memo AI 能够获得更好的使用的体验,设备越好,转写速度更快。

2024-06-05 v1.3.5

  • feat: 默认开启 100% cuda 加速
  • fix: 修复了说话人识别字幕颜色展示问题

Windows

Windows 10, 11

Download (v1.3.6)

Apple Silicon(M)

macOS 12, 13, 14

Download (v1.3.6)

Apple Intel

macOS 12, 13, 14

Download (v1.3.6)

2024-06-03 v1.3.4

  • feat: 优化反馈方式,请点击左下角的帮助与支持-反馈问题直接反馈你的问题
  • fix: 修复了丢失的翻译字幕时间轴

2024-05-29 v1.3.3

  • feat:全新的 Cuda 与 Mac M 芯片加速,推荐启用,特别是 NVIDIA 显卡可以获得 110% 的 转写加速。请前往设置 - 实验室 - 启用 flash attention 机制
  • feat:转写面板支持断句开关,如遇到断句不准或者大段情况,请更换模型或者提示词中输出“,。”两个标点符号,提示 AI 恢复标点符号。
  • feat:音频支持悬浮窗口播放字幕
  • feat:音频播放器支持记录观看进度
  • feat:说话人识别支持进度加载
  • feat:OpenAI 支持配置自定义模型和 Host
  • feat:增加重新转写片段进度
  • feat:优化搜索高亮,以及搜索交互
  • feat:优化 Pro 界面交互
    • fix:修复批量模式无法导出,导出如果留空,默认导入到当前视频来源文件夹

2024-03-17 v1.2.1 Beta

  • feat:新增片段剪辑,你可以通过字幕来剪辑导出视频
  • feat:新增 Twitter 平台内容翻译,目前暂不支持 Space
  • feat:更新预置插件和插件列表,新增实时获取线上最新插件列表
  • feat:调整首页卡片对齐方式
  • fix:启动检查未完成任务,修复翻译内容中存在 null 的问题导致界面白屏
  • fix:优化导出时预览字幕性能
  • fix:修复编辑原始字幕会自动保存并把光标移到最后面 #217 #216 #215

Windows

Windows 10, 11

Download (v1.3.6)

Apple Silicon(M)

macOS 12, 13, 14

Download (v1.3.6)

Apple Intel

macOS 12, 13, 14

Download (v1.3.6)

2024-03-13 v1.2.0 Beta

  • feat:新的翻译服务设置界面以及语言模型界面拆分,需要翻译插件可以前往集成下载。
  • feat:支持 Open AI 等 AI 自定义提示词
  • feat:支持 Claude、Ollama 本地 AI 翻译,请前往集成中添加
  • feat:翻译支持继续翻译,中断翻译,合并断句问题可以很好解决 #174
  • feat:添加 Shift 区间选择编辑 #206
  • feat:支持历史播放记录 #42

2024-03-05 v1.1.9 Beta

  • optimize:字幕剪辑增加序号、字/秒统计
  • optimize:首页拖拽或选择字幕时,如果没有正在转写的任务,则直接跳转到详情
  • fix:日语转写效果问题
  • fix:无法关联本地文件
  • fix:详情标题栏自动中间省略
  • fix:自定义文件夹的名字时候无法打空格 #176
  • fix:修复详情页标题被按钮覆盖的问题

2024-02-25 v1.1.7 Beta

  • feat: 双语字幕编辑与视频压制导出,无需导出字幕再导入剪辑工具编辑压制
  • feat: 独立字幕翻译,拖拽字幕文件进入 Memo 中可以直接翻译
  • feat: 字幕位置和顺序支持位置切换
  • feat: 新增 Temo,支持文字翻译与转音频,此为独立应用,在 Memo 中供使用测试

2023-12-25 v1.1.5 Beta

新功能

  • 对转写停止的触发事件进行优化,防止过早结束
  • 在首页新增拖曳直接启动转写功能
  • 在RSS中添加转写按钮
  • 批量任务增加VAD选项以及支持语言选择功能

问题修复

  • 移除打开网页的快捷键
  • 修正批量任务转跳至详情问题
  • 解决批量任务无法导出字幕文件问题
  • 解决tts空字符串不能生成语音问题

2023-12-21 v1.1.4 Beta

现在,可以直接在转写过程中任意切换页面,转写体验大提升。

  • 支持人声检测,有效方式 whisper 幻觉,出现重复内容输出,请在转写页面的高级设置中开启使用。
  • 思维导图再升级,支持导出 SVG、JPG 等格式,同时支持编辑 Markdown
  • AI 翻译升级,支持二次翻译,翻译效果说人话。

2023-12-09 v1.1.3 Beta

  • AI 思维导图,你的视频,可以使用 Memo 一键总结出漂亮的思维导图。(实验功能,还在优化
  • RSS,可以通过 Youtube 个人链接订阅视频(实验功能,还在优化)
  • 增加 3 倍速播放视频
  • 增加 Core ML 加速
  • 支持编辑后自动保存

请注意,AI 思维导图的使用需要在设置 - 翻译中配置 Open AI 的 Key,确保 Key 已经预充值,否则会失败。

2023-11-26 v1.1.2 Beta

-微软翻译支持超长文本翻译 -添加粤语选项 -空间逻辑优化,默认内置空间 -优化批处理模式性能问题 -优化简体和繁体中文的转换

2023-11-26 v1.1.1 Beta

  • 修复下载问题
  • 修复翻译问题
  • 优化体验和提示

2023-11-22 v1.1.0 Beta

  • 模型:支持 Whisper V3,当前仅支持 Mac 版本和 Windows CPU
  • 模型:优化首次加载模型体验
  • 字幕:优化批量操作样式,拖拽多选方式暂时下架,下个版本更新,请使用右键方式来进行多选。
  • 转写:支持关键词替换
  • 批量:支持 Prompt 参数

2023-11-15 v1.0.13 Beta

  • 支持火山引擎 TTS
  • 优化激活方式

2023-11-06 v1.0.12 Beta

  • 增加空间隔离,旧数据暂时不支持迁移,可以在各空间中看到
  • 删除文件夹自动清空历史任务列表,删除资源任务自动移除转写和任务备份文件
  • 任务复制文件时改为复制成 UUID,解决重复文件会覆盖的问题
  • 首页输入框添加完链接再展示转写按钮
  • 移除模型管理页面模型文件夹展示,调整导入模型按钮
  • 调整选择转写语言列表
  • 调整批量任务启动和任务列表的失败消息提示
  • 修复 macOS x64 VAD 无法生效的问题
  • 移除 VAD 模式,自动使用宽松模式,调整 VAD 默认阈值

2023-11-04 v1.0.11 Beta

这些天都在忙着人声提取相关算法,难度略大,但是我们兼容了。问题还有很多,如果遇到问题,麻烦从设置 - 实验室导出日志后将日志反馈给我们,我们来协助排查问题。反馈邮箱:feedback@memo.ac

人声检测提取(实验功能)

请前往设置 - 实验室开启。

经常出现重复输出问题?其实就是静音以及背景音引起的问题,现在可以重复大段空白中提取有说话的音频了。

Whisper VAD

经过测试,0.3 是一个比较均衡的数值,数值越大意味着提取越严格,会导致部分声音丢失。Mac Intel 机型可能无法使用,请等待下一个版本更新。

字幕合成音频导出

合成的音频可以导出了,此功能为 Pro 功能,请购买 Memo Pro 使用。

请先转写好音频内容,再点击导出,否则会提示无法导出。导出后,你可以合并的音频和按照字幕拆分好的音频进行后续工作。

AI 字幕合成语音导出

音视频批量转格式

有很多视频想转成 MP3?Memo 批量能力帮助解决,轻松搞定转格式。

AhGVJRawMTEpBsS

相关优化

  • 增加翻译语言,罗马尼亚语,维吾尔语,乌兹别克语,哈萨克语,阿塞拜疆语,吉尔吉斯语,波斯语,塔吉克语
  • Windows GPU 支持自动检测语言
  • 移除自动断句设置,简化操作,如果遇到未能自动断句,请添加提示词:“Please add punctuation.”
  • 优化部分快捷键和提示文字,比如首页打开转写面板(Alt/Option + O),滚动切换模型(Alt/Option + M),开始转写(Alt/Option + S)
  • 支持转写时使用低质量视频(设置 - 实验室开启)
  • 增加批量时字幕导出
  • 增加更加自然的字幕跟随滚动效果
  • 修复下载视频之后无法转写问题
  • 修复下载标题过长无法点击转写的问题

Memo 实践

了解 Memo 如何使用:精准转写:利用 Whisper 处理音视频转文字不完全指南,感谢张立行同学。

2023-10-20 v1.0.10 Beta

🐞捉了几只蹦蹦跳跳的虫。

2023-10-16 V1.0.9 Beta

这一期批量能力实现困难程度远超我们早期预想。我们预想的是一步一步的往下走就行,但是我们集成的服务每个服务都要重新写一遍针对批量的逻辑,相对来说工作量就大了许多。但是基础版本已经可用,先放出来供大家使用。

下一期完整版本出来后,非 Pro 用户会限制一次只能批量两个文件且早鸟价格可能同步涨价到 $21.99。

Memo 批量能力基础版

作为技术,经常看一些英文技术视频最烦恼就是一个系列视频贼多贼长,云端转字幕翻译成本也贼高,以及上传来来回回操作贼烦。所以这次我们把批量能力完成了,一个系列视频,转写文字同时还能翻译,然后直接打开播放记笔记,贼爽。

支持能力

  1. 批量拖拽
  2. 文件夹管理
  3. 同时设置转写以及翻译

此批量能力非完整版,我们还在逐个处理可能出现的异常逻辑并进行兼容。

可能遇到的问题

  1. 转换过程中暂停了:缓存、翻译服务没有在设置中打开代理服务;转写语言选择成了要翻译的语言;翻译服务欠费或对超长文本进行翻译造成服务器无法响应。
  2. 转换后的文本出现重复内容:AI 模型幻觉所致,建议更换模型、添加提示词、手动音频降噪、裁切人声合并再转换,或等待我们下一个版本添加 VAD 优化。
  3. 转换后没有翻译:翻译服务欠费,比如火山翻译只有 200 万免费字符;超万字的过长文本翻译,目前分段只有火山以及 AI 翻译。

大家使用过程中遇到问题请点击此处反馈:MemoAI 反馈

AI 总结能力优化

这次我们改进了展示效果、支持总结语言选择以及保存历史的能力,后续我们将迭代 AI 对话模式,和音频内容做对话交流。

可能需要注意一下

大陆地区目前仅能使用 ChatGLM、文心一言等 AI 模型进行总结,我们测试 ChatGLM 速度和总结效果都很不错,而且价格也比较亲民,推荐注册使用。

For non-continental regions, Open AI Key can be used for summary in the English version.

其他改进

  1. 移动“重写按钮”至界面右上角
  2. 优化简体中文提示词,输出简体中文更准确
  3. 增加 ts、ogv、3gp、vob、wtv 等格式文件支持

2023-09-25 V1.0.8 Beta

久等了,大家!这次我们放开了激活码限制,无需填写问卷申请也能自助申请激活码。请点击此处获取:Memo 邀请码

Mac M 系列芯片支持 GPU 加速

如果你使用 M1、M2 系列芯片,且有 GPU 核数超过 10 个,推荐开启此选项。测试下来,M1 Max 32 核,Large 模型下转写一小时音频需要 5 分钟,转写效率随着核数上升而加快。该功能为 Pro 能力。

Whisper supports Mac M-series chip GPU acceleration

字幕配置面板重构

现在字幕支持配置字体、颜色、以及阴影效果了。

VPGSsM8FLpYRbZQ

转写面板支持拖拽调整视频大小

去除限制,一身轻松!

OLsVyRbvNcFieEl

支持 ChatGLM 翻译

我们测试下来 ChatGLM 作为 AI 翻译比较稳妥,其他的一众模型输出效果并不理想,我们还在找方法看后续怎么接入。

注意要先申请 ChatGLM API,然后前往设置 - 翻译中配置 Key。再前往对应的内容中做具体翻译,AI 翻译一般比较慢,请耐心等待。

ChatGLM AI 接入

Memo Pro 支持填写激活码

Memo Pro 激活页面我们也做了简单的优化,如果你曾经捐赠过 Memo,请添加微信 MemoHQ 来获取优惠方式。购买在这里:Memo Pro

ZkBw9Aty46zrhHd

还有什么优化?

  1. 实际已经支持压制导出,在导出 - 媒体中使用。但是效果还有优化空间,我们再优化优化使用。如果你想导出双语字幕,记得选择右上角双语,再导出。
  2. 支持文心一言总结
  3. TTS支持原文转语音
  4. 修复单行文本翻译导致全文丢失的问题
  5. 剪辑模式时间轴的文字支持拖拽,修复调整字幕时间没有实时显示的问题

2023-09-13 V1.0.7 Beta

是的,我们的文字、字幕合成语音更新了!有了合成语音能力,听 Youtube、以及各类外语教程、播客不用当练习听力,不用忍受各种奇怪的英语口音,视障人士可以便捷学习外语内容。希望这个能力,给大家工作、学习和生活带来一些便利。

Memo AI 免费文字、字幕合成语音

同时感谢捐赠了 Memo 的股东们,给我们持续迭代下去的动力。如果 Memo AI 能帮到你,欢迎捐赠我们,激励我们加速迭代。捐赠 Memo Team

文字、字幕合成语音

使用教程:

  1. 先翻译文本,再点击 TTS 旁的 V 菜单面板设置语言
  2. 点击应用并播放按钮,开始播放合成后声音
  3. 退出后默认停止并取消 TTS,后续需要手动启用

注意

这一期未支持原文转录,如果希望原文使用,以英文为例,翻译选择英文,然后再点击 TTS 播放即可。部分逻辑如果优化不到位,各位可以左下角向我们提一提反馈,后续会优化。以及记忆播放我们后续在支持素材管理时会兼容。

功能优化

  • 链接转写:修复 YouTube 链接转写失败的问题,支持 Google Podcast、Apple Podcast 等网站视频、语音转写文本
  • 字幕格式:支持翻译语言在上展示
  • 转写格式:支持 wmv、flv、mpeg、ogv、flac、wma 等音视频格式
  • 快捷键:支持 ctrl/cmd +S 快捷保存

聊一聊

聊聊这次开发的想法吧,合成语音难度还行,难点主要还是视频优先还是语音优先。

  • 视频优先的话,那么语音就会加速,出现声音失真。
  • 如果语音优先的话,那么视频画面就会加速减速,出现画面卡顿。

不过我们全都要,两种都做了。观测下来,语音优先体验比较好,尤其是教学类视频,视频放慢加速并不太影响体验。

后续规划上,我们希望把体验做的更好一些,比如支持人声背景音分离,本地模型文字合成语音等等。说真的,我们最想做的还是原声合成然后播放,但是成本太高了,后面有机会做。

2023-09-04 V1.0.6 Beta

这是 Memo AI 9 月的第一次更新,这次我们带来了“自动断句”能力以及繁体中文的支持。希望大家用的开心。如果 Memo AI 能帮到你,欢迎捐赠我们,激励我们加速迭代。捐赠 Memo Team

转录:支持自动断句以及手动合并断句能力

真的,做中英文字幕可以非常轻松了!再结合 AI 翻译,真的太好用了!

使用教程:

  1. 语言 Auto 换成 English,添加英文、德语等内容;
  2. 转换界面打开自动断句开关;
  3. 选择断句长度,我们推荐 75-120 词以内的断句。

Memo AI 智能 Youtube 字幕断句

注意:

  1. 智能断句不支持中文、日文以及韩文等东亚语言,后续会解决。使用时请切换到英文等拉丁语系;
  2. 如果模型生成无标点符号,请添加提示词:“Please add a period.”,测试下来 Medium 中等模型会发生此类情况;
  3. 智能断句不支持 Windows GPU 下使用,后续会解决。

多语言:支持繁体中文界面

繁体中文界面也有了~

Memo AI 支持繁体中文界面

导出:支持 TXT,双语导出

TXT,双语导出也有了!

Memo AI 支持 TXT,双语导出

更多更新

  1. 支持百度云智能云翻译;
  2. 提示词提示框优化;
  3. 支持导航栏收起展开;
  4. 高级下载能力预埋,如果无法下载,出现加载情况,请前往设置 - 实验室关闭下载。

2023-08-28 V1.0.5 Beta

转录:新增 Windows GPU 加速

现在,可以启用 Windows GPU 加速文件转录,让播客、视频、音频转录文本速度 x10 提升。以及这是 Memo AI 的第一个付费能力,当前可以免费使用。了解 Memo 后续付费策略:Memo 价格策略

如需使用 GPU 能力,需要请前往设置 - 实验室启用。 经过群友测试,以下为转录时间参考:

  • RTX4090 显卡在 Large 模型下转录 1.2 小时音频时间为 7 分钟
  • RTX3080Ti 显卡在 Large 模型下转录 1.2 小时音频时间为 8 分钟
  • RTX3080Ti 显卡在 Large 模型下转录 0.4 小时日漫时间为 2 分钟
  • RTX3060 laptop 显卡在 Large 模型下转录 1.2 小时音频时间为 20 分钟
  • RTX3060 在 Large 模型下转录 1.2 小时音频时间为 12 分钟
  • 6600XT 显卡在 Large 模型下转录 1.2 小时音频时间为 11 分钟
  • 5700XT 显卡在 Large 模型下转录 1.2 小时音频时间为 15 分钟

注意:

  • 出现繁体中文,请在转录界面上使用提示词:简体中文。
  • 出现重复词汇,可以手动删除或更换模型,我们后续解决模型幻听问题。

在此感谢 GPU 测试群中的朋友抽时间测试!

转录:Mac 支持 coreML 加速

Mac 现在也可以启动加速啦,不过启用这个加速需要额外做一些工作。

  • 另外首次加载时间略长,时间不敏感的朋友可以尝试。
  • 经过测试,64G 的 M1 Max 加载模型需要 15 分钟,以此类推,不同设备加载时长可能延长。

另外,如果出现出现重复文字的幻觉情况,请在设置 - 实验室切换为 CPU,然后重启。适用于 1.0.3 版本用户。

Translation: Open AI Translation

Given China's generative regulations, we can't use OpenAI to translate in Simplified Chinese. We'll hook up a China's big model later for the AI translation instead.

If you're seeing this in English, head to Settings - Translation and switch to OpenAI translation. Keep in mind the quality depends on the prompt, so use the prompt words "output full sentences." It might also stop working sometimes - we'll get a segmented algorithm online later to help with that.

更多更新

  • 界面 UI 调整,笔记的 UI 变为 icon,界面更统一。
  • 翻译支持长文本,谷歌因为支持长文本后,如果调用频繁会封禁 IP。后续会提供填写 Key 的方式。
  • 自动更新,新版自动升级,无需手动下载。

还有更多就交给大家探索啦,用的愉快~

2023-08-13 V1.0.4 Beta

  • 笔记:悬浮笔记,快捷时间戳、截图!
  • 字幕:支持导入本地字幕、双语字幕导出
  • 翻译:支持翻译配置测试,界面样式改版
  • 播放器:支持剧场模式
  • 空间:内容隔离,家人共用一台电脑看不同内容

2023-07-22 V1.0.3 Beta

  • 翻译:支持更多翻译平台:火山、DeepL、微软翻译
  • 字幕:支持字幕编辑与单行翻译
  • 播放:支持全屏字幕

2023-07-12 V1.0.2 Beta

这次多达几千份内测申请让我们猝不及防,算是开心的烦恼。开心是原来被这么多人需要,烦恼是需要手动筛选处理申请。还好,这都是幸福!

这一次我们带来了重磅能力:

  • 剪辑:段落剪辑,粗剪内容更高效~字幕滚动
  • 代理:优化代理获取逻辑
  • 导入:Notion 导入支持

2023-07-06 V1.0.1 Beta

这次带来了翻译能力,支持多达九十六种语言。

2023-06-13 V1.0.0 Beta

第一个版本发布,算是一个小小的里程碑。在第一个版本中,拥有以下能力:

  1. 多格式:mp3、wav、aac、m4a、mkv、avi、mp4、mov 等多格式支持导入
  2. 多语言:支持中文、English、Deutsch、ltaliano、日本語
  3. 自定义 Prompt:可以让 AI 识别是四川话还是河南话,是美式英文还是英式英文。可以这样说"这是一段四川话的说法",就可以识别四川话啦~
  4. 导出:支持 Markdown,字幕 SRT 等常见的导出格式

还有实时字幕预览,实时流,批量替换,字幕合并更多功能等待发掘!

让学习与创造更简单