MemoAI 更新日志
Memo AI 提醒
推荐 16G 内存以上的设备使用 Memo AI 能够获得更好的使用的体验,设备越好,转写速度更快。
2024-12-05 v1.4.0
- 采用全新的左侧边栏组件,提升交互体验
- 笔记窗口新增内部弹窗功能,方便多窗口操作
- 新增录音设备选择功能,支持自定义麦克风输入
- 独立字幕窗口增加关闭按钮,操作更便捷
- 解决在页面中打开的笔记窗口无法拖动的问题
- 修复首页拖放文件时未能正确触发转写设置的问题
2024-11-05 v1.3.10
- fix: 修复了双语字幕消失的问题
- fix: 修复了导出时字体显示的问题
2024-10-29 v1.3.9
新功能
- 重磅功能:支持录音实时转文字,纯本地模型,低消耗,也能保证不错的效果
- 支持 m4v 格式
问题修复
- 优化配置历史失效问题
- 修复标题编辑,转写之前编辑,转写完了又变回去了
- 优化 Apple 播客加载失效问题
- 优化繁体中文文案
- 支持 Deepseek 总结和生成思维导图
- 脑图支持快捷复制
Windows ARM
Version 1.4.1Windows ARM version is currently not available.
2024-08-29 v1.3.8
新功能
- 增加 YouTube 字幕下载功能,支持下载上传字幕和自动生成字幕
- 增加字幕一键导出至 Obsidian (两小时以内的视频字幕)
- 导出文本支持展示段落和单行的模式
- 激活系统优化,支持展示激活设备、移除设备、扩展设备数量等
- 跳转字幕剪辑界面后,同步播放进度
- 支持标题重命名,请双击标题重命名
修复
- 批量任务修复插入链接和删除链接无效
- 批量任务处理空间中文路径
- 修复翻译返回内容可能超过原文导致的软件报错
- 修复继续翻译无法停止的问题
- 字幕剪辑界面点击编辑中的文本时不再自动播放视频
2024-08-05 v1.3.7
- feat:支持 Ollama 本地 AI 模型总结,目前测试 72B 以下模型思维导图转换有问题,调试提示词中,如果介意生成效果问题,请使用线上 OpenAI 或者自定义相关适配 OpenAI 的模型。
- feat:支持剪辑模式手动插入字幕行
- feat:导出文本支持设置显示序号、说话人、时间戳
- fix:调整并发滑条为下拉
- fix:修复首页列表点击无法跳转到详情的问题
- fix: 修复tts视频导出报错
小提示:
- 如果你的设备内存低于 8G,谨慎使用高质量模型,很容易造成软件闪退,建议升级硬件获得更好的使用体验。
- YouTube 最近升级了算法,如果代理 IP 被滥用过,转文本过程中容易报错。
- 使用 Windows 的朋友如果有 N 卡,请尝试 Cuda 模式,稳定,速度更快。
- 使用 macOS 的朋友,请使用 GPU 模式,CoreML 加载速度远不及 GPU,且需要额外下载模型和稳定性不高。
2024-07-12 v1.3.6
- feat: 改造播放器控制条,优化播放器常用快捷键
- feat: 增加扩展包管理界面
- feat: 调整最小窗口宽度限制
- feat: AI翻译增加单行翻译和并发
- feat: 支持导出和导入双语字幕
- feat: 支持字幕剪辑页面点击时间进行更改
- fix: 更改TTS提示object的问题
- fix: 修复过滤完关键词之后还剩下空字幕的问题
2024-06-05 v1.3.5
- feat: 默认开启 100% cuda 加速
- fix: 修复了说话人识别字幕颜色展示问题
2024-06-03 v1.3.4
- feat: 优化反馈方式,请点击左下角的帮助与支持-反馈问题直接反馈你的问题
- fix: 修复了丢失的翻译字幕时间轴
2024-05-29 v1.3.3
- feat:全新的 Cuda 与 Mac M 芯片加速,推荐启用,特别是 NVIDIA 显卡可以获得 110% 的 转写加速。请前往设置 - 实验室 - 启用 flash attention 机制
- feat:转写面板支持断句开关,如遇到断句不准或者大段情况,请更换模型或者提示词中输出“,。”两个标点符号,提示 AI 恢复标点符号。
- feat:音频支持悬浮窗口播放字幕
- feat:音频播放器支持记录观看进度
- feat:说话人识别支持进度加载
- feat:OpenAI 支持配置自定义模型和 Host
- feat:增加重新转写片段进度
- feat:优化搜索高亮,以及搜索交互
- feat:优化 Pro 界面交互
- fix:修复批量模式无法导出,导出如果留空,默认导入到当前视频来源文件夹
2024-03-17 v1.2.1 Beta
- feat:新增片段剪辑,你可以通过字幕来剪辑导出视频
- feat:新增 Twitter 平台内容翻译,目前暂不支持 Space
- feat:更新预置插件和插件列表,新增实时获取线上最新插件列表
- feat:调整首页卡片对齐方式
- fix:启动检查未完成任务,修复翻译内容中存在 null 的问题导致界面白屏
- fix:优化导出时预览字幕性能
- fix:修复编辑原始字幕会自动保存并把光标移到最后面 #217 #216 #215
Windows ARM
Version 1.4.1Windows ARM version is currently not available.
2024-03-13 v1.2.0 Beta
- feat:新的翻译服务设置界面以及语言模型界面拆分,需要翻译插件可以前往集成下载。
- feat:支持 Open AI 等 AI 自定义提示词
- feat:支持 Claude、Ollama 本地 AI 翻译,请前往集成中添加
- feat:翻译支持继续翻译,中断翻译,合并断句问题可以很好解决 #174
- feat:添加 Shift 区间选择编辑 #206
- feat:支持历史播放记录 #42
2024-03-05 v1.1.9 Beta
- optimize:字幕剪辑增加序号、字/秒统计
- optimize:首页拖拽或选择字幕时,如果没有正在转写的任务,则直接跳转到详情
- fix:日语转写效果问题
- fix:无法关联本地文件
- fix:详情标题栏自动中间省略
- fix:自定义文件夹的名字时候无法打空格 #176
- fix:修复详情页标题被按钮覆盖的问题
2024-02-25 v1.1.7 Beta
- feat: 双语字幕编辑与视频压制导出,无需导出字幕再导入剪辑工具编辑压制
- feat: 独立字幕翻译,拖拽字幕文件进入 Memo 中可以直接翻译
- feat: 字幕位置和顺序支持位置切换
- feat: 新增 Temo,支持文字翻译与转音频,此为独立应用,在 Memo 中供使用测试
2023-12-25 v1.1.5 Beta
新功能
- 对转写停止的触发事件进行优化,防止过早结束
- 在首页新增拖曳直接启动转写功能
- 在RSS中添加转写按钮
- 批量任务增加VAD选项以及支持语言选择功能
问题修复
- 移除打开网页的快捷键
- 修正批量任务转跳至详情问题
- 解决批量任务无法导出字幕文件问题
- 解决tts空字符串不能生成语音问题
2023-12-21 v1.1.4 Beta
现在,可以直接在转写过程中任意切换页面,转写体验大提升。
- 支持人声检测,有效方式 whisper 幻觉,出现重复内容输出,请在转写页面的高级设置中开启使用。
- 思维导图再升级,支持导出 SVG、JPG 等格式,同时支持编辑 Markdown
- AI 翻译升级,支持二次翻译,翻译效果说人话。
2023-12-09 v1.1.3 Beta
- AI 思维导图,你的视频,可以使用 Memo 一键总结出漂亮的思维导图。(实验功能,还在优化
- RSS,可以通过 Youtube 个人链接订阅视频(实验功能,还在优化)
- 增加 3 倍速播放视频
- 增加 Core ML 加速
- 支持编辑后自动保存
请注意,AI 思维导图的使用需要在设置 - 翻译中配置 Open AI 的 Key,确保 Key 已经预充值,否则会失败。
2023-11-26 v1.1.2 Beta
-微软翻译支持超长文本翻译 -添加粤语选项 -空间逻辑优化,默认内置空间 -优化批处理模式性能问题 -优化简体和繁体中文的转换
2023-11-26 v1.1.1 Beta
- 修复下载问题
- 修复翻译问题
- 优化体验和提示
2023-11-22 v1.1.0 Beta
- 模型:支持 Whisper V3,当前仅支持 Mac 版本和 Windows CPU
- 模型:优化首次加载模型体验
- 字幕:优化批量操作样式,拖拽多选方式暂时下架,下个版本更新,请使用右键方式来进行多选。
- 转写:支持关键词替换
- 批量:支持 Prompt 参数
2023-11-15 v1.0.13 Beta
- 支持火山引擎 TTS
- 优化激活方式
2023-11-06 v1.0.12 Beta
- 增加空间隔离,旧数据暂时不支持迁移,可以在各空间中看到
- 删除文件夹自动清空历史任务列表,删除资源任务自动移除转写和任务备份文件
- 任务复制文件时改为复制成 UUID,解决重复文件会覆盖的问题
- 首页输入框添加完链接再展示转写按钮
- 移除模型管理页面模型文件夹展示,调整导入模型按钮
- 调整选择转写语言列表
- 调整批量任务启动和任务列表的失败消息提示
- 修复 macOS x64 VAD 无法生效的问题
- 移除 VAD 模式,自动使用宽松模式,调整 VAD 默认阈值
2023-11-04 v1.0.11 Beta
这些天都在忙着人声提取相关算法,难度略大,但是我们兼容了。问题还有很多,如果遇到问题,麻烦从设置 - 实验室导出日志后将日志反馈给我们,我们来协助排查问题。反馈邮箱:feedback@memo.ac
人声检测提取(实验功能)
请前往设置 - 实验室开启。
经常出现重复输出问题?其实就是静音以及背景音引起的问题,现在可以重复大段空白中提取有说话的音频了。
经过测试,0.3 是一个比较均衡的数值,数值越大意味着提取越严格,会导致部分声音丢失。Mac Intel 机型可能无法使用,请等待下一个版本更新。
字幕合成音频导出
合成的音频可以导出了,此功能为 Pro 功能,请购买 Memo Pro 使用。
请先转写好音频内容,再点击导出,否则会提示无法导出。导出后,你可以合并的音频和按照字幕拆分好的音频进行后续工作。
音视频批量转格式
有很多视频想转成 MP3?Memo 批量能力帮助解决,轻松搞定转格式。
相关优化
- 增加翻译语言,罗马尼亚语,维吾尔语,乌兹别克语,哈萨克语,阿塞拜疆语,吉尔吉斯语,波斯语,塔吉克语
- Windows GPU 支持自动检测语言
- 移除自动断句设置,简化操作,如果遇到未能自动断句,请添加提示词:“Please add punctuation.”
- 优化部分快捷键和提示文字,比如首页打开转写面板(Alt/Option + O),滚动切换模型(Alt/Option + M),开始转写(Alt/Option + S)
- 支持转写时使用低质量视频(设置 - 实验室开启)
- 增加批量时字幕导出
- 增加更加自然的字幕跟随滚动效果
- 修复下载视频之后无法转写问题
- 修复下载标题过长无法点击转写的问题
Memo 实践
了解 Memo 如何使用:精准转写:利用 Whisper 处理音视频转文字不完全指南,感谢张立行同学。
2023-10-20 v1.0.10 Beta
🐞捉了几只蹦蹦跳跳的虫。
2023-10-16 V1.0.9 Beta
这一期批量能力实现困难程度远超我们早期预想。我们预想的是一步一步的往下走就行,但是我们集成的服务每个服务都要重新写一遍针对批量的逻辑,相对来说工作量就大了许多。但是基础版本已经可用,先放出来供大家使用。
下一期完整版本出来后,非 Pro 用户会限制一次只能批量两个文件且早鸟价格可能同步涨价到 $21.99。
Memo 批量能力基础版
作为技术,经常看一些英文技术视频最烦恼就是一个系列视频贼多贼长,云端转字幕翻译成本也贼高,以及上传来来回回操作贼烦。所以这次我们把批量能力完成了,一个系列视频,转写文字同时还能翻译,然后直接打开播放记笔记,贼爽。
支持能力
- 批量拖拽
- 文件夹管理
- 同时设置转写以及翻译
此批量能力非完整版,我们还在逐个处理可能出现的异常逻辑并进行兼容。
可能遇到的问题
- 转换过程中暂停了:缓存、翻译服务没有在设置中打开代理服务;转写语言选择成了要翻译的语言;翻译服务欠费或对超长文本进行翻译造成服务器无法响应。
- 转换后的文本出现重复内容:AI 模型幻觉所致,建议更换模型、添加提示词、手动音频降噪、裁切人声合并再转换,或等待我们下一个版本添加 VAD 优化。
- 转换后没有翻译:翻译服务欠费,比如火山翻译只有 200 万免费字符;超万字的过长文本翻译,目前分段只有火山以及 AI 翻译。
大家使用过程中遇到问题请点击此处反馈:MemoAI 反馈
AI 总结能力优化
这次我们改进了展示效果、支持总结语言选择以及保存历史的能力,后续我们将迭代 AI 对话模式,和音频内容做对话交流。
可能需要注意一下
大陆地区目前仅能使用 ChatGLM、文心一言等 AI 模型进行总结,我们测试 ChatGLM 速度和总结效果都很不错,而且价格也比较亲民,推荐注册使用。
For non-continental regions, Open AI Key can be used for summary in the English version.
其他改进
- 移动“重写按钮”至界面右上角
- 优化简体中文提示词,输出简体中文更准确
- 增加 ts、ogv、3gp、vob、wtv 等格式文件支持
2023-09-25 V1.0.8 Beta
久等了,大家!这次我们放开了激活码限制,无需填写问卷申请也能自助申请激活码。请点击此处获取:Memo 邀请码
Mac M 系列芯片支持 GPU 加速
如果你使用 M1、M2 系列芯片,且有 GPU 核数超过 10 个,推荐开启此选项。测试下来,M1 Max 32 核,Large 模型下转写一小时音频需要 5 分钟,转写效率随着核数上升而加快。该功能为 Pro 能力。
字幕配置面板重构
现在字幕支持配置字体、颜色、以及阴影效果了。
转写面板支持拖拽调整视频大小
去除限制,一身轻松!
支持 ChatGLM 翻译
我们测试下来 ChatGLM 作为 AI 翻译比较稳妥,其他的一众模型输出效果并不理想,我们还在找方法看后续怎么接入。
注意要先申请 ChatGLM API,然后前往设置 - 翻译中配置 Key。再前往对应的内容中做具体翻译,AI 翻译一般比较慢,请耐心等待。
Memo Pro 支持填写激活码
Memo Pro 激活页面我们也做了简单的优化,如果你曾经捐赠过 Memo,请添加微信 MemoHQ 来获取优惠方式。购买在这里:Memo Pro
还有什么优化?
- 实际已经支持压制导出,在导出 - 媒体中使用。但是效果还有优化空间,我们再优化优化使用。如果你想导出双语字幕,记得选择右上角双语,再导出。
- 支持文心一言总结
- TTS支持原文转语音
- 修复单行文本翻译导致全文丢失的问题
- 剪辑模式时间轴的文字支持拖拽,修复调整字幕时间没有实时显示的问题
2023-09-13 V1.0.7 Beta
是的,我们的文字、字幕合成语音更新了!有了合成语音能力,听 Youtube、以及各类外语教程、播客不用当练习听力,不用忍受各种奇怪的英语口音,视障人士可以便捷学习外语内容。希望这个能力,给大家工作、学习和生活带来一些便利。
同时感谢捐赠了 Memo 的股东们,给我们持续迭代下去的动力。如果 Memo AI 能帮到你,欢迎捐赠我们,激励我们加速迭代。捐赠 Memo Team
文字、字幕合成语音
使用教程:
- 先翻译文本,再点击 TTS 旁的 V 菜单面板设置语言
- 点击应用并播放按钮,开始播放合成后声音
- 退出后默认停止并取消 TTS,后续需要手动启用
注意
这一期未支持原文转录,如果希望原文使用,以英文为例,翻译选择英文,然后再点击 TTS 播放即可。部分逻辑如果优化不到位,各位可以左下角向我们提一提反馈,后续会优化。以及记忆播放我们后续在支持素材管理时会兼容。
功能优化
- 链接转写:修复 YouTube 链接转写失败的问题,支持 Google Podcast、Apple Podcast 等网站视频、语音转写文本
- 字幕格式:支持翻译语言在上展示
- 转写格式:支持 wmv、flv、mpeg、ogv、flac、wma 等音视频格式
- 快捷键:支持 ctrl/cmd +S 快捷保存
聊一聊
聊聊这次开发的想法吧,合成语音难度还行,难点主要还是视频优先还是语音优先。
- 视频优先的话,那么语音就会加速,出现声音失真。
- 如果语音优先的话,那么视频画面就会加速减速,出现画面卡顿。
不过我们全都要,两种都做了。观测下来,语音优先体验比较好,尤其是教学类视频,视频放慢加速并不太影响体验。
后续规划上,我们希望把体验做的更好一些,比如支持人声背景音分离,本地模型文字合成语音等等。说真的,我们最想做的还是原声合成然后播放,但是成本太高了,后面有机会做。
2023-09-04 V1.0.6 Beta
这是 Memo AI 9 月的第一次更新,这次我们带来了“自动断句”能力以及繁体中文的支持。希望大家用的开心。如果 Memo AI 能帮到你,欢迎捐赠我们,激励我们加速迭代。捐赠 Memo Team
转录:支持自动断句以及手动合并断句能力
真的,做中英文字幕可以非常轻松了!再结合 AI 翻译,真的太好用了!
使用教程:
- 语言 Auto 换成 English,添加英文、德语等内容;
- 转换界面打开自动断句开关;
- 选择断句长度,我们推荐 75-120 词以内的断句。
注意:
- 智能断句不支持中文、日文以及韩文等东亚语言,后续会解决。使用时请切换到英文等拉丁语系;
- 如果模型生成无标点符号,请添加提示词:“Please add a period.”,测试下来 Medium 中等模型会发生此类情况;
- 智能断句不支持 Windows GPU 下使用,后续会解决。
多语言:支持繁体中文界面
繁体中文界面也有了~
导出:支持 TXT,双语导出
TXT,双语导出也有了!
更多更新
- 支持百度云智能云翻译;
- 提示词提示框优化;
- 支持导航栏收起展开;
- 高级下载能力预埋,如果无法下载,出现加载情况,请前往设置 - 实验室关闭下载。
2023-08-28 V1.0.5 Beta
转录:新增 Windows GPU 加速
现在,可以启用 Windows GPU 加速文件转录,让播客、视频、音频转录文本速度 x10 提升。以及这是 Memo AI 的第一个付费能力,当前可以免费使用。了解 Memo 后续付费策略:Memo 价格策略。
如需使用 GPU 能力,需要请前往设置 - 实验室启用。 经过群友测试,以下为转录时间参考:
- RTX4090 显卡在 Large 模型下转录 1.2 小时音频时间为 7 分钟
- RTX3080Ti 显卡在 Large 模型下转录 1.2 小时音频时间为 8 分钟
- RTX3080Ti 显卡在 Large 模型下转录 0.4 小时日漫时间为 2 分钟
- RTX3060 laptop 显卡在 Large 模型下转录 1.2 小时音频时间为 20 分钟
- RTX3060 在 Large 模型下转录 1.2 小时音频时间为 12 分钟
- 6600XT 显卡在 Large 模型下转录 1.2 小时音频时间为 11 分钟
- 5700XT 显卡在 Large 模型下转录 1.2 小时音频时间为 15 分钟
注意:
- 出现繁体中文,请在转录界面上使用提示词:简体中文。
- 出现重复词汇,可以手动删除或更换模型,我们后续解决模型幻听问题。
在此感谢 GPU 测试群中的朋友抽时间测试!
转录:Mac 支持 coreML 加速
Mac 现在也可以启动加速啦,不过启用这个加速需要额外做一些工作。
- 另外首次加载时间略长,时间不敏感的朋友可以尝试。
- 经过测试,64G 的 M1 Max 加载模型需要 15 分钟,以此类推,不同设备加载时长可能延长。
另外,如果出现出现重复文字的幻觉情况,请在设置 - 实验室切换为 CPU,然后重启。适用于 1.0.3 版本用户。
Translation: Open AI Translation
Given China's generative regulations, we can't use OpenAI to translate in Simplified Chinese. We'll hook up a China's big model later for the AI translation instead.
If you're seeing this in English, head to Settings - Translation and switch to OpenAI translation. Keep in mind the quality depends on the prompt, so use the prompt words "output full sentences." It might also stop working sometimes - we'll get a segmented algorithm online later to help with that.
更多更新
- 界面 UI 调整,笔记的 UI 变为 icon,界面更统一。
- 翻译支持长文本,谷歌因为支持长文本后,如果调用频繁会封禁 IP。后续会提供填写 Key 的方式。
- 自动更新,新版自动升级,无需手动下载。
还有更多就交给大家探索啦,用的愉快~
2023-08-13 V1.0.4 Beta
- 笔记:悬浮笔记,快捷时间戳、截图!
- 字幕:支持导入本地字幕、双语字幕导出
- 翻译:支持翻译配置测试,界面样式改版
- 播放器:支持剧场模式
- 空间:内容隔离,家人共用一台电脑看不同内容
2023-07-22 V1.0.3 Beta
- 翻译:支持更多翻译平台:火山、DeepL、微软翻译
- 字幕:支持字幕编辑与单行翻译
- 播放:支持全屏字幕
2023-07-12 V1.0.2 Beta
这次多达几千份内测申请让我们猝不及防,算是开心的烦恼。开心是原来被这么多人需要,烦恼是需要手动筛选处理申请。还好,这都是幸福!
这一次我们带来了重磅能力:
- 剪辑:段落剪辑,粗剪内容更高效~字幕滚动
- 代理:优化代理获取逻辑
- 导入:Notion 导入支持
2023-07-06 V1.0.1 Beta
这次带来了翻译能力,支持多达九十六种语言。
2023-06-13 V1.0.0 Beta
第一个版本发布,算是一个小小的里程碑。在第一个版本中,拥有以下能力:
- 多格式:mp3、wav、aac、m4a、mkv、avi、mp4、mov 等多格式支持导入
- 多语言:支持中文、English、Deutsch、ltaliano、日本語
- 自定义 Prompt:可以让 AI 识别是四川话还是河南话,是美式英文还是英式英文。可以这样说"这是一段四川话的说法",就可以识别四川话啦~
- 导出:支持 Markdown,字幕 SRT 等常见的导出格式
还有实时字幕预览,实时流,批量替换,字幕合并更多功能等待发掘!