用大模型读取你的想法，并转化成文本！恐怖的DeWave模型

站长网2024-01-04 15:30:070阅

悉尼科技大学的科研人员，通过大语言模型、EEG（大脑活动检测工具）、脑机接口等技术，开发了一个可自动读取人类想法，并转化成文本的AI大模型——DeWave。

DeWave的使用方法非常简单，用户只需要戴上EEG，然后开启你的思维活动，DeWave就能将你的想法直接翻译成文本，就像现实版的《读心人》非常“恐怖”。

相比马斯克的Neuralink脑机接口芯片，DeWave使用更加简单方便，无需做昂贵的手术植入芯片，通过海量数据训练的大模型就能将脑电波翻译成文本。

DeWave可帮助那些无法说话的脑血栓、中风、聋哑人等，可与正常人进行交流，目前翻译的准确率在40%左右。其实这个产品用于谈恋爱场景也不错，双方都带上这个，再也不怕对方撒谎了。

值得一提的是，该研究已经被全球顶级机器学习大会“NeurIPS”，评选为重要论文。

论文地址:https://arxiv.org/abs/2309.14030v3

DeWave功能展示

其实这项技术与去年10月19日，Meta发布的通过MEG（另外一种大脑活动检测工具）重构人类大脑成像过程有点类似。都是通过EEG、MEG等工具捕获大脑微弱活动电流，检测这些磁场变化，然后获得脑部活动数据。

获得原始大脑数据后，研究人员就可以用大语言模型等对其进行解码，提取重要的视觉、文本信息。所以，获取大脑活动数据是翻译、重构人类想法、思维画面的关键基础。

Meta的论文地址:https://ai.meta.com/static-resource/image-decoding

DeWave简单介绍

DeWave的核心技术思路是，将连续的脑电波信号转化为离散的编码，然后输入预训练的大语言模型进行文本翻译。

首先，通过向量量化变分编码器的结构，将接收到的脑电波信号，转换成一系列向量化的特征表示。

然后，这些特征表示会被进一步转化为一系列离散的代码，每个代码都对应码本里的一个离散词向量。码本就像一个字典，里面有限个数的离散词向量。特征表示通过在码本中找到最匹配的那个离散词向量，来获得对应的离散代码。

在得到一系列离散代码之后，就可以像处理语言词向量一样，输入到预训练的大语言模型，最终生成翻译的文本内容。

DeWave训练流程

DeWave的训练流程主要分为三个阶段:1）自监督编码器预训练（仅原始EEG脑磁波)，这一阶段会先训练一个脑电波自编码模型，输入原始EEG波形，通过重建实现自监督。这样可以提取有用的时域和频域特征。

2）编码器和码本训练，固定好波形编码器后，训练Transformer编码器与离散码本，获得稳定可分离的脑电波表示。

3）端到端微调，解冻大语言模型允许端到端训练。在编码器引导下微调BART模型，实现EEG到文本的生成。需要注意的是，对词级特征输入并不需要第一阶段的预训练，可以直接从第二阶段开始。

DeWave局限性

研究人员表示，DeWave模型在将脑电波转化为文本的任务中取得了一定的成果，但也存在一些局限性。

依赖于预训练大语言模型:DeWave在实现脑电波到文本的转换过程中使用了预训练大语言模型，如BART。

这意味着DeWave方法的性能受限于预训练语言模型的质量和能力。如果预训练语言模型不够准确或不具备广泛的语言理解能力，可能会影响到DeWave方法的翻译性能。

对平行数据的依赖性:DeWave方法在训练过程中需要使用平行的脑电波和文本对数据，以进行监督学习。

然而，获取大规模的平行数据对于某些任务可能是困难的或成本较高的。因此，如果缺乏足够的平行数据，DeWave方法的性能可能会受到限制。

对标记的依赖性:尽管DeWave方法在文中声称可以在没有标记（如眼动追踪）的情况下实现脑电波到文本的翻译，但它仍然依赖于基于标记的对齐过程。

DeWave使用了事件标记来将脑电波分割成单词级别的特征，这可能导致在没有标记的情况下无法准确地对脑电波进行分割和翻译。

悉尼科技大学首席研究员兼DeWave作者， Chin-Teng Lin表示，DeWave是第一个将离散编码集成在大脑到文本翻译领域的产品，引入了一种创新的神经解码方法。同时与大语言模型的集成，也开辟了神经科学和AI相结合的全新探索。

什么是EEG

EEG 是电脑图（Electroencephalogram）的缩写，它是一种记录大脑电活动的检测方法。EEG 主要是通过头皮上的电极来捕捉大脑神经细胞之间通信的微小电信号。

大脑活动产生电流，当神经细胞（神经元）被激活时，它们会产生电信号。EEG 检测的是大量神经元同步活动所产生的电位变化。主要用于科学研究、脑部检测、脑部疾病治疗等。

什么是MEG

MEG，全称为脑磁图（Magnetoencephalography），是一种神经成像技术，用于测量大脑活动中产生的极微弱的磁场。MEG能够提供关于大脑功能的空间和时间信息。

MEG的工作原理是基于生物电活动产生磁场的物理原理。当大脑中的神经元活动时，它们会产生微小的电流，这些电流会产生相应的磁场。

MEG设备使用一种非常灵敏的传感器，称为超导量子干涉设备（SQUIDs），来检测这些微小的磁场。

MEG主要应用:定位脑功能、研究大脑通信、诊断和治疗规划、研究神经发育和疾病等。

用大模型读取你的想法并转化成文本恐怖的DeWave模型

0000

评论列表

共(0)条

相关推荐

站长资讯
基于 Gemini 谷歌携手 Fitbit 开发“个人健康大语言模型”
据谷歌官方消息，该公司旗下的GoogleResearch将与Fitbit团队合作，共同开发一款"个人健康大语言模型"(PersonalHealthLargeLanguageModel)。该模型将基于Gemini模型，并利用一系列健康数据进行微调，以增强对人类生理及行为数据的分析能力。
站长网2024-03-26 11:29:43
0001
站长资讯
俞敏洪道歉后董宇辉发声抗拒卖货：称非常反感被叫网红
站长之家（ChinaZ.com）6月11日消息:6月11日，东方甄选股价下跌一度超过10%，最终收跌9.01%，报13.94港元。近期，东方甄选的高管董宇辉在一档户外电台节目中表达了对直播带货的复杂情感。他坦言自己非常抗拒卖东西，并且至今仍未完全享受这份工作。董宇辉表示，这种态度可能源于他过去的职业性格和当前工作之间的冲突。尽管他认可直播带货的社会意义，但个人情感上并未感到喜悦。
站长网2024-06-12 08:39:45
0000
B站发布2024年Q2财报：毛利润同比增长49% 上半年实现24亿正向经营现金流
快科技8月22日消息，B站公布了截至2024年6月30日的第二季度未经审计的财务报告。第二季度，B站总营收同比增长16%，达61.3亿元人民币。其中，广告收入同比增长30%，游戏收入同比增长13%。随着高毛利的广告和游戏业务增长，二季度B站毛利润同比提升49%，毛利率连续8个季度环比提升至29.9%。此外，二季度B站实现17.5亿元正向经营现金流，上半年累计实现24亿元正向经营现金流。
站长网站长资讯2024-08-22 22:01:57
0000
魔改Stable Diffusion，开源创新“单目深度估计”模型
单目深度估计一直是计算机视觉领域的难点。仅凭一张RGB图像，想要还原出场景的三维结构，在几何结构上非常不确定，必须依赖复杂的场景理解能力。即便使用更强大的深度学习模型来实现，也面临算力需求高、图像数据注释量大、泛化能力弱等缺点。
站长网站长资讯2024-01-02 09:20:33
0001
站长资讯
谷歌：大模型不仅有涌现能力，训练时间长了还有「领悟」能力
模型在达到一定规模时会出现涌现现象，谷歌的研究表明，模型在训练到一定时间后，会出现另一种现象，即「领悟」现象。2021年，研究人员在训练一系列微型模型时取得了一个惊人的发现，即模型经过长时间的训练后，会有一个变化，从开始只会「记忆训练数据」，转变为对没见过的数据也表现出很强的泛化能力。这种现象被称为「领悟（grokking）」，如下图所示，模型在长时间拟合训练数据后，「领悟」现象会突然出现。
站长网2023-08-16 09:29:57
0000