激发新一代科学和医学的发现

AI can help people with disabilities

LIKE THIS STORY:
Rating Unavailable
LIKES SO FAR
埃里克·布斯90岁的祖母来看他时, 她的听力已经严重恶化,即使戴上助听器, 她很难理解人们在说什么. 他看着她靠近说话的人,试图读懂他们的唇语, struggling to comprehend what was said. 当不止一个说话者参与其中时,她经常会忘记谈话内容.

后来,Eric——美光的云计算高级业务开发经理——有了一个主意. 他的祖母有一部智能手机,所以为什么不让它为她“倾听”呢? He opened her notes application, pushed the microphone button, 并向她展示了它是如何将他的演讲转录成屏幕上的文字的.

“She was just so excited, grinning from ear to ear. 现在她能够参与到过去无法参与的对话中,”他说. “这就是这项技术如何真正改善有语言的人的生活质量, language and hearing disorders.”

将语音转换为文本的技术可能看起来很简单,很容易被忽视,但这是一个复杂的过程,需要几十年的时间才能发展到今天的水平.

A fast-advancing technology

自从第一个语音识别(SR)设备出现以来,已经有很长时间了, Audrey, debuted. Bell Laboratories introduced Audrey in 1962. 这台六英尺高的计算机只能识别个位数. Instead of producing text, 它闪烁的灯与说出的数字相对应——闪烁九次代表“九”这个词,” for instance. 

Even a few years ago, SR技术不是很友好:经常不准确, 即使是最轻微的环境声音也无法过滤掉, slow to transcribe. SR要真正发挥作用还有很长的路要走.

Today, SR is enabled by advances in AI, virtual assistant technology, 5G cellular technology, and memory, storage and computer processing. 这使我们能够做许多以前做不到的事情:用我们从未说过的语言进行交流, transcribe long recordings almost instantly, 只要对着空气说几句话,我们想要的几乎任何东西都会被送到家门口.

现在,生成式人工智能正在进一步提升这项技术. 而语音识别则将音频解析为文本, 生成式人工智能处理文本以真正理解其含义. Not just, What are the words? but, What do the words mean? Are the words asking a question? If so, what is the answer?

This type of machine learning can create text, video, images, computer code and other content, based on user prompts or dialogue. 基于语音识别的生成式人工智能将学习提升到了一个新的水平, 开启了这项技术进一步帮助有语言或听力障碍的人的可能性.

而灵活的语音识别吸收的语言可能不遵循正常的语音模式, 生成式人工智能和自然语言处理(NLP)可以理解它,并将其转化为相关的建议. 这个过程使整体的,高度个性化的语言治疗成为可能.

Eric’s own daughter took part in speech therapy, 所以他对所需的时间和精力有第一手的了解. 这些经历激励他报名参加爱达荷州博伊西州立大学的博士课程,研究技术如何帮助有语言障碍的儿童.

“In speech therapy, 我们过去认为,治疗师会给学生提供阅读内容,然后用一个工具来评分他们在发音和发音方面的表现,” explains Eric. “但有了生成式人工智能,就有可能出现一种能够处理整个过程的工具. It excels in identifying patterns, so it can tell if a student is, for instance, consistently mispronouncing their Os.”

Large language models

Until recently, 语音识别意味着你需要一个拥有大量内存的大型服务器, and any data collected had to go to the cloud. Now, speech recognition is built into your phone. The compute has gotten faster, the memory has gotten faster, 以前的数据中心流程现在在你的手机上.

很快,生成式人工智能过程也将出现在你的手机或其他终端设备上. 因为人工智能模型的训练过程不仅仅是制作更复杂的模型, 还可以简化它们,以便在手机或PC等终端设备上工作. As these large language models grow, 在云环境之外进行培训是不可能的. 但是,一旦你对它进行训练,然后进行简化,它就可以移动到终端设备上.

在过去的几年里,大型语言模型取得了巨大的进步:

“这些模型是生成式人工智能聊天机器人和高级搜索功能的关键,”埃里克说. “大型语言模型有数万亿个参数. 几年前,一万亿参数是不可想象的——它无法被处理. Today, a trillion is baseline. 当然,模型越大,它就越智能. 这正是驱动计算和内存需求的原因.”

自然语言处理和生成式人工智能需要强大的大型语言模型训练, and the more parameters, the more memory is required (see figure 1.)

 
Figure 1

为了解决这些不断扩展的模型,迁移学习变得越来越流行. 这是在给定环境中使用大量数据训练模型的思想, 然后对该模型中的参数进行微调,使其适用于具有较小数据集的另一个上下文中. 假设大数据集是成人语言,小数据集是儿童语言. 迁移学习为你提供了一个对两者都准确的模型. 如果你试着训练一个主要是成人语言的模型,其中也有一些儿童语言, it wouldn’t be nearly as accurate. 在一个上下文中,在一个健壮的数据集上训练数据的组合, 然后将其移动到另一个上下文中,并使用更少的数据对其进行微调,这是非常有效的. 埃里克在他的论文中记录了很多这方面的进展, 评估和改进儿童导向的自动语音识别.

神经网络的预训练也遵循同样的思路. (The “P” in ChatGPT™ stands for pre-training.)这也是沙巴体育安卓版下载在一个任务或数据集上训练模型, 然后使用这些参数在不同的任务或数据集上训练另一个模型. For ChatGPT, for example, 该模型已经在来自互联网的大量会话数据上进行了预训练,因此它可以回答一般问题, 然后,它根据从提示接收到的附加上下文适应当前对话. 这给了模型一个良好的开端,而不是从头开始. 现在您有了一个具有少量数据的健壮模型.

如今,许多人工智能研究人员都专注于生成式人工智能. And that’s not just because of ChatGPT buzz, 这也是因为它在医疗保健和其他行业的潜在应用.

Helping those who need it most

More than one million children in the U.S. 在学校接受言语和语言障碍的专业帮助 American Speech-Language-Hearing Association. Overall, 8%的儿童有语言迟缓或残疾, Eric says.

“你不能在公开市场上买到一套针对儿童的语言治疗技术,” he says. “It doesn’t exist.他说,这项技术是必要的,尤其是对低收入家庭的孩子. 对儿童进行评估至少需要两个小时, Eric says, 但政府项目可能只支付30分钟的费用.

“很多占用治疗师时间的事情都可以通过电脑来完成,这样治疗师就可以腾出时间来做更长期的计划和更集中的治疗疗程,” he says.

有学习障碍的儿童,如诵读困难症,也可以从将他们的口语转录成文本中受益, 根据学习障碍资源基金会. 比如巧妙地使用“对话转文本”来帮助埃里克的祖母加入对话, 这种基础人工智能技术有许多未开发和无法想象的用例.

Powering generative AI and SR

Today, Micron is developing ever-denser, 更快的内存和存储使得语言处理可以直接在手机上进行,而不是在云端, saving data transmission time.

To power these endpoint devices, 美光的低功耗双数据速率5X (LPDDR5X)内存提供了电源效率和性能的平衡,实现了无缝的用户体验. LPDDR5X提供最快,最先进的移动存储器,峰值速度为8.每秒533千兆比特(Gbps),比上一代快33%. LPDDR5X的速度和带宽对于拥有强大的生成式人工智能至关重要.

With generative AI, SR越来越接近于像人类大脑一样快速准确地工作. 但是,要实现这一目标仍然存在巨大的障碍, especially for processing the speech of children, accents, and for people with hearing or speech disabilities. Eric正在从事的项目可以真正改变生成式人工智能技术丰富所有人生活的方式.

但生成式人工智能正在使用深度学习从越来越自然的语音中生成文本——更像人类的语音. In the past, AI models exceled at ingesting lots of data, 从诊断的角度识别模式并确定根本原因. Today, 生成式人工智能“读取”文本,并使用该数据从人类交流中做出上下文推断. It is, in essence, “training” itself. To do so, 它需要访问和同时吸收大量数据的能力, 从大量的记忆中提取以确定适当的反应. 美光技术正在使这些进步成为可能.

美光的高密度DDR5 DRAM模块和多tb的SSD存储能够提供在数据中心训练生成式人工智能模型所需的速度和容量. The newly released HBM3E 进一步提高性能,在超过1的情况下提供50%以上的容量.每秒2太字节的带宽,可以将数万亿个参数人工智能模型的训练时间减少30%以上. 随着这些技术变得更快、更准确,更多的人可以“说话”并被听到.

“在不久的将来,我们将看到生成式人工智能和SR技术在性能上的颠覆性飞跃,” Eric predicts. “看到这项技术丰富了人们的生活,我真的很酷.” 
+
+