AI越来越卷，如何走出一片天？快来阿里巴巴-南洋理工联合实验室

9月前

在这个 AI 蓬勃发展的年代，有很多投身AI的同学却觉得很迷茫。有同学说：AI 发展速度太快，paper 太多，要跟上潮流太难了。有同学说：发 paper 太难。会议投稿数量上升，可是接受率却在下降。每次投稿都被 reviewer 各种理由刁难。要不就说性能不够高，要不就是没有创新。性能和创新都有了，还要说我英文差，解释得不够清楚。还有同学说：paper 这么多，就算是发了顶会，也不一定能被人注意到并引用。

发论文越来越难，如何才能走出自己的一片天？为此，小编走访了投资数亿元的阿里巴巴和南洋理工大学联合实验室（Alibaba-NTU Joint Research Institute）的几位教授和阿里巴巴研究员，想听听他们对这些同学们关心的问题有怎样的看法。

南洋理工大学的李搏扬教授解释说：“这些现象确实一定程度上存在。比如今年 CVPR 有效投稿 11532 篇，接受率 23.6%。相比之下，去年有 9155 篇投稿，接受率 25.8%。确实存在竞争越来越激烈的现象。作为审稿人，我发现虽然投稿数量上升了，但是也出现了很多完成度不是很高的文章。在 CVPR 相对较为良好的审稿机制下，这些文章往往会成为分母。

“在竞争激烈的年代想脱颖而出，需要我们对问题有深入和前瞻性的思考。与其永远在 follow 别人，不如思考怎样去开辟新的赛道，挖掘现在还没有火但是即将火起来的小领域，让别人来 follow 我们的工作。当然，这对我们思考的深度和工作的质量也提出了更高的要求。”

阿里巴巴达摩院 NLP Lab 负责人邴立东博士说：“联合实验室致力于做独一无二的开创性工作，有影响力的工作，而不是人有我也有的工作，或者是简单的对标或者复刻性质的工作。我们认为，在 NLP 方向，多语言尤其是小语种联合学习，依托广阔的东南亚市场，就是这样一个即将火起来的方向。东南亚人口众多，市场庞大，而互联网+的渗透率还很低，属于高速增长的增量市场，也是中国互联网大厂出海的兵家必争之地。”

“东南亚的一大特点是语言多样化，市场碎片化。在最大的单一市场印尼，就有 700 多种语言。印尼的官方语言是印尼语，但是印尼近三亿人口中，有八千四百万人的母语是爪哇语。而中国基本没有爪哇语专业的毕业生。因此，中国企业要出海做生意，必须依靠 AI 和大语言模型。达摩院开发的 SeaLLMs 大语言模型，在东南亚多个小语种上取得了开源模型的 SOTA 性能 [1,2]，并发表了一系列顶会的文章 [3,4]，接下来在联合实验室会继续强化这方面的工作。”

南洋理工大学的 Chng Eng Siong 教授介绍了他在语音识别（automatic speech recognition）方面的工作。由于语言多样和文化融合，东南亚很多地方有一种独特的语言现象，称为语码转换（code switching 或者 language alternation）[5]。如下面这个例子，就展示了新加坡语言中融合六种不同语言的情况。

“同时，语言中语调和重音的变化，也是重要的信息传递的管道，这也将会是我在联合实验室的主要研究方向。”

南洋理工大学的 Luu Anh Tuan 教授介绍说，他的研究方向，将会把重点放在提升大语言模型的训练效率和执行效率方面 [6]。大语言模型对算力和电能的需求极大，尽管产生经济效益，但是却不符合绿色智能，节碳减排的要求，因此这方面是有巨大潜力的研究方向，也是联合实验室题中应有之义。

李搏扬教授最后介绍说，他认为以数据为核心的 AI（Data-centric AI）是未来几年有极大发展潜力的方向。其实很多模型结构和算法方面的改进，都没有数据上的改进，对模型的帮助更大。他最新的在多模态大模型和训练数据的文章 [7] 已经被 NAACL 2024 接收。

加入我们

我们正在寻找对大语言模型研究充满热情的科学家，加入我们的团队，共同探索前沿研究方向，从而为东南亚地区的语言多样性和技术包容性作出贡献。具体的研究方向包括：

数据与评测：

涉及预训练、精调及评估数据的构建工作，以及针对特定领域（如教育和医疗）的数据整合。我们特别强调本地语言特有数据的重要性，这对于支持模型更好地学习和适应东南亚地区众多小语种的特点至关重要。此外，我们也致力于研究如何评估数据的质量和多样性，以确保数据集的全面性和适用性。

大型语言模型构建：

我们致力于开发高效的训练方法，增强模型对低资源语言的理解。通过跨语言知识迁移和多模态学习，本项目旨在提升模型对不同模态——如图像、视频和音频——的理解能力，同时探索扩展模型以生成多模态输出的可能性。

语音中情感的并行语言学表示：

探索如何将语音信号中的情感特征有效地融入到 LLM 的表示中，以提升模型对语音的深层理解。项目旨在捕捉语音中的副语言线索，如情感、性别和年龄，使得未来的 LLM 系统不仅能够理解语音的文字内容，还能准确感知说话的语气和情绪。

联合实验室有博士后和研究助理的岗位开放，我们诚邀对这些研究方向感兴趣的科学家加入我们，共同推动东南亚地区语言技术的进步和发展。如果您热衷于通过创新技术解决真实世界的挑战，并渴望在一个充满活力的团队中发挥您的才能，我们期待您的加入。

有意向的同学，请发送简历到以下两个邮箱：

[email protected]

参考文献

[1] Xuan-Phi Nguyen, Wenxuan Zhang, Xin Li, Mahani Aljunied, Qingyu Tan, Liying Cheng, Guanzheng Chen, Yue Deng, Sen Yang, Chaoqun Liu, Hang Zhang, Lidong Bing. SeaLLMs -- Large Language Models for Southeast Asia. Preprint arXiv:2312.00738, 2023.

[2] https://damo-nlp-sg.github.io/SeaLLMs/

[3] Yue Deng, Wenxuan Zhang, Sinno Jialin Pan, Lidong Bing.Multilingual Jailbreak Challenges in Large Language Models. ICLR, 2024.

[4] Wenxuan Zhang, Sharifah Mahani Aljunied, Chang Gao, Yew Ken Chia, Lidong Bing. M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models. NeurIPS, 2023.

[5] Chen Chen, Yuchen Hu, Chao-Han Huck Yang, Sabato Marco Siniscalchi, Pin-Yu Chen, Eng-Siong Chng. Hyporadise: An open baseline for generative speech recognition with large language models. NeurIPS 2023.

[6] Thong Nguyen, Xiaobao Wu, Xinshuai Dong, Khoi Le, Zhiyuan Hu, Cong-Duy Nguyen, See Kiong Ng, Luu Anh Tuan. READ-PVLA: Recurrent Adapter with Partial Video-Language Alignment for Parameter-Efficient Transfer Learning in Low-Resource Video-Language Modeling. AAAI 2024.

[7] Anthony Meng Huat Tiong, Junqi Zhao, Boyang Li, Junnan Li, Steven CH Hoi, and Caiming Xiong. What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases. NAACL 2024.

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

微信扫码关注该文公众号作者

来源：PaperWeekly

AI越来越卷，如何走出一片天？快来阿里巴巴-南洋理工联合实验室

相关新闻