“凤凰”大语言模型使用页面。
香港中文大学(深圳)大模型团队部分师生合照。 学校供图
“我的英文写得不好,可以帮我把这篇论文润色一下吗?”
“向我的商科同学,用大白话解释一下什么是香农定理。”
……
这些需求,香港中文大学(深圳)自主研发的“凤凰”大语言模型都可以实现!
为了更好地满足香港中文大学(深圳)校内师生的学术与实践需求,香港中文大学(深圳)师生团队联合深圳市大数据研究院自主研发了一款名为“凤凰”的大语言模型,拟在8月中旬发布内测版。
“凤凰”大语言模型结合了全球领先的人工智能技术与校园教学、研究需求,是一款经过香港中文大学(深圳)校内数据科学团队精心研发的一项人工智能应用,旨在针对校内数据进行指令微调,为广大师生提供智能化、高效率的学习与研究支持。
灵感:
从解决问题出发进行个性化辅助
一切创新都源自生活,凤凰大语言模型的构想也是如此。据了解,“凤凰”大语言模型的灵感来源于今年5月香港中文大学(深圳)师生团队的课题小组讨论。
该校数据科学学院的青年教师王本友教授,了解到学生在处理海量学术数据和文献时遇到的困难,决定带领三位出色的学生共同探索一个解决方案,希望做出一款专属于校内师生的大语言模型,真正将人工智能与校园生活无缝地结合起来。他们构想着这样的场景:“我们可以开发一款专门用于校内的大语言模型,为校内师生提供个性化的智能学习和研究辅助,让学术探索更加高效和智能化!”
王本友教授介绍:“我们要从解决问题出发,把大模型语言做到专业且简单易用,未来将会打造专属于团队的大语言模型生态。”王本友教授在获得成熟的构思之后,立刻与博士生陈志鸿同学进行了可行性的沟通,并指导计算机科学与技术专业的本科生研究助理刘禹恒同学主导研究“凤凰”项目。
随后,团队招募了三位研究助理加入团队,他们分别是来自大数据科学专业的本科生欧阳恺瑞同学、张一笛同学和来自大数据研究院的研究助理宋定杰。他们融合各自的专业知识和热情,通宵达旦地研究、探索和迭代。经过数月的不懈努力,“凤凰”大语言模型拟在8月中旬发布内测版。
技术特点:
秉持以数据为中心的计算方式
提供个性化、有价值的交互体验
大模型发展到现在,研究从模型和算法转到了以数据为中心(Data-centric)。Data-centric是一个新概念,该校研发团队秉持以数据为中心的计算方式,完成了数据工程,指令微调反馈学习和检索增强等一系列关键步骤。
为了让“凤凰”模型更好地适用于校园场景,该团队采用了渐进式的两阶段模型训练策略。
首先,在通用语料上对模型进行了全参数量的指令微调,从而获得了与人类回复相一致的“凤凰”基础模型。在第二阶段,团队运用丰富多样的校内数据对模型进行了进一步的训练,让其学习学校相关的知识,理解学生和家长的问题意图,并能够提供更贴近校园教学和研究的回复,从而提升了模型在校园场景中理解并回答特定问题的能力。这样的训练策略确保了“凤凰”模型在校园环境中表现出色,为用户提供了更加个性化和有价值的交互体验。
为了进一步提高模型回答的正确性,团队在生成模型的基础上添加了检索器,设计了检索增强算法并将自研的混合检索算法结合,在模型生成的基础回答上,将数据库检索出的相关语料注入上下文语料,增强提示信息,生成更高准确性的回答。
应用场景:
校园内有着广泛的应用场景
还开发医疗健康领域大模型
“凤凰”大语言模型在校园内有着广泛的应用场景,包括但不限于:学术研究助力、科研项目支持、校园信息查询。
无论是实验设计还是数据分析,它都能为科研团队提供关键支持,推动创新成果的产出,让科研更加高效。对于论文写作,可以请求“凤凰”进行润色,让文章更加流畅。
以前,为了获取校园设施、行政流程、讲座讯息、教授研究领域、某个学院师资力量等方面信息的资讯,师生可能需要在数十个校内公众号间来回切换获取信息。如今,有了“凤凰”大模型,只需轻松提出问题,“凤凰”将会深入研究,呈现准确的信息,为学术和生活提供便捷的指引。
“凤凰”不仅仅是一款应用,更是智慧校园导航。想知道学校有几个食堂?哪些菜品好吃实惠?向“凤凰”提问,它会一一解答,方便快速了解校园的方方面面。
据介绍,“凤凰”在具有香港中文大学(深圳)校内知识的同时,具有强大的智慧内核。通过此技术,团队希望模型的输出更加贴近校园现实,为校内师生提供真正有用的智能化建议与支持。
在使用期间,“凤凰”研发团队深知数据安全与隐私保护的重要性。所有“凤凰”大语言模型的应用都遵循严格的数据隐私保护原则,确保师生的个人信息与学术数据。
目前,香港中文大学(深圳)研发团队除了开发了“凤凰”,还同时开发了专注于医疗健康领域的大模型“华佗GPT”。公开资料显示,2023年2月,研发团队发布的“华佗GPT”是首个国内类ChatGPT的医疗大模型,也是国内公开的首个通过多个医疗资格考试的大模型,目前线上已经有十几万用户体验了“华佗GPT”的功能。
采写:南都记者 伍曼娜 通讯员 马明霞