事情是这样的,前段时间阿里云ai大模型“通义千问”今天向我发出邀测,然后我将从以下几个方面对它进行测评。
第一个环节:基本的语意理解与逻辑表达,那么我就对AI进行提问:我是一个自媒体,有大公司找我测评,但是这东西客观上他有亮点,也有不足我应该怎么做才能既不把自己的路走窄了,又坚守自己的节操。
【资料图】
说的好啊,对不足之处应该客观描述 提一些建设性意见,不要夸大优点对存在的问题要实事求是,不要过分迎合甲方。说的有道理 那你说的对那那我可听你的啦 那么其实在回答中呢我们可以看出来通义千问目前在理解和逻辑方面没有问题,但是在中文表达方面是存在着a i大模型早期版本的通病的,那就是一句车轱辘话来回嚼。
第二环节:编程能力,我个人的期望值比较低,可能国产a i大模型的重心不在这吧。看看吧,先来考考后端用GO语言写一段代码,用来讲某文件夹中的所有文件重命名为文件的创建时间,看下同通义千问按要求写出来的代码,就还是出乎意料的挺有版有眼了可以说。
拷下来来运行一下,你会发现只有一处小毛病,把这处小毛病改正以后,再根据实际情况进行两处配置,这段代码就真的能运行。而且能达到我的要求,他真的把文件名重命名为创建时间了,虽然说把我的后缀名改没了,但是我没有做特殊要求也不能算他有毛病。
他是懂代码的,再来考考前端,帮我用前端三大件写一个页面,用来验证手机号格式是否正确。看了一下他给出来的结果也不错,这判断也是讲道理的,位数跟号段都考虑到了。拷过来运行一下试试,要不我一个字都没敢直接使用,打开后你会发现他这个格式验证逻辑是起效的。通义千问他是董代码的,国产a i大模型能写代码了。他这个代码能力在我这绝对是及格的,而且是出乎意料拿到了及格。
第三环节:文案能力,我们先来考察他实用性这一块,也就是帮我们写一些工作中用得着的,有固定格式和文体要求的八股文。我这边让他先列了一个提纲,又写了一封邮件,最后进行了一次活动策划。可以看到他完成的都不错,应该说对于我们打工人来说通义千问已经具备了相当的实用性。
但是到了文学创作自由发挥的时候就略显疲软了,比如说它放出来一个功能,叫为你写诗,输入三个中文词把它编成一首诗。我们用他最拿手的三个势力词,春天、花海、白云生成的结果,这首诗也就勉强能叫诗...吧?
那么其实到目前为止,在编程能力这一块通义千问是明显强于我上期测过的文心一言的,甚至是可以与chat GPT3.5掰掰手腕的。但是在中文的自然表达以及文学创作方面其实是逊色于文心一言的。
第四环节:拓展性与想象空间,在这一环节我会尝试用语言指令去改变对方的行为模式,注意这里说的改变行为模式。要比简单的让对方扮演猫娘或者老母亲说话这种改变语气和用词要来得更近一步。我要求你把你的行为模式从陪我聊天改变成我的备忘录,帮我记录一下我所说的内容和具体时间,并在我问题时反馈给我。
之前我在测试的时候chat GPT是可以办到的,但是文心一言还不太行,我们看下通义千问这边。操作给大家看,他确实把自己的行为模式从一个陪聊者变成了一个记录者。但是当我存完信息想要去取的时候,出了点问题,他明明是有上下文联系的记忆力的,同时他也可以改变自己的行为模式,但是把这两件事情结合起来就出了点问题,尤其是你看最后一句话,他明明就是在揣着明白装糊涂。你能感觉到他离成功已经很近了,就差二寸了,我相信在下一个版本肯定就可以做到。
我可以总结一下吧,我原以为通义千问会是一个文科生形象,但是经过几天的试用,在我眼里他是一个理科生。就是他在自然科学和专业知识方面表现是比较优秀的,但是涉及到人文社科或者文学创作方面还是有待提高。
你就能明显的感觉到他背后的那个知识库的质量是上乘的,但是欠操练, 还是有一段路要走。但是在这几天的试用的过程中我能明显的感觉到通义千问他现阶段的迭代速度是以天文单位的,就是每天都有进步,每天都有进步。
因此通义千问在我眼里绝对能评得上一句 未来可期了,今天就到这吧。
关注我,带你提前走进AI智能新时代。