難問データセットSWE-benchとは?AIによるプログラミング能力の新たな評価基準

エンジニアの又川(@n_matagawa)です。 今回はAIによるソフトウェア自動開発の新しいベンチマーク(評価基準)として注目されている SWE-bench を紹介します。 はじめに 皆さんは AI のプログラミング能力がどのように測られているかご存知でしょうか? 2024年4月時点で代表的なのは OpenAI 社による HumanEval (2021) というベンチマークです。まずはこちらを紹 …

このエントリーをはてなブックマークに追加

AIに仕事をさせましょう、CrewAIと共に

AIに仕事をさせましょう

このチュートリアルでは、CrewAIを活用して、さまざまなタスクを実行できる複数のAIエージェントを作成し、展開する方法を実証します。GPT-4モデルの能力を示す数え切れないほどのチュートリアルがありますが、今回は無料でオープンソースのモデルを利用します。これにより、コストをかけることなくAIエージェントについて学ぶことができ、驚くほどうまく機能することに気づくでしょう。 作成するアプリケーション …

このエントリーをはてなブックマークに追加

2024/3月社内Tech勉強会レポート – オフライン/PyTorchによる株価予測モデルなど

こんにちは。 前回の「急に良い子」が終わってしまった息子と、保育園登園まで絵本を何冊読ませられるのか?という仁義なき戦いを毎日繰り広げている江口です。 今回は2月/3月に1Day Officeにて、オフライン開催されたTech勉強会の様子をご紹介します!! PyToachによる株価予測モデル 新卒で二年目の新人エンジニアであるKさんが発表してくれました。 GPUも自前で購入し、独学で機械学習の勉強 …

このエントリーをはてなブックマークに追加