RT @moyix: Now that Code Llama has support for super long contexts (allegedly up to ~100k tokens) I should retry my whole program summarization script with it... github.com/moyix/gpt-wpre
posted at 23:53:39
RT @TadaoYamaoka: はてなブログに投稿しました #はてなブログ 拡散モデルで将棋の方策を学習する その4 - TadaoYamaokaの開発日記 tadaoyamaoka.hatenablog.com/entry/2023/09/…
posted at 23:48:09
RT @studiomasakaki: ワイControlnet信者すぎて、雑塗りi2iを軽視してたの本当に反省してるんですよね。本当に最近、雑塗りi2iこそ構図の脳内イメージをAIに伝える最強Controlnetなのでは?と思いつつあるw twitter.com/Neve_AI/status…
posted at 23:47:59
RT @rakuichirakuthe: 寺沢武一先生亡くなったのか… セリフのセンスが天才的過ぎる人だった… pic.twitter.com/YNXY9PJZjv
posted at 23:44:49
RT @AiXsatoshi: Textbook is all you need、phi-1_5 13億パラメーター、ほとんどが合成データで学習 合成データセットの作成が、近い将来、AIの研究の中心的なトピックとなるとともに、重要な技術的スキルとなると予測 huggingface.co/microsoft/phi-…
posted at 23:40:00
tech.drobe.co.jp/entry/2023/09/…
posted at 21:55:51
RT @matsui_kota: 今回の自分へのお土産。データ駆動な仮説生成というテーマがドンピシャで読み物としても面白そう。まだまだ気付いてないだけで良き本がたくさんあるなあ pic.twitter.com/ZaPNkiVDPM
posted at 21:20:44
posted at 20:34:37
しかし、車はいた www.hbc.co.jp/news/5e7356121…
posted at 20:32:03
RT @iScienceLuvr: Textbooks Are All You Need II: phi-1.5 technical report Open-sourcing a 1.3B-param general-purpose language model trained on 30B tokens of mostly synthetic data that is comparable in performance to Llama-2-7B. Also describes an additional set of models trained on filtered web… twitter.com/i/web/status/1… pic.twitter.com/GbWNEiMxZB
posted at 20:12:36
RT @Sumidano871: 「正直であることの宣誓に最初に署名する方が,最後に署名するよりも不正が減る」研究2012 ↓ 社会で実践される,フィールド再現× ↓ 複数の概念的追試が行われたが再現× ↓ 原著者と直接的追試したけど再現× ↓ データ捏造が明らかに ↓ 論文撤回2021 ドラマの様な展開だ… www.pnas.org/doi/10.1073/pn…
posted at 19:41:35
RT @ai_database: LLMが巡回セールスマン問題などの最適化問題を解く〜自分自身が優れたプロンプトを作成&活用〜 aiboom.net/archives/55087 DeepMindによる本研究報告に対する人々の反応は、ほとんどが驚きの声でした。 最適化問題を解くためにLLM自身が作り出した優れたプロンプトも多数掲載しています。
posted at 19:41:10
RT @gneubig: There are so many design decisions in document QA nowadays, so out of curiosity I created a survey asking about them. Please answer if interested and I appreciate RTs for reach!: forms.gle/ZMA6ZYmZMggQ3A… I will release aggregate statistics if I get enough responses (30-40+?) pic.twitter.com/UoEHp6w3XT
posted at 19:27:45
RT @yans_official: NLP若手の会第18回シンポジウムの開催報告を公開しました🌱 チュートリアルや招待セッション,ハッカソン各チームの資料を公開しております👀 ご参加/ご支援いただいた皆様にお礼申し上げます. 今年の #yans2023 の雰囲気について知る/思い出すきっかけになれば幸いです🙇 yans.anlp.jp/entry/yans2023…
posted at 19:24:03
RT @_akhaliq: NExT-GPT: Any-to-Any Multimodal LLM paper page: huggingface.co/papers/2309.05… While recently Multimodal Large Language Models (MM-LLMs) have made exciting strides, they mostly fall prey to the limitation of only input-side multimodal understanding, without the ability to produce… twitter.com/i/web/status/1… pic.twitter.com/N16ewq2AWo
posted at 19:23:51
RT @MotonariKambara: 本日 #RSJ2023 にて,1件共著発表があります 1K4-02 ENCHANT: 大規模言語モデルを用いた仮説生成に基づくクロスモーダル説明文生成 動作実行時における潜在的な危険性を予測・自然言語を用いて説明生成という内容です スライドも既にアップロード済みなので是非! speakerdeck.com/keio_smilab/rs…
posted at 19:21:24
RT @shiropen2: Adobe、動画内の人やモノを認識し分離するビデオセグメンテーション機能「DEVA」を発表 levtech.jp/media/article/… 映像内の各オブジェクトを追従しながら分割し続ける技術。これまでと違いどんな(大量の種類のオブジェクトカテゴリを含んだ)映像でも適応可能。 pic.twitter.com/SghATWlYJ6
posted at 19:20:37
RT @RosaRugosaBeach: GPT-3.5は否定表現をうまく理解できないのか、〇〇しないでください系の指示を出すと積極的に〇〇してくることがあり、指示しない方が平均的にマシという事態がしばしば起こる
posted at 19:16:03
RT @hiraku_mrt: 【木の研究byCGM森田T】先日シェアしたこちらの決定木の論文を夏前に暗号セキュリティの準トップ会議(*注釈🧵)であるPETS 2024に投稿していまして,森田の夏をフルにかけた修正のやりとりを経てこのたびアクセプトされました. 研究がどう行われたか興味のある人向けに開発秘話を残しますね (1/n) twitter.com/hiraku_mrt/sta…
posted at 19:13:57
posted at 19:11:26
posted at 19:10:52
RT @npaka123: Google Colab (A100) でLlama-2-70B-Chat-GPTQ を久々に試す。 ・インストール + モデルダウンロード : 2分53秒 ・9.35トークン/秒 昔より早くなってる気がする pic.twitter.com/FVQX4sMNs7
posted at 19:00:24
RT @inoichan: 香港科技大学とHuaweiのチームから自動運転のMultimodal LLMのHiLM-Dというモデルも発表されてる!完全に自動運転xLLMの時代が来てますね。マジで全力で追いかけても全くついていけない速度感で進んでる😇でも毎日最先端の研究が出てくる分野に入れるワクワク感はヤバイ!! arxiv.org/abs/2309.05186 pic.twitter.com/7qXcPZMErB
posted at 19:00:14
RT @kmotohas: このブログ、長いけどとてもいい。 ・FMOps/LLMOpsが従来のMLOpsとどう違うか ・LLMの消費者・チューナー・開発者それぞれのジャーニーの解説 ・LLMの選定基準・評価方法 ・モデルサイズごとのAWSの推奨インスタンスのリスト ・LLMアプリのサンプルアーキテクチャー aws.amazon.com/jp/blogs/news/…
posted at 19:00:06
RT @ELYZA_inc: 【お知らせ】ELYZAの技術ブログ記事を公開しました。内容は以下リンク先をご覧ください。 ■ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」の事前学習部分について解説します zenn.dev/elyza/articles…
posted at 18:59:56
RT @abacaj: I remember reading this from gwern, handengineering such a dataset is hard - but obviously a capable model seems to be able to do it pic.twitter.com/WNCds6V1aJ
posted at 18:59:03
RT @abacaj: Lots of LLM papers now pointing to "higher quality data" matters significantly more than quantity of data (always has been the case???). Phi-1.5 clearly showing that this works with a much smaller dataset. Caveat is that the data comes from an already capable model (gpt3-5,gpt-4) pic.twitter.com/bhDDNfTRxF
posted at 18:58:51
ありがたい twitter.com/karaage0703/st…
posted at 18:57:58
RT @karaage0703: モデルだけでなく、解説まで公開。菩薩なのだろうか? > ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (1) 事前学習編|Akira Sasaki (hikomimo) zenn.dev/elyza/articles… #zenn
posted at 18:53:25
RT @manjiroukeigo: LLMで報酬関数を生成してロボット制御にも使えるらしい、LLM無敵なんじゃないの? ai-scholar.tech/articles/large…
posted at 18:53:10
RT @ceekz: ChatGPTと対話してたら作れた。凄い時代だなぁ。 twitter.com/ceekz/status/1… pic.twitter.com/TjU6n2Ccbp
posted at 18:53:04
RT @hir_kurashige: 人とLLMの言語的判断は結構似ている たとえば、人とLLM (↓BERTなので厳密にはLMではないし、今日基準でLでもないけど) で苦手とする概念的判断が共通する psycnet.apa.org/record/2023-13… で、 いま言語刺激を含む実験課題の作成をしているのだけど、LLMを最初の"予備実験被験者"に使えることに気づいた
posted at 18:51:57
RT @SebastienBubeck: How far does one billion parameters take you? As it turns out, pretty far!!! Today we're releasing phi-1.5, a 1.3B parameter LLM exhibiting emergent behaviors surprisingly close to much larger LLMs. For warm-up, see an example completion w. comparison to Falcon 7B & Llama2-7B pic.twitter.com/x5qZGPjoSZ
posted at 18:47:54
RT @jaguring1: 能力を損なわずにどこまで言語モデルを小さくできるか?に挑戦した研究 (Phi-1.5) 13億パラメータを300億トークンのデータセットで学習。多くを生成データで構成。学習トークンは1500億。5倍大きなモデルに匹敵。近い将来、生成データ作成がAI研究の中心になると予想されてる arxiv.org/abs/2309.05463 pic.twitter.com/uLsR6gr6OQ
posted at 18:47:30
RT @ai_database: ○ NExT-GPT: Any-to-Any Multimodal LLM URL:arxiv.org/abs/2309.05519 デモ:89bb30ddbe725cdcd7.gradio.live プロジェクトページ:next-gpt.github.io 著者:Shengqiong Wu, Hao Fei, Leigang Qu, Wei Ji, Tat-Seng Chua 著者所属機関:シンガポール国立大学 pic.twitter.com/FEqbujqhnd
posted at 18:45:46
RT @ai_database: テキスト、画像、ビデオ、オーディオなど、任意の形式でさまざまなデータを【入力】【出力】できるマルチモーダルLLM『NExT-GPT』が登場しました。 シンガポール国立大学の研究グループによる開発です。 ○ Shengqiong Wu et al. NExT-GPT: Any-to-Any Multimodal LLM… twitter.com/i/web/status/1… pic.twitter.com/rnjyplKYcQ
posted at 18:45:28
RT @Yampeleg: Speculative decoding The trick that allows ChatGPT to generate text so fast. TL;DR: 1. Generate some of steps with a small model. 2. Predict them all (at the same time) with the large model. 3. If all agree: You just saved yourself many slow steps of large model generation.… twitter.com/i/web/status/1… pic.twitter.com/BVnfZi2C2m twitter.com/tianle_cai/sta…
posted at 13:07:46
RT @ericzelikman: Did you know there’s a task people easily solve but GPT-4 fails? From a few input-output grids, ARC asks you to infer and apply a rule With Hypothesis Search, we double GPT-4’s score arxiv.org/abs/2309.05660 w/@ruocheng_w @GabrielPoesia @evanthebouncy @nickhaber @noahdgoodman 🧵 pic.twitter.com/i5PIVfQDM6
posted at 12:38:10
RT @voooooogel: New blog post: making a transformer by hand, without training! Want to understand transformers and attention better? This post goes through assigning each weight for a GPT-2-like transformer to understand how they work. pic.twitter.com/u889HzVVoU
posted at 12:36:35
RT @_akhaliq: When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale paper page: huggingface.co/papers/2309.04… Large volumes of text data have contributed significantly to the development of large language models (LLMs) in recent years. This data is typically acquired by… twitter.com/i/web/status/1… pic.twitter.com/LwPM0LNcG1
posted at 11:56:21
RT @naka_takaya: 医学界新聞に、「ダイパ、コスパのいい」と挑戦的な題名(笑)でAI技術を使った文献検索、管理法について寄稿させていただきました! なるたけ分かりやすく解説したつもりなので、周りの若手の先生方にもAI技術のトリセツとして紹介いただけますと幸いです! twitter.com/igakukaishinbu…
posted at 00:42:40