deep learning projects Advanced Deep Learning BTech Projects

THE FIVE-DOLLAR MODEL: GENERATING GAME MAPS AND SPRITES FROM SENTENCE EMBEDDINGS

THE FIVE-DOLLAR MODEL IS A LIGHTWEIGHT TEXT-TO-IMAGE GENERATIVE ARCHITECTURE THAT GENERATES LOW DIMENSIONAL IMAGES FROM AN END TEXT PROMPT.

CAMEL: COMMUNICATIVE AGENTS FOR MIND” EXPLORATION OF LARGE SCALE LANGUAGE MODEL SOCIETY “

TO ADDRESS THE CHALLENGES OF ACHIEVING AUTONOMOUS COOPERATION, WE PROPOSE A NOVEL COMMUNICATIVE AGENT FRAMEWORK NAMED ROLE-PLAYING.

SADTALKER: LEARNING REALISTIC 3D MOTION COEFFICIENTS FOR STYLIZED AUDIO-DRIVEN SINGLE IMAGE TALKING FACE ANIMATION

WE PRESENT SADTALKER, WHICH GENERATES 3D MOTION COEFFICIENTS (HEAD POSE, EXPRESSION) OF THE 3DMM FROM AUDIO AND IMPLICITLY MODULATES A NOVEL 3D-AWARE FACE RENDER FOR TALKING HEAD GENERATION.

SILO LANGUAGE MODELS: ISOLATING LEGAL RISK IN A NONPARAMETRIC DATASTORE

SILO IS BUILT BY (1) TRAINING A PARAMETRIC LM ON OPEN LICENSE CORPUS (OLC), A NEW CORPUS WE CURATE WITH 228B TOKENS OF PUBLIC DOMAIN AND PERMISSIVELY LICENSED TEXT AND (2) AUGMENTING IT WITH A MORE GENERAL AND EASILY MODIFIABLE NONPARAMETRIC DATASTORE (E. G., CONTAINING COPYRIGHTED BOOKS OR NEWS) THAT IS ONLY QUERIED DURING INFERENCE.

RECOGNIZE ANYTHING: A STRONG IMAGE TAGGING MODEL

SEMANTIC PARSING

GENERATIVE PROMPT MODEL FOR WEAKLY SUPERVISED OBJECT LOCALIZATION

DURING TRAINING, GENPROMP CONVERTS IMAGE CATEGORY LABELS TO LEARNABLE PROMPT EMBEDDINGS WHICH ARE FED TO A GENERATIVE MODEL TO CONDITIONALLY RECOVER THE INPUT IMAGE WITH NOISE AND LEARN REPRESENTATIVE EMBEDDINGS.

TREE OF THOUGHTS: DELIBERATE PROBLEM SOLVING WITH LARGE LANGUAGE MODELS

LANGUAGE MODELS ARE INCREASINGLY BEING DEPLOYED FOR GENERAL PROBLEM SOLVING ACROSS A WIDE RANGE OF TASKS, BUT ARE STILL CONFINED TO TOKEN-LEVEL, LEFT-TO-RIGHT DECISION-MAKING PROCESSES DURING INFERENCE.

SYNJAX: STRUCTURED PROBABILITY DISTRIBUTIONS FOR JAX

THE MODELS THAT EXPLICITLY ACCOUNT FOR STRUCTURED OBJECTS, SUCH AS TREES AND SEGMENTATIONS, DID NOT BENEFIT EQUALLY BECAUSE THEY REQUIRE CUSTOM ALGORITHMS THAT ARE DIFFICULT TO IMPLEMENT IN A VECTORIZED FORM.

MEMORY TRANSFORMER

ADDING TRAINABLE MEMORY TO SELECTIVELY STORE LOCAL AS WELL AS GLOBAL REPRESENTATIONS OF A SEQUENCE IS A PROMISING DIRECTION TO IMPROVE THE TRANSFORMER MODEL.

LLM.INT8(): 8-BIT MATRIX MULTIPLICATION FOR TRANSFORMERS AT SCALE

WE DEVELOP A PROCEDURE FOR INT8 MATRIX MULTIPLICATION FOR FEED-FORWARD AND ATTENTION PROJECTION LAYERS IN TRANSFORMERS, WHICH CUT THE MEMORY NEEDED FOR INFERENCE BY HALF WHILE RETAINING FULL PRECISION PERFORMANCE.

SSLREC: A SELF-SUPERVISED LEARNING LIBRARY FOR RECOMMENDATION

OUR SSLREC PLATFORM COVERS A COMPREHENSIVE SET OF STATE-OF-THE-ART SSL-ENHANCED RECOMMENDATION MODELS ACROSS DIFFERENT SCENARIOS, ENABLING RESEARCHERS TO EVALUATE THESE CUTTING-EDGE MODELS AND DRIVE FURTHER INNOVATION IN THE FIELD.

MAXIMUM ENTROPY HETEROGENEOUS-AGENT MIRROR LEARNING

MULTI-AGENT REINFORCEMENT LEARNING (MARL) HAS BEEN SHOWN EFFECTIVE FOR COOPERATIVE GAMES IN RECENT YEARS.

TOKEN MERGING FOR FAST STABLE DIFFUSION

IN THE PROCESS, WE SPEED UP IMAGE GENERATION BY UP TO 2X AND REDUCE MEMORY CONSUMPTION BY UP TO 5. 6X.

GPT-NEOX-20B: AN OPEN-SOURCE AUTOREGRESSIVE LANGUAGE MODEL

WE INTRODUCE GPT-NEOX-20B, A 20 BILLION PARAMETER AUTOREGRESSIVE LANGUAGE MODEL TRAINED ON THE PILE, WHOSE WEIGHTS WILL BE MADE FREELY AND OPENLY AVAILABLE TO THE PUBLIC THROUGH A PERMISSIVE LICENSE.

GROUNDING DINO: MARRYING DINO WITH GROUNDED PRE-TRAINING FOR OPEN-SET OBJECT DETECTION

TO EFFECTIVELY FUSE LANGUAGE AND VISION MODALITIES, WE CONCEPTUALLY DIVIDE A CLOSED-SET DETECTOR INTO THREE PHASES AND PROPOSE A TIGHT FUSION SOLUTION, WHICH INCLUDES A FEATURE ENHANCER, A LANGUAGE-GUIDED QUERY SELECTION, AND A CROSS-MODALITY DER FOR CROSS-MODALITY FUSION.