Research - Datapro Consultancy Services

TOKEN MERGING FOR FAST STABLE DIFFUSION

IN THE PROCESS, WE SPEED UP IMAGE GENERATION BY UP TO 2X AND REDUCE MEMORY CONSUMPTION BY UP TO 5. 6X.

GPT-NEOX-20B: AN OPEN-SOURCE AUTOREGRESSIVE LANGUAGE MODEL

WE INTRODUCE GPT-NEOX-20B, A 20 BILLION PARAMETER AUTOREGRESSIVE LANGUAGE MODEL TRAINED ON THE PILE, WHOSE WEIGHTS WILL BE MADE FREELY AND OPENLY AVAILABLE TO THE PUBLIC THROUGH A PERMISSIVE LICENSE.

GROUNDING DINO: MARRYING DINO WITH GROUNDED PRE-TRAINING FOR OPEN-SET OBJECT DETECTION

TO EFFECTIVELY FUSE LANGUAGE AND VISION MODALITIES, WE CONCEPTUALLY DIVIDE A CLOSED-SET DETECTOR INTO THREE PHASES AND PROPOSE A TIGHT FUSION SOLUTION, WHICH INCLUDES A FEATURE ENHANCER, A LANGUAGE-GUIDED QUERY SELECTION, AND A CROSS-MODALITY DER FOR CROSS-MODALITY FUSION.

IN-CONTEXT ALIGNMENT: CHAT WITH VANILLA LANGUAGE MODELS BEFORE FINE-TUNING

IN THIS NOTE, WE EXPLORE INFERENCE-TIME ALIGNMENT THROUGH IN-CONTEXT LEARNING.

LATR: 3D LANE DETECTION FROM MONOCULAR IMAGES WITH TRANSFORMER

ON THE ONE HAND, EACH QUERY IS GENERATED BASED ON 2D LANE-AWARE FEATURES AND ADOPTS A HYBRID EMBEDDING TO ENHANCE THE LANE INFORMATION.

C-EVAL: A MULTI-LEVEL MULTI-DISCIPLINE CHINESE EVALUATION SUITE FOR FOUNDATION MODELS

WE PRESENT C-EVAL, THE FIRST COMPREHENSIVE CHINESE EVALUATION SUITE DESIGNED TO ASSESS ADVANCED KNOWLEDGE AND REASONING ABILITIES OF FOUNDATION MODELS IN A CHINESE CONTEXT.

MEMORY-AND-ANTICIPATION TRANSFORMER FOR ONLINE ACTION UNDERSTANDING

BASED ON THIS IDEA, WE PRESENT MEMORY-AND-ANTICIPATION TRANSFORMER (MAT), A MEMORY-ANTICIPATION-BASED APPROACH, TO ADDRESS THE ONLINE ACTION DETECTION AND ANTICIPATION TASKS.

VITS2: IMPROVING QUALITY AND EFFICIENCY OF SINGLE-STAGE TEXT-TO-SPEECH WITH ADVERSARIAL LEARNING AND ARCHITECTURE DESIGN

SINGLE-STAGE TEXT-TO-SPEECH MODELS HAVE BEEN ACTIVELY STUDIED RECENTLY, AND THEIR RESULTS HAVE OUTPERFORMED TWO-STAGE PIPELINE SYSTEMS.

OBJECTSDF++: IMPROVED OBJECT-COMPOSITIONAL NEURAL IMPLICIT SURFACES

UNLIKE TRADITIONAL MULTI-VIEW STEREO APPROACHES, THE NEURAL IMPLICIT SURFACE-BASED METHODS LEVERAGE NEURAL NETWORKS TO REPRESENT 3D SCENES AS SIGNED DISTANCE FUNCTIONS (SDFS).

FINE-TUNING LANGUAGE MODELS WITH JUST FORWARD PASSES

FINE-TUNING LANGUAGE MODELS (LMS) HAS YIELDED SUCCESS ON DIVERSE DOWNSTREAM TASKS, BUT AS LMS GROW IN SIZE, BACKPROPAGATION REQUIRES A PROHIBITIVELY LARGE AMOUNT OF MEMORY.

AUDIOFORMER: AUDIO TRANSFORMER LEARNS AUDIO FEATURE REPRESENTATIONS FROM DISCRETE ACOUSTIC S

IN OUR EXPERIMENTS, WE TREAT DISCRETE ACOUSTIC S AS TEXTUAL DATA AND TRAIN A MASKED LANGUAGE MODEL USING A CLOZE-LIKE METHODOLOGY, ULTIMATELY DERIVING HIGH-QUALITY AUDIO REPRESENTATIONS.

POINTMCD: BOOSTING DEEP POINT CLOUD ENRS VIA MULTI-VIEW CROSS-MODAL DISTILLATION FOR 3D SHAPE RECOGNITION

IN THIS , WE EXPLORE THE POSSIBILITY OF BOOSTING DEEP 3D POINT CLOUD ENRS BY TRANSFERRING VISUAL KNOWLEDGE EXTRACTED FROM DEEP 2D IMAGE ENRS UNDER A STANDARD TEACHER-STUDENT DISTILLATION WORKFLOW.

H2OGPT: DEMOCRATIZING LARGE LANGUAGE MODELS

APPLICATIONS BUILT ON TOP OF LARGE LANGUAGE MODELS (LLMS) SUCH AS GPT-4 REPRESENT A REVOLUTION IN AI DUE TO THEIR HUMAN-LEVEL CAPABILITIES IN NATURAL LANGUAGE PROCESSING.

CHATEVAL: TOWARDS BETTER LLM-BASED EVALUATORS THROUGH MULTI-AGENT DEBATE

TEXT EVALUATION HAS HISTORICALLY POSED SIGNIFICANT CHALLENGES, OFTEN DEMANDING SUBSTANTIAL LABOR AND TIME COST.

3DMOTFORMER: GRAPH TRANSFORMER FOR ONLINE 3D MULTI-OBJECT TRACKING

TRACKING 3D OBJECTS ACCURATELY AND CONSISTENTLY IS CRUCIAL FOR AUTONOMOUS VEHICLES, ENABLING MORE RELIABLE DOWNSTREAM TASKS SUCH AS TRAJECTORY PREDICTION AND MOTION PLANNING.

FLASHATTENTION-2: FASTER ATTENTION WITH BETTER PARALLELISM AND WORK PARTITIONING

WE OBSERVE THAT THE INEFFICIENCY IS DUE TO SUBOPTIMAL WORK PARTITIONING BETWEEN DIFFERENT THREAD BLOCKS AND WARPS ON THE GPU, CAUSING EITHER LOW-OCCUPANCY OR UNNECESSARY SHARED MEMORY READS/WRITES.

DO ANYTHING NOW”: CHARACTERIZING AND EVALUATING IN-THE-WILD JAILBREAK PROMPTS ON LARGE LANGUAGE MODELS “

THE MISUSE OF LARGE LANGUAGE MODELS (LLMS) HAS GARNERED SIGNIFICANT ATTENTION FROM THE GENERAL PUBLIC AND LLM VENDORS.

MS3D++: ENSEMBLE OF EXPERTS FOR MULTI-SOURCE UNSUPERVISED DOMAIN ADAPTION IN 3D OBJECT DETECTION

MS3D++ PROVIDES A STRAIGHTFORWARD APPROACH TO DOMAIN ADAPTATION BY GENERATING HIGH-QUALITY PSEUDO-LABELS, ENABLING THE ADAPTATION OF 3D DETECTORS TO A DIVERSE RANGE OF LIDAR TYPES, REGARDLESS OF THEIR DENSITY.

LCE: AN AUGMENTED COMBINATION OF BAGGING AND BOOSTING IN PYTHON

LCENSEMBLE IS A HIGH-PERFORMING, SCALABLE AND USER-FRIENDLY PYTHON PACKAGE FOR THE GENERAL TASKS OF CLASSIFICATION AND REGRESSION.

VIDEO RETALKING: AUDIO-BASED LIP SYNCHRONIZATION FOR TALKING HEAD VIDEO EDITING IN THE WILD

OUR SYSTEM DISENTANGLES THIS OBJECTIVE INTO THREE SEQUENTIAL TASKS: (1) FACE VIDEO GENERATION WITH A CANONICAL EXPRESSION; (2) AUDIO-DRIVEN LIP-SYNC; AND (3) FACE ENHANCEMENT FOR IMPROVING PHOTO-REALISM.