Lauro Langosco

160

120

20212022202320244 15 155 128

Offentlig åtkomst

2 artiklar

0 artiklar

tillgänglig

inte tillgänglig

Enligt krav från finansiärer

David Scott KruegerUniversity Assistant Professor, University of CambridgeVerifierad e-postadress på cam.ac.uk
Jacob PfauNYUVerifierad e-postadress på nyu.edu
Lee D SharkeyApollo ResearchVerifierad e-postadress på apolloresearch.ai
Jack KochVerifierad e-postadress på jbkjr.com
Micah CarrollPhD student, UC BerkeleyVerifierad e-postadress på berkeley.edu
Katherine M. CollinsMachine Learning PhD Student at the University of CambridgeVerifierad e-postadress på cam.ac.uk
Nitarshan RajkumarUniversity of CambridgeVerifierad e-postadress på cam.ac.uk
Yawen DuanUniversity of CambridgeVerifierad e-postadress på cam.ac.uk
Dmitrii KrasheninnikovUniversity of CambridgeVerifierad e-postadress på cam.ac.uk
Vincent FortuinResearch group leader, Helmholtz AIVerifierad e-postadress på helmholtz-muenchen.de
Heiko StrathmannResearch Scientist at DeepmindVerifierad e-postadress på deepmind.com
Adrian WellerDirector of Research, Machine Learning, University of CambridgeVerifierad e-postadress på eng.cam.ac.uk
Tegan MaharajAssistant Professor at University of TorontoVerifierad e-postadress på polymtl.ca
Alan ChanCentre for the Governance of AI; Mila, Université de MontréalVerifierad e-postadress på mila.quebec
Xander DaviesHarvard UniversityVerifierad e-postadress på college.harvard.edu
Adam GleaveCEO at FAR AIVerifierad e-postadress på far.ai

Lauro Langosco

Verifierad e-postadress på cam.ac.uk


Titel Sortera efter citat Sortera efter år Sortera efter titel	Citeras av Citeras av	År
Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback S Casper, X Davies, C Shi, TK Gilbert, J Scheurer, J Rando, R Freedman, ... arXiv preprint arXiv:2307.15217, 2023	155	2023
Goal Misgeneralization in Deep Reinforcement Learning L Langosco, J Koch, L Sharkey, J Pfau, L Orseau, D Krueger ICML 2022, 9, 2022	76*	2022
Harms from Increasingly Agentic Algorithmic Systems A Chan, R Salganik, A Markelius, C Pang, N Rajkumar, D Krasheninnikov, ... Proceedings of the 2023 ACM Conference on Fairness, Accountability, and …, 2023	40*	2023
Neural Variational Gradient Descent L Langosco di Langosco, V Fortuin, H Strathmann ICML Workshop on Uncertainty & Robustness in Deep Learning, 2021	16*	2021
Unifying Grokking and Double Descent X Davies, L Langosco, D Krueger ML Safety Workshop Neurips 2022, 2023	14	2023
Foundational Challenges in Assuring Alignment and Safety of Large Language Models U Anwar, A Saparov, J Rando, D Paleka, M Turpin, P Hase, ES Lubana, ... arXiv preprint arXiv:2404.09932, 2024	1	2024
Detecting Backdoors with Meta-Models L Langosco, N Alex, W Baker, D Quarel, H Bradley, D Krueger NeurIPS 2023 Workshop on Backdoors in Deep Learning-The Good, the Bad, and …, 2023	1	2023
Training Equilibria in Reinforcement Learning L Langosco, D Krueger, A Gleave Deep Reinforcement Learning Workshop NeurIPS 2022, 2022		2022

Systemet kan inte utföra åtgärden just nu. Försök igen senare.

Artiklar 1–8

Citat per år